Windows IDEA Python开发环境安装+爬虫示例

文章目录

    • Python下载安装
    • 开发工具IDEA
    • 包管理
      • 安装pip
      • 基本用法
      • 从 requirements.txt 安装依赖
    • 项目示例
    • 部署
      • 在 Linux 上安装Python
      • 在 Linux 上创建虚拟环境:
      • 安装依赖:
      • 运行你的爬虫

Python下载安装

Python 安装包下载地址:https://www.python.org/downloads/

  • https://www.python.org/downloads/windows/

1.有两个版本的 Python,分别是 Python 3.x 和 Python 2.x,选择3.x

  • embeddable zip file表示.zip格式的绿色免安装版本,可以直接嵌入(集成)到其它的应用程序中;
  • executable installer表示.exe格式的可执行程序,这是完整的离线安装包,一般选择这个即可;

2.下载安装,勾选ADD python to PATH,安装即可

3.验证

# 在控制台输入python
python
# 输出
Python 3.7.9 (tags/v3.7.9:13c94747c7, Aug 17 2020, 18:58:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
# 输入exit()退出
exit()

开发工具IDEA

1.下载Python插件

2.新建项目

其中的环境类型为:选择第一个虚拟环境【python-virtualenv】

虚拟环境为您的Python包提供了一个干净的工作空间,以便您安装的库不会与为其他项目安装的库发生冲突。

包管理

类似java中的maven,python有很多优秀的管理工具pip、anaconda、poetry

这里我们使用自带的pip

安装pip

大多数情况下,Python 安装时已经包含了 pip。您可以通过以下命令检查是否已安装:

pip --version

如果没有安装,可以使用以下命令安装:

python -m ensurepip --default-pip

基本用法

一般来说,第三方库都会在Python官方的pypi.python.org网站注册,要安装一个第三方库,必须先知道该库的名称,可以在官网或者pypi上搜索,比如Pillow的名称叫Pillow,因此,安装Pillow的命令就是:

pip install Pillow
# 查看已安装的包
pip list
# 查找包
pip search package_name
# 安装包
pip install package_name
# 安装特定版本
pip install package_name==1.2.3
# 安装大于或等于某版本的最新版
pip install "package_name>=1.2.3"
# 升级包 到最新版本
pip install --upgrade package_name
# 卸载包
pip uninstall package_name
# 查看包的信息
pip show package_name
# 
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

从 requirements.txt 安装依赖

如果您有一个 requirements.txt 文件,其中列有项目依赖的包及其版本,可以使用以下命令一次性安装它们:

pip install -r requirements.txt

requirements.txt示例

# 项目依赖列表
package1==1.2.3
package2>=2.0.0
package3<4.0.0

根据具体的包和版本要求来编辑这个文件。通常,在团队协作或部署项目时,使用 requirements.txt 是一种标准的做法,以确保每个开发者或部署环境都使用相同的依赖版本。

导出依赖信息

在你的项目目录下,运行以下命令,将当前虚拟环境的依赖导出到 requirements.txt 文件:

pip freeze > requirements.txt

这会生成一个包含项目依赖的文件,其中包括 requestsbeautifulsoup4

项目示例

网络爬虫是一种自动化程序,用于抓取互联网上的数据。网络爬虫可以自动访问网页、解析网页内容、提取所需数据、存储数据等。通过使用网络爬虫,我们可以获取大量的数据,从而进行数据分析、数据挖掘等应用。

  • 在抓取网站数据时,需要遵守网站的robots协议和使用条款等规定,不得未经授权地进行抓取。
  • 在抓取网站数据时,需要考虑网络性能和资源消耗,避免对网站造成不必要的负担。
  • 在抓取网站数据时,需要考虑数据质量和数据安全,避免抓取到恶意数据或错误数据。

网络爬虫常用库如下

  • requests库:用于发送HTTP请求和接收HTTP响应。例如,使用requests.get(url)来发送GET请求,使用requests.post(url, data)来发送POST请求。
  • BeautifulSoup库:用于解析HTML和XML文档。例如,使用BeautifulSoup(html, ‘html.parser’)来解析HTML文档,使用BeautifulSoup(xml, ‘xml’)来解析XML文档。

以下是一个爬虫示例:

首先安装上面2个依赖库

pip install requests

pip install beautifulsoup4

import requests
from bs4 import BeautifulSoupurl = 'https://www.python.org/'# 发送HTTP请求
response = requests.get(url)# 解析HTML文档
soup = BeautifulSoup(response.text, 'html.parser')# 提取数据
title = soup.title.string
links = [link.get('href') for link in soup.find_all('a')]# 打印结果
print(title)
for link in links:print(link)

部署

在 Linux 上安装Python

sudo yum install python3
# 显示已安装的版本号
python --version
# python3用这个
python3 --version

在 Linux 上创建虚拟环境:

在 Linux 服务器上,进入你的项目目录,并创建一个新的虚拟环境:

python3 -m venv venv

激活虚拟环境:

source venv/bin/activate

安装依赖:

使用 pip 安装项目依赖:

pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
pip install --upgrade pip
# 或者手动安装
pip install requestspip install beautifulsoup4

运行你的爬虫

确保你的项目中有一个入口文件(例如,main.py),然后在虚拟环境中运行你的爬虫:

python3 main.py

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/214643.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

windbg双机调试

1&#xff1a;虚拟机增加串行端口 2&#xff1a;操作步骤&#xff1a;编辑虚拟机设置 -> 添加 -> 串行端口 -> 完成 参数配置&#xff1a;使用命名管道 -> \\.\pipe\com_1 -> 该端是服务器&#xff0c;另一端是应用程序 -> 轮询时主动放弃CPU->确定 3 -b…

【学习笔记】GameFramework的非官方实例TowerDefense-GameFramework-Demo的流程

一、从游戏开始到打开一个Menu GameStart.unity GameEntry.Builtin.cs ProcedureComponent.cs GameStart.unity->GameFramework->Builtin->Procedure ProcedureLaunch.cs ProcedureSplash.cs ProcedurePreload.cs ProcedureLoadingScene.cs DataTables/Scene.txt Pro…

好的程序员有什么特质呢?

程序员想要提升自己&#xff0c;一定要关注到工作中的方方面面。而一个好的程序员&#xff0c;一般都有这些特质&#xff1a; 弱者抱怨环境&#xff0c;强者改变环境 不要试图通过抱怨环境来获得工作环境上的改变&#xff0c;这不仅不会给你带来任何实质性的改变&#xff0c;…

量子计算突破金融信用评分!真机测试完整报告公开!

摘要&#xff1a;信用评分是银行等金融机构中一个关键的风险管理场景&#xff0c;也是贷款业务的重中之重。而特征选择是其中必不可少的数据预处理策略&#xff0c;通过从海量特征中提取有效特征&#xff0c;就可以构建更简单、准确的机器学习模型&#xff0c;从而提高数据挖掘…

为什么考完软考中级还要考高级呢?

为什么考完软考中级还要考高级呢&#xff1f;软考高级含金量大吗&#xff1f; 根据《计算机技术与软件专业技术资格(水平)考试暂行规定》第十条&#xff1a; “通过考试并获得相应级别计算机专业技术资格&#xff08;水平&#xff09;证书的人员&#xff0c;表明其已具备从事…

我在electron中集成了自己的ai大模型

同学们可以私信我加入学习群&#xff01; 正文开始 前言一、大模型选择二、获取key三、调用api四、调用ai模型api时&#xff0c;解决跨域总结 前言 最近单位把gpt、文心一言、通义千问、星火等等等等你能想到的ai大模型都给禁掉了&#xff0c;简直丧心病狂。 不知道有多少感同…

京东采销面对面,洞悉行业新趋势 京东3C数码生态大会在武汉圆满举行

为促进湖北省3C数码产业发展&#xff0c;本地企业降本增效、促进行业交流、充分发挥京东集团全链路生态服务能力&#xff0c;支持地方3C特色产业提质增量。2023年11月23日&#xff0c;由京东零售、京东物流主办&#xff0c;湖北省电子商务行业协会联合协办的“聚力共赢、携手共…

算法笔记:OPTICS 聚类

1 基本介绍 OPTICS(Ordering points to identify the clustering structure)是一基于密度的聚类算法 OPTICS算法是DBSCAN的改进版本 在DBCSAN算法中需要输入两个参数&#xff1a; ϵ 和 MinPts &#xff0c;选择不同的参数会导致最终聚类的结果千差万别&#xff0c;因此DBCSAN…

Hologres性能优化指南1:行存,列存,行列共存

在Hologres中支持行存、列存和行列共存三种存储格式&#xff0c;不同的存储格式适用于不同的场景。 在建表时通过设置orientation属性指定表的存储格式&#xff1a; BEGIN; CREATE TABLE <table_name> (...); call set_table_property(<table_name>, orientation,…

什么是工业物联网(IOT)?这样的IOT平台你需要吗?——青创智通

物联网(IOT)是指在互联网上为传输和共享数据而嵌入传感器和软件的互联设备的广泛性网络。这允许将从物理对象收集的信息(数据)存储在专用服务器或云中。通过分析这些积累的信息&#xff0c;通过提供最优的设备控制和方法&#xff0c;可以实现一个更安全、更方便的社会。在智能家…

2023.11.23 云服务器实现 Spring Boot 项目文件上传并访问

环境介绍 云服务器&#xff1a;京东云云服务器系统&#xff1a; CentOS 7.9JDK 版本&#xff1a;1.8Spring Boot 版本&#xff1a;2.7.17 具体步骤 步骤一 首先我们得先创建一个 Spring Boot 项目 创建如下目录结构 关于如何创建一个 Spring Boot 项目 请点击下方链接详细了解 …

ARKit增加一个盒子

ARKit增加一个盒子 体验一下ARKit的能力&#xff0c;在室内随便加点小球&#xff0c;然后在AR中显示出来。 效果如下图&#xff1a; 以下为操作流程。 新建项目 新建一个空项目&#xff0c;项目一定要选择 Augmented Reality App&#xff0c;能够省很多的事。 之后的 conte…