Python爬虫---Scrapy项目的创建及运行

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖
掘,信息处理或存储历史数据等一系列的程序中。

1. 安装scrapy:

pip install scrapy

注意:需要安装在python解释器相同的位置,例如:D:\Program Files\Python3.11.4\Scripts

若安装时报错缺少twisted,解决方法:安装twisted合适的版本  twisted下载路径

下载 twisted后,安装twisted:pip install twisted路径

 查看python版本:终端输入python

若报错win32错误,解决方法:pip install pypiwin32

若是仍然报错,可安装anaconda,若使用anaconda,pycharm里的解释器也需要换成anaconda的的路径  Anaconda 安装

(注意:安装anaconda时,安装路径下不能有任何文件,否则可能会导致不能用  )

2.  使用scrapy创建项目:

scrapy startproject 项目名字         (项目名字不能用数字开头,不能包含中文)

项目结构:
spidersinit_.py自定义的爬虫文件.py   ---》由我们自己创建,是实现爬虫核心功能的文件
init__.py
items.py          ---》定义数据结构的地方(爬取的数据有哪些),是一个继承自                scrapy.Item的类
middlewares.py    ---》中间件 代理
pipelines.py      ---》管道文件,里面只有一个类,用于处理下载数据的,后续处理默认是300优先级,值越小优先级越高 (1-10)
settings.py       ---》配置文件 比如: 是否遵守robots协议,user-Agent定义等

3.  创建爬虫文件

在spiders下创建,进入spiders目录: cd .\项目名字\项目名字\spiders

 scripy genspider 爬虫文件的名字  要爬取的网页       (一般情况下不需要添加http协议)

 

4.  运行爬虫程序 

scrapy crawl 爬虫的名字     (名字为程序中的name)

 

 例子:

# spider下的爬虫文件
import scrapyclass TongchengSpider(scrapy.Spider):name = "tongcheng"allowed_domains = ["https://sz.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=classify_E%2Cuuid_YZWJGz6dw5SYe54A6jYeyfiY5J4TPdc8&search_uuid=YZWJGz6dw5SYe54A6jYeyfiY5J4TPdc8&search_type=input"]start_urls = ["https://sz.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=classify_E%2Cuuid_YZWJGz6dw5SYe54A6jYeyfiY5J4TPdc8&search_uuid=YZWJGz6dw5SYe54A6jYeyfiY5J4TPdc8&search_type=input"]def parse(self, response):print("学习scrapy")content = response.text   # 获取的是响应的字符串content1 = response.body  # 获取的是二进制数据# span = response.xpath("xpath语法")  # 可以直接是xpath方法来解析response中的内容span = response.xpath('//div[@id="filter"]/div[@class="tabs"]/a/span')[0]  # xpathprint("=================================================================")print(span.extract())   # 提取seletor对象的data的属性值print(span.extract_first())  # 提取的seletor列表的第一个数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/339239.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux调试器gdb简介

目录 前言: debug VS realse GDB的基本操作 行号显示 设置断点 ​编辑 查看断点信息 删除断点 禁用断点 开启断点 运行 逐过程 逐语句 显示/追踪变量 查看调用堆栈 指定行号跳转 强制执行函数 断点间跳转 修改变量的值 前言: GDB&…

这样管理精密空调系统,比一般方法好用百倍!

在现代社会,随着科技的飞速发展,人们对于舒适、安全、高效的空间环境需求不断增加。在这个背景下,精密空调监控系统作为一种前沿的技术解决方案,正逐渐成为各行各业关注的焦点。 精密空调监控系统不仅仅是对传统空调系统的升级&am…

使用ros_arduino_bridge控制机器人底盘

使用ros_arduino_bridge控制机器人底盘 搭建了ROS分布式环境后,将ros_arduino_bridge功能包上传至Jetson nano,就可以在PC端通过键盘控制小车的运动了。实现流程如下: 系统准备;下载程序;程序修改;分别启动PC与Jetson…

查看navicat链接密码

导出链接,带密码导出 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/239bcf0ad22d4de98524fa4d7db4a30d.png 查看密码 这个是navicat加密后的密码,需要解密 使用一段代码解密 这个是php代码,没有本地php环境,可以看在线…

UV胶水与聚氯乙烯PVC材料的塑料粘接,效果如何?

UV胶水可以与聚氯乙烯PVC很好地粘接。 PVC是一种常见的塑料材料,UV胶水通常对PVC具有良好的粘接性能。UV胶水可以在紫外线照射下迅速固化,形成坚固的粘接,因此通常被用于PVC制品的粘接和修复。 UV胶水与PVC粘接的优点: 1. 快速固…

Hello,World!

“Hello, world”的由来可以追溯到 The C Programming Language 。在这门编程语言中,它被用作第一个演示程序,向人们展示了在计算机屏幕上输出“Hello world”这行字符串的计算机程序。由于这个演示程序的简洁性和直观性,它成为了许多初学者学…

算法训练营第四十二天|动态规划:01背包理论基础 416. 分割等和子集

目录 动态规划&#xff1a;01背包理论基础416. 分割等和子集 动态规划&#xff1a;01背包理论基础 文章链接&#xff1a;代码随想录 题目链接&#xff1a;卡码网&#xff1a;46. 携带研究材料 01背包问题 二维数组解法&#xff1a; #include <bits/stdc.h> using namesp…

【simple-admin】FMS模块如何快速接入阿里云oss 腾讯云cos 服务 实现快速上传文件功能落地

让我们一起支持群主维护simple-admin 社群吧!!! 不能加入星球的朋友记得来点个Star!! https://github.com/suyuan32/simple-admin-core 一、前提准备 1、goctls版本 goctls官方git:https://github.com/suyuan32/goctls 确保 goctls是最新版本 v1.6.19 goctls -v goct…

免费简单好用的 webshell 在线检测:支持 php、jsp、asp等多格式文件

话不多说&#xff0c;直接上图上链接&#xff1a;https://rivers.chaitin.cn/?share3d4f2e8aaec211eea5550242c0a8170c 还是比较好用的&#xff0c;支持 PHP、JSP 文件 webshell 检测&#xff0c;看官方解释文档&#xff0c;引擎使用静态文本特征、骨架哈希、静态语义分析、动…

OpenHarmony社区运营报告(2023年12月)

• 截至2023年12月22日&#xff0c;OpenAtom OpenHarmony&#xff08;简称“OpenHarmony"&#xff09;社区累计超过6700名贡献者&#xff0c;产生26.9万多个PR&#xff0c;2.4万多个Star&#xff0c;6.7万多个Fork&#xff0c;59个SIG。 • 2023年12月16日&#xff0c;以“…

引领文旅创新_实时云渲染赋能2023湾区文采会元宇宙虚拟展厅

2023年11月3日&#xff0c;2023粤港澳大湾区公共文化和旅游产品&#xff08;东莞&#xff09;采购会&#xff08;下文简称&#xff1a;2023湾区文采会&#xff09;开幕式在东莞市文化馆举行。本届大湾区文采会以“文采潮流 融合共生”为主题&#xff0c;集聚了科技、时尚、潮流…

微信小程序:发送小程序订阅消息

文档&#xff1a;小程序订阅消息&#xff08;用户通过弹窗订阅&#xff09;开发指南 目录 步骤一&#xff1a;获取模板 ID步骤二&#xff1a;小程序端获取参数2.1、获取消息下发权限2.2、获取登录凭证&#xff08;code&#xff09; 步骤三&#xff1a;后端调用接口下发订阅消息…