Python学习之路-爬虫提高:scrapy基础-编程知识

Python学习之路-爬虫提高:scrapy基础

news/2025/3/11 10:12:38/文章来源:https://blog.csdn.net/geobuins/article/details/136107400

Python学习之路-爬虫提高:scrapy基础

为什么要学习scrapy

通过前面的学习，我们已经能够解决90%的爬虫问题了，那么scrapy是为了解决剩下的10%的问题么，不是，scrapy框架能够让我们的爬虫效率更高

什么是scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取。

Scrapy 使用了Twisted['twɪstɪd]异步网络框架，可以加快我们的下载速度。

文档地址：http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

异步和非阻塞的区别

前面我们说Twisted是一个异步的网络框架，经常我们也听到一个词语叫做非阻塞，那么他们有什么区别呢？

异步：调用在发出之后，这个调用就直接返回，不管有无结果
非阻塞：关注的是程序在等待调用结果（消息，返回值）时的状态，指在不能立刻得到结果之前，该调用不会阻塞当前线程。

scrapy是工作流程

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其流程可以描述如下：

调度器把requests–>引擎–>下载中间件—>下载器
下载器发送请求，获取响应---->下载中间件---->引擎—>爬虫中间件—>爬虫
爬虫提取url地址，组装成request对象---->爬虫中间件—>引擎—>调度器
爬虫提取数据—>引擎—>管道
管道进行数据的处理和保存

注意：

图中绿色线条的表示数据的传递
注意图中中间件的位置，决定了其作用
注意其中引擎的位置，所有的模块之前相互独立，只和引擎进行交互

scrapy中每个模块的具体作用

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/467916.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

npm报错之package-lock.json found. 问题和淘宝镜像源过期问题

npm报错之package-lock.json found. 问题和淘宝镜像源过期问题

1、package-lock.json found. 问题的解决在执行yarn add react-transition-group -S 安装react-transition-group时出现package-lock.json found. Your project contains lock files generated by tools other than Yarn. It is advised not to mix package managers in orde…

阅读更多...

国内国外最好的数据恢复软件评测，哪种数据恢复软件最有效？

国内国外最好的数据恢复软件评测，哪种数据恢复软件最有效？

随着数字和商业格局在多个领域不断发展，变得更加依赖数据，威胁数据的努力也同样存在。计算机病毒、勒索软件和恶意软件是导致数据丢失的主要威胁，可能会让您的组织陷入停机或严重影响您的工作效率。而解决这个问题的方法就是数据恢复。什么…

阅读更多...

Java网络编程单向通信

Java网络编程单向通信

目录网络编程实例创建客户端创建服务端测试网络编程 Java的网络编程是Java编程语言中用于实现网络通信的一组API和工具。通过Java的网络编程，开发人员可以在Java应用程序中实现客户端和服务器之间的通信，从而构建各种网络应用。以下是Java网络编程的…

阅读更多...

【知识整理】产研中心岗位评定标准之测试岗位

【知识整理】产研中心岗位评定标准之测试岗位

为贯彻执行集团数字化转型的需要,该知识库将公示集团组织内各产研团队不同角色成员的职务“职级”岗位的评定标准; 一、定级定档目的通过对公司现有岗位及相应岗位员工的工作能力、工作水平进行客观公正评定,确定各岗位的等级及同等级岗位员工对应的档级,从而为员工以后的晋升…

阅读更多...

【Java程序设计】【C00271】基于Springboot的地方美食分享网站（有论文）

【Java程序设计】【C00271】基于Springboot的地方美食分享网站（有论文）

基于Springboot的地方美食分享网站（有论文） 项目简介项目获取开发环境项目技术运行截图项目简介这是一个基于Springboot的地方美食分享网站本系统分为系统功能模块、管理员功能模块、以及用户功能模块。系统功能模块：网站首页可以查看首…

阅读更多...

《Linux 简易速速上手小册》第6章: 磁盘管理与文件系统（2024 最新版）

《Linux 简易速速上手小册》第6章: 磁盘管理与文件系统（2024 最新版）

文章目录 6.1 磁盘分区与格式化6.1.1 重点基础知识6.1.2 重点案例：为新硬盘配置分区和文件系统6.1.3 拓展案例 1：创建交换分区6.1.4 拓展案例 2：使用 LVM 管理分区 6.2 挂载与卸载文件系统6.2.1 重点基础知识6.2.2 重点案例：挂载新…

阅读更多...

【STM32 CubeMX】GPIO的工作模式

【STM32 CubeMX】GPIO的工作模式

文章目录前言一、有哪些工作模式？1.1 GPIO的详细介绍1.2 GPIO的内部框图输入模式输出部分总结前言在嵌入式系统开发中，对于STM32微控制器的GPIO（General Purpose Input/Output）引脚的配置和使用是至关重要的。GPIO引脚可以通…

阅读更多...

Elasticsearch使用场景深入详解

Elasticsearch使用场景深入详解

Elasticsearch是一个开源的、分布式的、RESTful风格的搜索和数据分析引擎。它能够解决越来越多的用例，并不仅仅局限于全文搜索。以下是Elasticsearch的一些主要使用场景及其深入详解。 1. 全文搜索 Elasticsearch最初和最基本的应用场景就是全文搜索。全文搜索是指…

阅读更多...

MATLAB知识点：fibonacci函数（★☆☆☆☆）返回斐波那契数列

MATLAB知识点：fibonacci函数（★☆☆☆☆）返回斐波那契数列

讲解视频：可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。 MATLAB教程新手入门篇（数学建模清风主讲，适合零基础同学观看）_哔哩哔哩_bilibili 节选自第3章：课后习题讲解中拓展的函数在讲解第…

阅读更多...

VBA技术资料MF118：在多个工作表中插入页眉和页脚

VBA技术资料MF118：在多个工作表中插入页眉和页脚

我给VBA的定义：VBA是个人小型自动化处理的有效工具。利用好了，可以大大提高自己的工作效率，而且可以提高数据的准确度。我的教程一共九套，分为初级、中级、高级三大部分。是对VBA的系统讲解，从简单的入门，到…

阅读更多...

app逆向-⽹络请求库Retrofit2

app逆向-⽹络请求库Retrofit2

文章目录一、前言二、POST应用三、GET应用一、前言 Retrofit2 是基于 OkHttp 构建的 RESTful HTTP 客户端，专门用于简化 HTTP 请求的过程，尤其是用于访问 RESTful API。 Retrofit2 提供了一个声明式的方式来定义 REST API 接口，通过注解来…

阅读更多...

备战蓝桥杯---动态规划（入门1）

备战蓝桥杯---动态规划（入门1）

先补充一下背包问题： 于是，我们把每一组当成一个物品，f[k][v]表示前k组花费v的最大值。转移方程还是max(f[k-1][v],f[k-1][v-c[i]]w[i]) 伪代码（注意循环顺序）： for 所有组： for vmax.....0…

阅读更多...

推荐文章

最新文章