Python爬虫——scrapy_基本使用-编程知识

Python爬虫——scrapy_基本使用

news/2024/11/16 8:34:27/文章来源:https://blog.csdn.net/m0_63757342/article/details/132285403

安装scrapy

pip install scrapy

创建scrapy项目，需要在终端里创建
注意：项目的名字开头不能是数字，也不能包含中文

scrapy startproject 项目名称
示例：
scrapy startproject scra_baidu_36

创建好后的文件
在这里插入图片描述
3. 创建爬虫文件：
要在spider文件里面创建爬虫文件
先在终端中cd到spider文件里
创建爬虫文件

scrapy genspider 爬虫文件名 要爬取的网页
示例：
scrapy genspider baidu http://www.baiud.com

创建的爬虫文件内容：
在这里插入图片描述
name 爬虫的名字，用于运行爬虫的时候使用的值
allowed_domains 允许访问的域名
start_urls 起始url地址，指的是第一次要访问的域名
parse 是执行了start_urls之后执行的方法，方法中的response就是返回的那个对象

运行爬虫文件
写一个print()

在终端输入

scrapy crawl 爬虫的名字
示例：
scrapy crawl baidu

但是运行完并没有给我们返回任何数据
在这里插入图片描述
这是因为有robots协议
解决办法：只需要在settings.py文件里把 ROBOTSTXT_OBEY = True 给注释掉就可以了(或者把True改成False也可以)

然后再重新运行一遍就可以获取到数据了

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/66679.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

计算机视觉中的特征检测和描述

计算机视觉中的特征检测和描述

一、说明这篇文章是关于计算机视觉中特征检测和描述概念的简要理解。在其中，我们探讨了它们的定义、常用技术、简单的 python 实现和一些限制。二、什么是特征检测和描述？ 特征检测和描述是计算机视觉中的基本概念，在图像识别、对象跟踪和图…

阅读更多...

mysql进阶篇（二）

mysql进阶篇（二）

前言「作者主页」：雪碧有白泡泡「个人网站」：雪碧的个人网站「推荐专栏」： ★java一站式服务 ★ ★ React从入门到精通★ ★前端炫酷代码分享 ★ ★ 从0到英雄，vue成神之路★ ★ uniapp-从构建到提升★ ★ 从0到英雄&#xff…

阅读更多...

【数据结构】栈与队列

【数据结构】栈与队列

1 栈 1.1 栈的概念及结构栈：一种特殊的线性表，其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶，另一端称为栈底。栈中的数据元素遵守后进先出 LIFO (Last In First Out) 的原则。压栈：栈…

阅读更多...

js案例：1.简单计算器

js案例：1.简单计算器

目录一.效果图二.实现思路整体思路 1.关键是dom操作 2.设置点击事件 3.数据类型的隐式转换和赋值三.完整代码一.效果图二.实现思路整体思路 1.关键是dom操作通过 document.getElementById(id) 获取html中的dom元素每一个html标签都是一个对象&…

阅读更多...

【小练习】交互式网格自定义增删改错误记录及解决（进行中）

【小练习】交互式网格自定义增删改错误记录及解决（进行中）

经过之前的学习，已经能创建简单的交互式网格并设置自定义增删改按钮，但是实现上还是存在一些问题，来完善优化一下。首先是修改，正常修改都会弹出修改框，里面是之前存储的信息，根据实际需要对其进行修改&a…

阅读更多...

springboot国际化

springboot国际化

springboot国际化不需要引入额外的jar包参考：https://zhuanlan.zhihu.com/p/551605839 1.rources要创建Resource Bundle 2.yml配置中引入Resource Bundle 引入Resource Bundle spring:messages:encoding: UTF-8basename: i18n/messages_common3.创建国际化工具…

阅读更多...

WebRTC音视频通话-新增或修改SDP中的码率Bitrate限制

WebRTC音视频通话-新增或修改SDP中的码率Bitrate限制

WebRTC音视频通话-新增或修改SDP中的码率Bitrate限制参数之前搭建ossrs服务，可以查看：https://blog.csdn.net/gloryFlow/article/details/132257196 之前实现iOS端调用ossrs音视频通话，可以查看：https://blog.csdn.net/gloryFlo…

阅读更多...

一个概率论例题引发的思考

一个概率论例题引发的思考

浙江大学版《概率论与数理统计》一书，第13章第1节例2： 这个解释和模型比较简单易懂。接下来，第13章第2节的例2也跟此模型相关： 在我自己的理解中，此题的解法跟上一个题目一样，其概率如下面的二维矩阵&a…

阅读更多...

61. 旋转链表

61. 旋转链表

61. 旋转链表题目-中等难度示例1. 快慢指针找到分割位置2. 连成环后截断题目-中等难度相关企业给你一个链表的头节点 head ，旋转链表，将链表每个节点向右移动 k 个位置。示例示例 1： 输入：head [1,2,3,4,5], k 2 输出…

阅读更多...

STM32基于CubeIDE和HAL库基础入门学习笔记：蓝牙 WIFI STM32连接阿里云

STM32基于CubeIDE和HAL库基础入门学习笔记：蓝牙 WIFI STM32连接阿里云

文章目录： 一：蓝牙模块 1.蓝牙模块透传收发测试程序 bt.h bt.c usart.c main.c 2.蓝牙模块AT指令发送与回复判断程序 usart.c main.c 3.蓝牙模块APP按钮控制应用程序 main.c 4.蓝牙模块APP专业调试测试程序（操控界面：按…

阅读更多...

面试热题（合并K个升序链表）

面试热题（合并K个升序链表）

给定一个链表数组，每个链表都已经按升序排列。请将所有链表合并到一个升序链表中，返回合并后的链表。输入：lists [[1,4,5],[1,3,4],[2,6]] 输出：[1,1,2,3,4,4,5,6] 解释：链表数组如下： [1->4->5,1…

阅读更多...

【第二阶段】kotlin函数引用

【第二阶段】kotlin函数引用

针对上篇传入函数参数我们也可以重新定义一个函数，然后在main中调用时传入函数对象 lambda属于函数类型的对象，需要把普通函数变成函数类型的对象（函数引用），使用“：：” /*** You can edit, ru…

阅读更多...

推荐文章

最新文章