【爬虫基础1.1课】——requests模块

目录索引

  • ==requests模块的作用:==
    • 实例引入:
  • ==特殊情况:==
    • 锦囊1:
    • 锦囊2:

这一个栏目,我会给出我从零开始学习爬虫的全过程。感兴趣的小伙伴可以关注一波,用于复习和新学都是不错的选择。
那么废话不多说,就让我们开始吧。
请跟我念口号:
爬虫,爽!
在这里插入图片描述

requests模块的作用:

一句话概括:用于发送和接受网站的响应。

Tips: 你给谁发请求,接收到的就是哪个网页传回来的响应。所以想学好爬虫,第一步就是向正确的网址发送响应。

实例引入:

  1. 比如说我们拿京东网站来举例。里面有非常多的数据,包括一切动态加载的数据。那如果我要只想要当前网页的静态数据,该怎么获取呢?

在这里插入图片描述
2.打开网页检查

在这里插入图片描述

这里面最重要的两个按钮就是:元素和网络。
其中,元素是整个网页的html代码。
而网络是我们爬虫的重点。

3.进入到网络界面后,找到对应的url

记得要刷新一下,这里面有各种各样的数据,包括动态的。我们需要将当前网页的网址复制到搜索框里进行检索。

在这里插入图片描述

那么跳出来的响应,就是我们要的当前网页返回的数据

4.检查url是否正确

从响应里面的response查看、搜索里面是否有我们需要的数据

在这里插入图片描述

特殊情况:

我们在实际使用爬虫的过程中,经常会遇到内容不在该页面或者压根找不到的情况。非常麻烦,那该怎么办呢?
莫慌,吾有良计!

锦囊1:

利用search按钮,对全页面的response数据进行总检索。

例子展示:

我们首先要拿出最经典的豆瓣电影网来做参考:
在这里插入图片描述

功夫是一个相当经典的电影。看上述图片,我们用本文开篇提到的搜索方法,发现功夫这个词条根本就不存在当前网页的response中。这时候我们就需要用到search按钮。

在这里插入图片描述

控制台中左上角的这个小放大镜,就是我们提到的search按钮。它的功能是在所有的response中检索相应的词条。

在这里插入图片描述

这下我们就能找到相应的url了,是不是非常简便呢。

锦囊2:

利用翻页的异步请求方式。如果锦囊1依旧找不到对应的url的话,我们就需要使用异步请求来查看对应的url。

1.首先清空网页内容,点击红框按钮即可。

在这里插入图片描述
2.我们都知道前端页面的设计具有规律性,网页中第2页获取请求的方式,跟第一页是一样的。所以我们会通过查看第二页的方式来获取对应的url。

在这里插入图片描述
3.寻找页码规律就可以找出对应的url了。最后,我们会得到一个json格式的数据。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/681990.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vscode中配置 leetcode 插件

1. 环境准备 插件安装介绍 介绍 VS Code 1.23.0 Node.js 10 注意:请确保Node在PATH环境变量中。您也可以通过设定 leetcode.nodePath 选项来指定 Node.js 可执行文件的路径。 1.1 Node.js 安装 首先,您需要解压下载的 .tar.xz 文件。您可以使用以下…

LeetCode例题讲解:只出现一次的数字

给你一个 非空 整数数组 nums ,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。 你必须设计并实现线性时间复杂度的算法来解决此问题,且该算法只使用常量额外空间。 示例 1 : 输入&#xff…

动态代理,案例理解

动态代理:代理就是被代理者没有能力或者不愿意去完成某件事情,需要找个人代替自己去完成这件事,动态代理就是用来对业务功能(方法)进行代理的。 步骤: 1.必须有接口,实现类要实现接口&#xf…

第 8 章 电机测速(自学二刷笔记)

重要参考: 课程链接:https://www.bilibili.com/video/BV1Ci4y1L7ZZ 讲义链接:Introduction Autolabor-ROS机器人入门课程《ROS理论与实践》零基础教程 8.3.3 电机测速01_理论 测速实现是调速实现的前提,本节主要介绍AB相增量式编码器测速原理。 1.概…

域控安全 ----> Ntds.dit文件抓取

大家还记得内网渗透的初衷吗??? 找到域馆,拿下域控!! 拿下了域控就是拿下了整个域!! 但是大家知道拿下域环境之后应该怎么操作吗(灵魂拷问)??? …

最全网络安全学习路线!涵盖所有知识点,看这一篇掌握网安技能!

目录 零基础小白,到就业!入门到入土的网安学习路线! 建议的学习顺序: 一、夯实一下基础,梳理和复习 二、HTML与JAVASCRIPT(了解一下语法即可,要求不高) 三、PHP入门 四、MYSQL…

pytest + yaml 框架 - 参数化读取文件路径优化

针对小伙伴提出参数化时读取外部文件,在项目根路径运行没问题,但是进入到项目下子文件夹运行用例,就会找不到文件问题做了优化。 关于参数化读取外部文件相关内容参考前面这篇pytest yaml 框架 -25.参数化数据支持读取外部文件txt/csv/json/…

「C++ STL篇 1-0」string类的使用

目录 〇、概念 一、string类的构造函数 二、赋值运算符重载 三、有关容量的操作 四、string对象的访问 五、遍历string对象的字符数组 六、string对象的修改 七、string对象的常用操作 八、字符串和数字间的转换 拓展】 练习】 源代码】 〇、概念 1. string类是什么&#xff1…

IP地址证书的详细申请步骤

IP地址证书申请的条件有两个,一个是此IP必须是公网IP,另一个是IP的80和443端口必须允许短暂开放。满足这两个条件才能为其部署SSL证书。 IP地址ssl证书申请网址链接https://www.joyssl.com/certificate/select/ip_certificate.html?nid16 1 访问提供IP…

Hadoop3:HDFS的Shell操作(常用命令汇总)

一、简介 什么是HDFS的Shell操作? 很简单,就是在Linux的终端,通过命令来操作HDFS。 如果,你们学习过git、docker、k8s,应该会发现,这些命令的特点和shell命令非常相似 二、常用命令 1、准备工作相关命令…

哈迪斯2发售时间 哈迪斯游戏攻略 苹果电脑怎么玩《哈迪斯2》

这两年肉鸽游戏大爆发,只要不是美女抽卡养成那基本上就是肉鸽了,但是真正让玩家口服心服的肉鸽游戏不多,《哈迪斯》绝对算是其中一款。 近日让玩家期待已久的肉鸽大作,晶体管工作室制作的《哈迪斯》正统续作《哈迪斯2》终于开卖了…

关于模型参数融合的思考

模型参数融合通常指的是在训练过程中或训练完成后将不同模型的参数以某种方式结合起来,以期望得到更好的性能。这种融合可以在不同的层面上进行,例如在神经网络的不同层之间,或者是在完全不同的模型之间。模型参数融合的目的是结合不同模型的…