py爬虫入门笔记(request.get的使用)

文章目录

  • Day1
    • 1. 了解浏览器开发者工具
    • 2. Get请求http://baidu.com
    • 3. Post请求https://fanyi.baidu.com/sug
    • 4. 肯德基小作业
  • Day2
    • 1. 正则表达式
    • 2. 使用re模块
    • 3. 爬取豆瓣电影Top250的第一页
    • 4. 爬取豆瓣电影Top250所有的250部电影信息
  • Day3
    • 1. xpath的使用
    • 2. 认识下载照片+线程池的语法
  • 题外话

我所参考的学习资料,该教程位于B站并可以通过 传送门访问。

没有完全照着视频敲,所以代码和视频的有些不一样,但是大体上的思路是一样的。下面的笔记供自己复习,简单的爬虫格式还是很固定的,爬点简单的东西拷贝过来直接用就行(虽然其实是我记不住接口😭😭😭)

Day1

1. 了解浏览器开发者工具

基本介绍浏览器开发工具的各个部分

image-20240104145639496

源码介绍

image-20240104144011996

其余的相关字段

image-20240104144239197

相对应的字段

image-20240104144132543

来源:https://blog.csdn.net/maidu_xbd/article/details/94062690

爬虫拿到的不是Elements,拿到的是源码

2. Get请求http://baidu.com

装requests包,请求http://baidu.com再获取响应并且写入文件

import requestsurl='http://baidu.com'resp=requests.get(url) #请求百度,记住接受返回值,类型是Response类
print(type(resp)) #检查resp的类型# print(resp.text) #还可以打印状态码,报头等等with open("mybaidu.html",mode="w") as f:f.write(resp.text) #写入文件

文件内容

<html>
<meta http-equiv="refresh" content="0;url=http://www.baidu.com/">
</html>

pycharm有个小图标可以直接点开,也可以自己创建一个html文件复制进去。

content=“0;url=http://www.baidu.com/”:规定了刷新的时间间隔和目标 URL。这里的 0 表示立即刷新,url=http://www.baidu.com/ 是重定向的目标 URL。所以会展示出百度的页面

3. Post请求https://fanyi.baidu.com/sug

打开百度翻译,随便输入一个单词,打开Network->XHR->找到你输入的这个单词的请求->找到请求的类型和请求的url->发现携带了数据,在写代码时记得构建数据

注意会有多个请求,你输入一个单词就会造成一个请求,比如你输入apple,会出现 a ap app appl apple这么几个请求

image-20240104153513721

如果收到的response是乱码的,可以检查request的编码,然后修改代码在发送的请求加上对应的编码

image-20240104153738876

import requestsurl="https://fanyi.baidu.com/sug"
mydata={"kw":"apple"
}resp=requests.post(url,data=mydata)
resp.encoding="utf-8"
print(resp.status_code)
print(resp.text) #打出的字符含有\u是json的转义字符,使用json方法解析json数据返回的是一个字典
print(resp.json())

output:

200
{"errno":0,"data":[{"k":"Apple","v":"n. \u82f9\u679c\u516c\u53f8\uff0c\u539f\u79f0\u82f9\u679c\u7535\u8111\u516c\u53f8"},{"k":"apple","v":"n. \u82f9\u679c; \u82f9\u679c\u516c\u53f8; \u82f9\u679c\u6811"},{"k":"APPLE","v":"n. \u82f9\u679c"},{"k":"apples","v":"n. \u82f9\u679c\uff0c\u82f9\u679c\u6811( apple\u7684\u540d\u8bcd\u590d\u6570 ); [\u7f8e\u56fd\u53e3\u8bed]\u68d2\u7403; [\u7f8e\u56fd\u82f1\u8bed][\u4fdd\u9f84\u7403]\u574f\u7403; "},{"k":"Apples","v":"[\u5730\u540d] [\u745e\u58eb] \u963f\u666e\u52d2"}],"logid":2500940021}
{'errno': 0, 'data': [{'k': 'Apple', 'v': 'n. 苹果公司,原称苹果电脑公司'}, {'k': 'apple', 'v': 'n. 苹果; 苹果公司; 苹果树'}, {'k': 'APPLE', 'v': 'n. 苹果'}, {'k': 'apples', 'v': 'n. 苹果,苹果树( apple的名词复数 ); [美国口语]棒球; [美国英语][保龄球]坏球; '}, {'k': 'Apples', 'v': '[地名] [瑞士] 阿普勒'}], 'logid': 2500940021}

4. 肯德基小作业

image-20240104171815843

import requestsurl="https://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword"
mydata={
"cname":"",
"pid":"",
"keyword": "徐家汇",
"pageIndex": "1",
"pageSize": "10",
}resp=requests.post(url,data=mydata)
print(resp.status_code)
print(resp.json())

output:

200
{'Table': [{'rowcount': 3}], 'Table1': [{'rownum': 1, 'storeName': '瑞金', 'addressDetail': '徐家汇路618号B2层商铺号B2-F-13', 'pro': 'Wi-Fi,点唱机,礼品卡,溯源', 'provinceName': '上海市', 'cityName': '上海市'}, {'rownum': 2, 'storeName': '上海肯德基有限公司徐家汇公园K-COFFEE', 'addressDetail': '徐家汇公园内', 'pro': '高铁店,手机点餐', 'provinceName': '上海市', 'cityName': '上海市'}, {'rownum': 3, 'storeName': '上海肯德基有限公司徐家汇公园K-COFFEE', 'addressDetail': '徐家汇公园内', 'pro': '高铁店,手机点餐', 'provinceName': '上海市', 'cityName': '上海市'}]}进程已结束,退出代码0

Day2

1. 正则表达式

板书,直接搬过来了(正则不用去纠结很难的,一些简单的会写就行,严格的话比如检测用户名之类的都有现成的,比自己写得好还没啥漏洞)

![Y [ ] Y []_Y []YXU A Y P C I 5 B Q Q 67 ‘ M t m b ] ( h t t p s : / / p i c − 1304888003. c o s . a p − g u a n g z h o u . m y q c l o u d . c o m / i m g / Y AYPCI5BQQ67`M_tmb](https://pic-1304888003.cos.ap-guangzhou.myqcloud.com/img/Y AYPCI5BQQ67‘Mtmb](https://pic1304888003.cos.apguangzhou.myqcloud.com/img/Y%5B%5D_Y X U XU XUAYPCI5BQQ67%60M_tmb.png)

惰性匹配与贪婪匹配(惰性匹配有就匹配一次,贪婪匹配就是能匹配多少就匹配多少)

image-20240104174303550

正则匹配网站:https://tool.oschina.net/regex?optionGlobl=global

手册:https://tool.oschina.net/uploads/apidocs/jquery/regexp.html

2. 使用re模块

导入re模块(内置的,不用pip)->练习findall search finditer方法

import reprint("findall")
result=re.findall(r"\d+","这是一个测试字符串,包含123和456。") #找到所有的数字,这里的r是为了避免处理转义字符,不加r字符串里的\默认转义
print(result) #返回的是一个列表
print()print("search")
result=re.search(r"\d+","这是一个测试字符串,包含123和456。")
print(result) #Match对象
print(result.group()) #使用group分组处理
print()print("finditer")
result=re.finditer(r"\d+","这是一个测试字符串,包含123和456。")
print(result) #迭代器对象
for item in result:# print(item) #每个item都是Match对象,group处理print(item.group())
print()

output

findall
['123', '456']search
<re.Match object; span=(12, 15), match='123'>
123finditer
<callable_iterator object at 0x0000015AF5B88C70>
123
456进程已结束,退出代码0

finditer和findall的区别,如果大量数据处理可使用finditer节省内存,即不用一次性处理所有数据,迭代器结合循环就可以获取前一百个匹配啊之类的

使用compile预处理构造正则表达式对象,符合复用原则,也提高了代码的可读性

import re
obj=re.compile(r"\d+") #构建正则对象obj
result=obj.findall("这是一个测试字符串,包含123和456。")
print(result)
result=obj.search("这是一个测试字符串,包含123和456。")
print(result.group())

output

['123', '456']
123进程已结束,退出代码0

使用group进行分组提取出信息

import re
s="""
<div><a href="baidu.com">我是百度</a></div>
<div><a href="google.com">我是谷歌</a></div>
<div><a href="360.com">我是360</a></div>
"""
obj=re.compile(r'<div><a href="(?P<url>.*?)">(?P<name>.*?)</a></div>') #用.*?惰性匹配,?P<url>是进行分组,组名是url
result=obj.finditer(s)
for item in result:# print(item.groupdict()) #返回字典url=item.group("url")name=item.group("name")print(url,name)

output:

baidu.com 我是百度
google.com 我是谷歌
360.com 我是360进程已结束,退出代码0

3. 爬取豆瓣电影Top250的第一页

我们要获取电影的名字 年份 和平均得分

image-20240106020715561

通过豆瓣电影Top250页面源码可知我们可以直接获得这些信息,所以爬取的基本流程就是获取源码->正则提取出需要的信息->分组打印即可

关键在于正则的编写

其中有一个关于反爬的机制,需要给我们的请求头部加一些特定的信息,比如

“User-Agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36”,

表示我们的请求不是由自动化程序发出的,如果不加伪装,默认情况下写的py爬虫的请求头部User-Agent的值会是

‘User-Agent’: ‘python-requests/2.28.1’

豆瓣那边发现是自动化程序发出的请求就不会给响应了(状态码也变成了418)

所以我们改一下头部信息再发过去(伪装成一个正常设备发过去的请求)

import re
import requestsurl="https://movie.douban.com/top250"
header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
}
resp=requests.get(url,headers=header)
resp.encoding="utf-8" 
print(resp.status_code) #观察状态码是不是200
# print(resp.text)obj=re.compile(r'<div class="item">.*?'r'<span class="title">(?P<name>.*?)</span>.*?'r'<br>(?P<year>.*?)&nbsp.*?'r'<span class="rating_num" property="v:average">(?P<score>.*?)</span>',re.S) #.*里的.默认匹配非换行符之外的所有字符,re.S选项表示换行符也参与匹配。因为请求到的源码里有很多换行符,所以必须加这个选项result=obj.finditer(resp.text)
for item in result:name=item.group('name')year=item.group('year')year=year.split()[0] #split返回的是列表,处理一下score=item.group('score')print(name,year,score)

output

200
肖申克的救赎 1994 9.7
霸王别姬 1993 9.6
阿甘正传 1994 9.5
泰坦尼克号 1997 9.5
这个杀手不太冷 1994 9.4
千与千寻 2001 9.4
美丽人生 1997 9.5
星际穿越 2014 9.4
盗梦空间 2010 9.4
辛德勒的名单 1993 9.5
楚门的世界 1998 9.4
忠犬八公的故事 2009 9.4
海上钢琴师 1998 9.3
三傻大闹宝莱坞 2009 9.2
放牛班的春天 2004 9.3
机器人总动员 2008 9.3
疯狂动物城 2016 9.2
无间道 2002 9.3
控方证人 1957 9.6
大话西游之大圣娶亲 1995 9.2
熔炉 2011 9.4
教父 1972 9.3
触不可及 2011 9.3
当幸福来敲门 2006 9.2
寻梦环游记 2017 9.1进程已结束,退出代码0

数据拿到之后怎么处理就不是爬虫关心的事情了。

4. 爬取豆瓣电影Top250所有的250部电影信息

找到分页的规律构造每一页的url,构造好url后就转换成了爬取每一页的电影信息

找url的规律(点击分页按钮,发现start后面的数字呈规律性递增)

https://movie.douban.com/top250?start=0&filter=

https://movie.douban.com/top250?start=25&filter=

https://movie.douban.com/top250?start=50&filter=

import re
import requests
def GetOnePage(url:str):#传入url爬取这一页的所有电影信息header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",}resp = requests.get(url, headers=header)# resp=requests.get(url)resp.encoding = "utf-8"# print(resp.request.headers)# print(resp.status_code)# print(resp.text)obj = re.compile(r'<div class="item">.*?'r'<span class="title">(?P<name>.*?)</span>.*?'r'<br>(?P<year>.*?)&nbsp.*?'r'<span class="rating_num" property="v:average">(?P<score>.*?)</span>', re.S)result = obj.finditer(resp.text)for item in result:name = item.group('name')year = item.group('year')year = year.split()[0]score = item.group('score')str=name+" "+year+"  "+score+"\n" #构建表示信息的字符串# print(str)with open('info.txt',mode='a') as f:f.write(str)#创建文件如何写入电影信息# GetOnePage('https://movie.douban.com/top250') #测试函数
# https://movie.douban.com/top250?start=25&filter=
for i in range(0,10): #循环构造urlpage=i*25url=f"https://movie.douban.com/top250?start={page}&filter=" #f-string便于插入值,r-string取消转义,利用f-str构造urlGetOnePage(url)

output:

写到了文件里面

image-20240110011308355

Day3

1. xpath的使用

语法文档:https://docs.python.org/zh-cn/3/library/xml.etree.elementtree.html?highlight=xpath#elementtree-parsing-xml

熟悉xpath相关的一些语法

import requests
from lxml import etreeurl='http://www.baidu.com/' #这里没加请求头,baidu有反爬机制,加了请求头和不加得到的数据是不同的
#myhead={
#    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
#}
resp=requests.get(url)
resp.encoding='utf-8'
# print(resp.text) #打印响应的数据
et=etree.HTML(resp.text)
print(et) #印证确实是Element html对象result=et.xpath("/html/head/title/text()") #逐层往下找,text()表示标签之间的文本,如<p>123</p>
print(result)
result=et.xpath("/html/head/link/@href") #匹配link标签的href属性
print(result)print()
keys=et.xpath("//div[@id='u1']/a/text()") #//div表示匹配HTML里所有的div,div[@id='u1']选择特定属性的div
# print(keys)
values=et.xpath("//div[@id='u1']/a/@href")
# print(values)
result=dict(zip(keys,values))
for item in result.items(): #一一对应输出print(item)

output:

<Element html at 0x294a32b1000>
['百度一下,你就知道']
['http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css']('新闻', 'http://news.baidu.com')
('hao123', 'http://www.hao123.com')
('地图', 'http://map.baidu.com')
('视频', 'http://v.baidu.com')
('贴吧', 'http://tieba.baidu.com')
('更多产品', '//www.baidu.com/more/')进程已结束,退出代码0

2. 认识下载照片+线程池的语法

下载图片

import requestsurl='https://images.pexels.com/photos/2950499/pexels-photo-2950499.jpeg' #网上随便找了一张图片
resp=requests.get(url)
print(resp.status_code) #看一下请求是否成功#写入图片得使用content,返回的是二进制数据,所以得使用wb打开而不是w。不能使用text,text返回的是文本数据
with open('test.jpg',mode='wb') as f: f.write(resp.content)

output:

运行成功后当前目录下多出一张test.jpg的图片

image-20240111221022400

线程池

导包->创建线程池->确定线程池里最大线程的数量,提交任务

记得提交的任务要封装成一个函数

#导包,名字还挺长
from concurrent.futures import ThreadPoolExecutordef func():for i in range(0,10):print(f"子线程{i}")def main():with ThreadPoolExecutor(max_workers=10) as executor: #线程池同时最多执行十个线程executor.submit(func) #提交任务,func而不是func(),如果是func()会立即执行而不会放在线程池中跑for i in range(0, 10): #交替打印print(f"主线程{i}")# for i in range(0, 10): #线程池的任务完成了才会运行到这#     print(f"主线程{i}")if __name__ == '__main__':main()

output:

可以明显看到交替打印的现象

子线程0主线程0
主线程1主线程2子线程1子线程2主线程3
主线程4
子线程3主线程5子线程4主线程6
主线程7子线程5
子线程6
主线程8
子线程7
主线程9子线程8
子线程9进程已结束,退出代码0

我没有做视频里的项目,但是我自己做了别的网站的,实现的效果差不多就是构建图库。

题外话

上面有错误的话敬请大佬斧正。

request.get的使用和加请求头之类的这些知识只是入门的,真正的爬虫和逆向紧密相关,所以会使用request.get不表示会爬虫🤡,要精通爬虫与多个方向都相关,比如加密算法,js逆向等,是一个很大的板块。但是学会上面的东西爬一些简单的不设防的网站没啥问题,比如构建自己的壁纸图库等。其实去年五月份就爬了ttok,按博主分类爬了几千个视频,但是调用别人的API终究不是自己写的,前两天想再运行的时候发现代码文件命名混乱和没写注释使得完全跑不了了,蚌。包括爬一些数据加密过的网站都是有难度的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/411855.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JMeter请求参数Parameters,带中文或特殊字符(+/=)时,例如登录密码或者token等,需要勾选编码

以前的登录接口密码参数不包含特殊字符&#xff0c;为了安全&#xff0c;产品今天修改了需求&#xff0c;密码必须由数字&#xff0c;字母和特殊字符构成&#xff0c;之前利用JMeter接口编写的脚本报错了&#xff0c;调整了一下&#xff0c;里面踩了一点坑&#xff0c;记录下来…

k8s的对外服务--ingress

service作用体现在两个方面 1、集群内部 不断跟踪pod的变化&#xff0c;更新endpoint中的pod对象&#xff0c;基于pod的IP地址不断变化的一种服务发现机制 2、集群外部 类似负载均衡器&#xff0c;把流量ip端口&#xff0c;不涉及转发url&#xff08;http&#xff0c;https&a…

Servlet系列两种创建方式

一、使用web.xml的方式配置&#xff08;Servlet2.5之前使用&#xff09; 在早期版本的Java EE中&#xff0c;可以使用XML配置文件来定义Servlet。在web.xml文件中&#xff0c;可以定义Servlet的名称、类名、初始化参数等。然后&#xff0c;在Java代码中实现Servlet接口&#x…

阿里云国外云服务器多少钱?2024年最新价格

阿里云国外服务器优惠活动「全球云服务器精选特惠」&#xff0c;国外服务器租用价格24元一个月起&#xff0c;免备案适合搭建网站&#xff0c;部署独立站等业务场景&#xff0c;阿里云服务器网aliyunfuwuqi.com分享阿里云国外服务器优惠活动&#xff1a; 全球云服务器精选特惠…

企业怎么传输大容量视频?

在企业中&#xff0c;视频的应用越来越广泛&#xff0c;不论是在内部沟通、培训、宣传&#xff0c;还是在外部合作、推广、展示方面&#xff0c;视频都扮演着不可或缺的角色。然而&#xff0c;由于视频文件通常较大&#xff0c;传输时往往会面临网速慢、容量限制、安全风险等问…

leetcode 每日一题 2024年01月18日 拿出最少数目的魔法豆

题目 给定一个 正整数 数组 beans &#xff0c;其中每个整数表示一个袋子里装的魔法豆的数目。 请你从每个袋子中 拿出 一些豆子&#xff08;也可以 不拿出&#xff09;&#xff0c;使得剩下的 非空 袋子中&#xff08;即 至少还有一颗 魔法豆的袋子&#xff09;魔法豆的数目 …

Android应用开发:基础小游戏开发

手机游戏成为人们日常娱乐的重要组成部分。如果您想踏入这个充满创意和技术挑战的领域&#xff0c;制作一个Android基础小游戏是个不错的开始。以下是从零开始制作Android小游戏的基础指南。 1选择开发环境和工具 Android Studio 是官方推荐的开发环境&#xff0c;它提供了强大…

掌握Spring MVC拦截器整合技巧,实现灵活的请求处理与权限控制!

拦截器 1.1 拦截器概念1.2 拦截器入门案例1.2.1 环境准备1.2.2 拦截器开发步骤1:创建拦截器类步骤2:配置拦截器类步骤3:SpringMVC添加SpringMvcSupport包扫描步骤4:运行程序测试步骤5:修改拦截器拦截规则步骤6:简化SpringMvcSupport的编写 1.3 拦截器参数1.3.1 前置处理方法1.3…

宝塔发布网站问题汇总和记录

1、添加网站站点后打不开 解决办法&#xff0c;关闭防跨站攻击2 2、laravel项目部署到linux的时候出现The stream or file "/home/www/storage/logs/laravel.log" could not be opened in append mode 给目录加权限 chmod -R 777 storage 3、Class "Redis"…

ROS无人机开发常见错误

一. Ubuntu 相关 1、SSH远程连接报错 解决方案&#xff1a;终端运行上述图中选中部分&#xff0c;更新一下即可 第一步&#xff1a; 第二步&#xff1a;根据提示输入yes后输入密码即可 第三步&#xff1a;成功后如下图所示 2、解决“E 无法获得锁/ var/lib/apt/lists/ (11 资…

第14章_集合与数据结构拓展练习(前序、中序、后序遍历,线性结构,单向链表构建,单向链表及其反转,字符串压缩)

文章目录 第14章_集合与数据结构拓展练习选择填空题1、前序、中序、后序遍历2、线性结构3、其它 编程题4、单向链表构建5、单向链表及其反转6、字符串压缩 第14章_集合与数据结构拓展练习 选择填空题 1、前序、中序、后序遍历 分析&#xff1a; 完全二叉树&#xff1a; 叶结点…

java数据结构与算法刷题-----LeetCode977. 有序数组的平方

java数据结构与算法刷题目录&#xff08;剑指Offer、LeetCode、ACM&#xff09;-----主目录-----持续更新(进不去说明我没写完)&#xff1a;https://blog.csdn.net/grd_java/article/details/123063846 文章目录 1. 时间复杂度 空间复杂度 O(n * l o g 2 n log_2{n} log2​…