python-爬虫-urllib3

导入模块

import urllib3

urllib3:功能强大、条理清晰、用于HTTP客户端的python网络请求库

重要特征
1.线程安全
2.连接池
3.客户端SSL/TLS验证
4.使用分段编码长传文件
5.重试请求和处理HTTP复位的助手
6.支持gzip和deflate编码
7.HTTP和SOCKS的代理支持
8.100%的测试覆盖率

1.发起请求

导入模块

import urllib3

通过PoolManager实例生成请求,由该实例对象处理与线程池的连接及线程安全的所有细节,不需要任何人为操作

http = urllib3.PoolManager()
http	# <urllib3.poolmanager.PoolManager at 0x1ecf4917710>

通过request()创建请求,返回一个HTTP Response对象

r = http.request('GET','https://fanyi.baidu.com/')
r		# <urllib3.response.HTTPResponse at 0x1ecf7613080>

通过响应对象的data等方法可以获取响应结果,使用decode对返回的数据进行解码

r.data		# 有乱码
r.data.decode('utf8')	# 使用decode对返回的数据进行解码
import urllib3
http = urllib3.PoolManager()
r = http.request('GET','https://fanyi.baidu.com/')
r.data
r.data.decode('utf8')

在这里插入图片描述

request()可以通过参数控制请求的类型

传递POST参数值,该请求数据部分涵盖发送其他类型的请求的数据,包括JSON、文件和二进制数据

http = urllib3.PoolManager()
r = http.request('POST','http://httpbin.org/post',fields={'hello':'world'}
)
r.data

在这里插入图片描述

得到的字符串结果前有子母b,b前缀表示一个字节序列(bytes)对象
字节序列是不可变的序列,由0或多个字节组成,每个字节都用0到255之间的整数表示

2.bytes对象常用方法

创建bytes对象

b = b'hello world'

转换为bytes对象

s = 'hello world'
b = s.encode()
b	# b'hello world'

将bytes对象转换为字符串

b = b'hello world'
s = b.decode()
s	# 'hello world'

访问字节
b[0]取出的是字节’h’的ASCII码,即104

b = b'hello world'
b[0]  # 访问第一个字节,输出104

拼接字节

b1 = b'hello'
b2 = b'world'
b1 + b2		# b'helloworld'

字节与字符串的转换

b = b'hello world'
s = str(b, encoding='utf-8')  	# 'hello world'   	# 转换为字符串
b = bytes(s, encoding='utf-8') 	# b'hello world' 	# 转换为bytes

需要注意的是,在Python3中,字符串是默认以Unicode编码的,因此需要显式指定编码方式进行转换

3.响应内容

发起请求之后,会返回一个响应内容(包含status、data、header等属性)

http = urllib3.PoolManager()
r = http.request('get','http://httpbin.org/ip')
r.status	# 200
r.data		# b'{\n  "origin": "117.136.56.194"\n}\n'
r.headers	# HTTPHeaderDict({'Date': 'Tue, 12 Sep 2023 12:38:40 GMT', 'Content-Type': 'application/json', 'Content-Length': '33', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'})

如果data返回的是json格式的字符串,可通过json库解码和反序列data请求的属性加载json内容

import urllib3
import jsonhttp = urllib3.PoolManager()
r = http.request('get','http://httpbin.org/ip')
json.loads(r.data)	# {'origin': '117.136.56.194'}

4.查询参数

对于GETHEADDELETE请求,可以简单的传递参数作为一个字典fields参数

import urllib3
import jsonhttp = urllib3.PoolManager()
r = http.request('GET','http://httpbin.org/get',fields={'arg':'value'})
json.loads(r.data)['args']

在这里插入图片描述
POSTPUT请求,需要在URL中手动编码查询参数

import urllib3
import json
from urllib.parse import urlencodehttp = urllib3.PoolManager()
encoded_args = urlencode({'arg':'value'})		# 'arg=value'
url = 'http://httpbin.org/post?' + encoded_args	# 'http://httpbin.org/post?arg=value'
r = http.request('POST',url)
json.loads(r.data)['args']	# {'arg': 'value'}
json.loads(r.data)

在这里插入图片描述

5.表单数据

PUTPOST请求,urllib3将自动使用fields提供的参数对字典进行格式编码

import urllib3
import jsonhttp = urllib3.PoolManager()
r = http.request('POST','https://httpbin.org/post',fields={'field':'value'})
json.loads(r.data)['form']# {'field': 'value'}
json.loads(r.data)

在这里插入图片描述

6.提交json数据

通过指定编码数据作为body参数,并且通过Content-Type在调用时设置表头来发送json请求

import urllib3
import jsonhttp = urllib3.PoolManager()
data = {'name':'张三','age':23}
encoded_data = json.dumps(data)# '{"name": "\\u5f20\\u4e09", "age": 23}'
encoded_data = json.dumps(data).encode('utf-8')# b'{"name": "\\u5f20\\u4e09", "age": 23}'
r = http.request('POST','https://httpbin.org/post',body=encoded_data,headers={'Content-Type':'aplication/json'})
json.loads(r.data)['json']# {'age': 23, 'name': '张三'}
json.loads(r.data)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/107683.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux网络】TCP/IP三次握手、四次挥手流程

目录 一、三次握手&#xff0c;建立连接 二、四次挥手&#xff0c;断开连接 三、主要字段 1、标志位&#xff08;Flags&#xff09; 2、序号&#xff08;sequence number&#xff09; 3、确认号&#xff08;acknowledgement number&#xff09; 四、三次握手的报文变化 五…

linux 查看进程的几个方法

linux 查看进程的几个方法 一、ps aux a&#xff1a;显示当前终端下的所有进程信息&#xff0c;包括其他用户的进程。 u&#xff1a;使用以用户为主的格式输出进程信息。 x&#xff1a;显示当前用户在所有终端下的进程。 ps命令用于报告当前系统的进程状态。可以搭配kill指…

【网络编程】深入理解TCP协议一(三次握手四次挥手、标记位、确认应答机制、超时重传机制)

TCP协议 1.三次握手四次挥手2.TCP协议段格式3.标记位介绍4.确认应答机制5.超时重传机制 1.三次握手四次挥手 当客户端发起连接请求时&#xff0c;SYN需要被设置位1&#xff0c;告诉服务器客户端希望建立一个链接服务器收到响应之后会回复 SYNACK&#xff0c;表示确认了客户端地…

基于SSM的海鲜自助餐厅系统的设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用Vue技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

如何实现一个数据库的 UDF?图数据库 NebulaGraph UDF 功能背后的设计与思考

大家好&#xff0c;我是来自 BOSS直聘的赵俊南&#xff0c;主要负责安全方面的图存储相关工作。作为一个从 v1.x 用到 v3.x 版本的忠实用户&#xff0c;在见证 NebulaGraph 发展的同时&#xff0c;也和它一起成长。 BOSS直聘和 NebulaGraph 关于 NebulaGraph 在 BOSS直聘的应…

手搓消息队列【RabbitMQ版】

什么是消息队列&#xff1f; 阻塞队列&#xff08;Blocking Queue&#xff09;-> 生产者消费者模型 &#xff08;是在一个进程内&#xff09;所谓的消息队列&#xff0c;就是把阻塞队列这样的数据结构&#xff0c;单独提取成了一个程序&#xff0c;进行独立部署~ --------&…

C++之智能指针shared_ptr死锁问题(二百)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 人生格言&#xff1a; 人生…

芯科蓝牙BG27开发笔记4-SSV5 IDE的使用

1. 如何转移工作区的项目文件到新的文件夹&#xff0c;并且可以继续使用ssv5编辑、编译&#xff1f; 从默认的工作区将目标工程整体拷贝出来 目标文件夹&#xff1a; 进入ssv5点击导入工程&#xff0c;并选择目标文件夹 继续下一步&#xff0c;修改项目文件夹所在位置为其源码…

零代码编程:用ChatGPT批量删除文件标题中的字符

文件夹中有上百个文件&#xff0c;现在希望删除包括这些字符的文件标题&#xff1a; TIMESAVER EDIT - TIMESAVER EDIT - FULL Q&A Warren Buffett Charlie Munger TIMESAVER EDIT TIMESAVER EDIT FULL Q&A Warren Buffett Charlie Munger 在ChatGPT中输入提示词&…

谷粒商城篇章6 ---- P193-P210 ---- 异步线程池商品详情【分布式高级篇三】

目录 1. 异步 1.1 初始化线程的 4 种方式 1.1.1 继承 Thread 1.1.2 实现 Runnable 接口 1.1.3 实现 Callable 接口 FutureTask 1.1.4 线程池 1.1.5 以上 4 种方式总结&#xff1a; 1.2 线程池详解 1.2.1 初始化线程池的 2 种方式 1.2.1.1 使用 Executors 创建 1.2…

Java——》synchronized互斥性

推荐链接&#xff1a; 总结——》【Java】 总结——》【Mysql】 总结——》【Redis】 总结——》【Kafka】 总结——》【Spring】 总结——》【SpringBoot】 总结——》【MyBatis、MyBatis-Plus】 总结——》【Linux】 总结——》【MongoD…

深度融入垂直行业是物联网未来发展必由之路

三年疫情&#xff0c;打断了很多企业的发展进程。但是疫情已过似乎整个业界生态有了一个很大变化。有一个朋友前一段时间参加深圳电子展后有一个感悟&#xff0c;说的很好&#xff1a;“疫情后有很大变化&#xff0c;疫情后&#xff0c;整个环境状态和疫情前有很大不同。无论企…