python爬虫学习第十六天--------URLError和HTTPError、cookie登录、Handler处理器

🎈🎈作者主页: 喔的嘛呀🎈🎈
🎈🎈所属专栏:python爬虫学习🎈🎈
✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 

目录

一、URLError和HTTPError

二、cookie登录

三、Handler处理器


兄弟姐妹们,大家好哇!今天我们来学习URLError和HTTPError、cookie登录、Handler处理器这三个方面的知识

一、URLError和HTTPError

在Python中进行网络爬虫时,经常会遇到 URLErrorHTTPError 异常。这两种异常通常与网络连接和HTTP请求有关,以下是它们的一些常见情况和处理方法:

  1. URLError:表示URL无效或无法打开的错误,可能的原因包括网络连接问题、URL拼写错误等。处理方法包括:
    • 检查URL是否正确,并确保网络连接正常。
    • 使用 try-except 块捕获 URLError 异常,并进行相应的处理。
from urllib.error import URLError
import urllib.requesturl = "<http://example.com>"try:response = urllib.request.urlopen(url)# 处理响应数据
except URLError as e:print("URLError:", e)# 处理异常情况

2、HTTPError:表示HTTP请求错误,例如404 Not Found等。处理方法包括:

  • 使用 try-except 块捕获 HTTPError 异常,并根据状态码进行处理。
  • 可以通过 e.code 获取状态码,e.reason 获取原因。
from urllib.error import HTTPError
import urllib.requesturl = "<http://example.com/404>"try:response = urllib.request.urlopen(url)# 处理响应数据
except HTTPError as e:print("HTTPError:", e.code, e.reason)# 处理异常情况

在处理这些异常时,可以根据具体情况进行适当的错误处理和重试机制,以确保网络爬虫的稳定性和可靠性。

二、cookie登录

Cookie登录,需要分为以下步骤:

  1. 发送登录请求并获取Cookie:首先,您需要发送一个POST请求到登录页面,包含用户名和密码等登录信息。成功登录后,服务器会返回一个包含登录凭据的Cookie。您可以使用**requests库来发送这个请求,并通过response.cookies**属性获取Cookie。
  2. 使用Cookie进行后续请求:在登录后,您可以使用获取到的Cookie来发送其他请求,以模拟登录状态。每次请求都需要包含这个Cookie,以便服务器能够识别您已经登录。

以下是一个示例,演示如何使用Python进行Cookie登录:

import requests# 登录页面URL和登录信息
login_url = '<https://example.com/login>'
login_data = {'username': 'your_username','password': 'your_password'
}# 发送登录请求并获取Cookie
response = requests.post(login_url, data=login_data)
cookies = response.cookies# 使用Cookie发送后续请求
protected_url = '<https://example.com/protected-page>'
response = requests.get(protected_url, cookies=cookies)# 检查响应状态码
if response.status_code == 200:# 打印响应内容print(response.text)
else:print('Failed to retrieve protected page. Status code:', response.status_code)

在这个示例中,首先发送了一个POST请求到**example.com/login,并包含了用户名和密码作为表单数据。然后,从登录响应中获取了Cookie,并将其保存在cookies变量中。最后,使用这个Cookie发送了一个GET请求到example.com/protected-page**,以获取受保护页面的内容。

案列:模拟登录Gitte并访问用户信息的示例:

import requests
from bs4 import BeautifulSoup# 登录页面 URL
login_url = '<https://gitte.cn/login>'
# 受保护页面 URL
protected_url = '<https://gitte.cn/settings>'# 用户名和密码
username = 'your_username'
password = 'your_password'# 创建会话对象
session = requests.Session()# 设置请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}# 发送登录请求,禁用SSL证书验证
login_data = {'username': username, 'password': password}
login_response = session.post(login_url, headers=headers, data=login_data, verify=False)# 检查登录是否成功
if login_response.status_code == 200:print("Login successful")# 获取重定向后的页面protected_response = session.get(protected_url, headers=headers, verify=False)# 检查是否成功访问受保护页面if protected_response.status_code == 200:print("Protected page content:")soup = BeautifulSoup(protected_response.text, 'html.parser')# 解析页面内容content = soup.find('div', class_='your_content_class')if content:print(content.text)else:print("Failed to find content on protected page")else:print("Failed to retrieve protected page. Status code:", protected_response.status_code)
else:print("Login failed")

这个案列是针对cookie这方面的,报错也没事,给后面的知识一块用才可以爬取到信息

Untitled

注意:受保护页面通常指需要登录或授权才能访问的页面。这些页面可能包含用户个人信息、敏感数据或需要特定权限才能查看的内容。通过登录或授权后,用户可以访问这些受保护页面。在网络应用程序中,受保护页面通常用于确保用户身份验证和数据安全性。

三、Handler处理器

Handler处理器在Python的urllib库中是一个非常重要的组件,它提供了一种灵活和高级的方式来处理HTTP请求。使用Handler处理器的主要原因包括:

  1. 处理各种情况的请求:Handler处理器可以处理各种情况下的HTTP请求,如处理HTTP重定向、处理代理、处理cookie等。这使得我们可以更灵活地处理不同情况下的请求。
  2. 定制请求头和请求参数:通过Handler处理器,我们可以定制请求头和请求参数,以满足不同的需求。这样可以更好地模拟浏览器行为,使得我们可以发送更加复杂和特定的请求。
  3. 处理cookie和认证信息:Handler处理器可以用于处理cookie和认证信息,使得我们可以在请求中包含cookie和认证信息,从而实现对需要认证的网站进行访问。
  4. 处理代理:Handler处理器可以用于设置代理服务器,从而实现通过代理服务器发送请求,这对于需要使用代理的情况非常有用。
  5. 处理HTTP和HTTPS请求:Handler处理器可以用于处理HTTP和HTTPS请求,使得我们可以发送安全的HTTPS请求,并对响应进行处理。

总的来说,Handler处理器提供了一种灵活和高级的方式来处理HTTP请求,使得我们可以更好地控制请求和响应的处理过程,从而实现更加复杂和特定的功能。

Handler处理器是Python标准库urllib中用于处理HTTP请求的组件之一,它提供了一种灵活的方式来处理请求和响应。Handler处理器可以用于处理HTTP请求的各种情况,比如处理重定向、处理代理、处理cookie等。

下面是Handler处理器的基本使用方法:

  1. 导入必要的模块:
import urllib.request
import urllib.error

https://lh3.googleusercontent.com/a/AGNmyxaP8ZNr9lxDW8mItZrsrrHxTdxmBq6TmE5JzuBD=s96-c

2.创建一个Handler处理器:

handler = urllib.request.HTTPHandler()

这里创建了一个用于处理HTTP请求的Handler处理器。如果需要处理HTTPS请求,可以使用**urllib.request.HTTPSHandler()**来创建一个处理HTTPS请求的Handler处理器。

3.创建一个Opener对象,并将Handler处理器添加进去:

opener = urllib.request.build_opener(handler)

这里创建了一个Opener对象,并将之前创建的Handler处理器添加进去。

4.使用Opener对象发送请求:

url = '<http://www.example.com>'
req = urllib.request.Request(url)
try:response = opener.open(req)print(response.read().decode('utf-8'))
except urllib.error.URLError as e:print(e)

这里使用Opener对象的**open()方法发送请求,并捕获可能的URLError异常。如果请求成功,可以通过response.read().decode('utf-8')**来获取响应内容。

5.完整示例代码:

import urllib.request
import urllib.error# 创建一个Handler处理器
handler = urllib.request.HTTPHandler()# 创建一个Opener对象,并将Handler处理器添加进去
opener = urllib.request.build_opener(handler)# 使用Opener对象发送请求
url = '<http://www.example.com>'
req = urllib.request.Request(url)
try:response = opener.open(req)print(response.read().decode('utf-8'))
except urllib.error.URLError as e:print(e)

通过以上步骤,我们可以使用Handler处理器来发送HTTP请求,并且可以根据需要添加不同的处理器来处理请求和响应,实现更灵活和高级的功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/599753.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

单片机之AD与DA

目录 AD/DA模型 AD/DA的性能址标 51单片机与DAC接口 T型电阻网络DA转换器 PWM型DA转换器 DAC0832 DAC0832引脚 DA案例 DAC0832实现方波 电路图 示波器 keil文件 DAC0832实现三角波 示波器 keil文件 51单片机与ADC接口 ADC简介 ADC转换原理 计数型AD转换器 …

day03-java类型转换和运算符

3.1 表达式和语句 表达式一共分为三种&#xff1a; &#xff08;1&#xff09;变量或常量 运算符构成的计算表达式 &#xff08;2&#xff09;new 表达式&#xff0c;结果是一个数组或类的对象。&#xff08;后面讲&#xff09; &#xff08;3&#xff09;方法调用表达式&…

2024年最新版本的开源TwoNav网址导航系统源码 免授权

TwoNav 是一款新鲜发布的开源解密版书签&#xff08;导航&#xff09;管理程序。该程序采用PHP SQLite 3进行开发&#xff0c;具有界面简洁、安装简单、使用方便等特点&#xff0c;基础功能免费提供。TwoNav可以帮助用户集中管理浏览器书签&#xff0c;解决跨设备、跨平台和跨…

【Emgu CV教程】10.12、Moments()函数计算轮廓矩和质心

文章目录 一、概念介绍1.矩2.矩能干什么3.矩函数 二、演示1.原始素材2.代码3.运行结果 一、概念介绍 1.矩 矩&#xff0c;英文叫moment&#xff0c;是一个数学中的概念&#xff0c;以下的解释来自百度百科&#xff1a; 是不是看不懂&#xff0c;没关系&#xff0c;数学基础不…

家庭网络防御系统搭建-家庭网络防御系统搭建-NDR之zeek安装配置过程详解

前面的文章&#xff0c;说明了raspiberry系统和硬件相关内容&#xff0c;参考家庭网络防御系统搭建-树莓派raspberry PI硬件和系统准备。本文将介绍NDR系统中的zeek安装过程。 corelight vs zeek 使用zeek获取网络的transaction log有两种方式&#xff0c;一种是使用coreligh…

Java常用API_正则表达式_字符串的替换和截取方法——小练习

我将通过一个练习题来展示这两个方法 练习题&#xff1a; 有一段字符串&#xff1a;小张qwertyuiop123小李asdfghjkl456小王 要求1&#xff1a;把字符串中三个姓名之间的字母替换成vs 要求2&#xff1a;把字符串中的三个姓名切割出来 编写代码&#xff1a; public class Tes…

启动Unity发布的exe并且添加启动参数

启动Unity发布的exe并且添加启动参数 在启动Unity的时候添加一些启动的参数。 代码解释 在启动的时候获取的启动参数如果没有获取到正确的启动参数那么就退出程序&#xff0c;这个代码仅仅在发布到windows之后才会生效&#xff0c;在编辑器下这个代码虽然会获取到参数但是不能…

资质管理:乙级风力发电企业延续与变更的最佳实践

在乙级风力发电行业&#xff0c;资质管理是企业持续稳定发展的关键。有效的资质管理不仅能确保企业在风力发电领域的合规经营&#xff0c;还能提升企业的市场竞争力。以下是一些乙级风力发电企业在资质延续与变更过程中的最佳实践。 一、提前规划与准备 企业应提前了解资质延续…

Centos7源码方式安装Elasticsearch 7.10.2单机版

下载 任选一种方式下载 官网7.10.2版本下载地址&#xff1a; https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.10.2-linux-x86_64.tar.gz 网盘下载链接 链接&#xff1a;https://pan.baidu.com/s/1EJvUPGVOkosRO2PUaKibaA?pwdbnqi 提取码&#x…

35 岁程序员如何应对大龄程序员危机

在当今的科技行业&#xff0c;35 岁往往被视为一个关键的年龄节点&#xff0c;许多程序员开始感受到所谓的“大龄程序员危机”。然而&#xff0c;年龄并不应该成为阻碍发展的因素&#xff0c;35 岁的程序员仍然可以通过一系列积极的策略来应对这一危机。 首先&#xff0c;持续…

【运输层】传输控制协议 TCP

目录 1、传输控制协议 TCP 概述 &#xff08;1&#xff09;TCP 的特点 &#xff08;2&#xff09;TCP 连接中的套接字概念 2、可靠传输的工作原理 &#xff08;1&#xff09;停止等待协议 &#xff08;2&#xff09;连续ARQ协议 3、TCP 报文段的首部格式 &#xff08;1…