100天精通Python(实用脚本篇)——第117天:基于selenium实现反反爬策略之代码输入账号信息登录网站

文章目录

  • 专栏导读
  • 1. 前言
  • 2. 实现步骤
  • 3. 基础补充
  • 4. 代码实战
    • 4.1 创建连接
    • 4.2 添加请求头伪装浏览器
    • 4.3 隐藏浏览器指纹
    • 4.4 最大化窗口
    • 4.5 启动网页
    • 4.6 点击密码登录
    • 4.7 输入账号密码
    • 4.8 点击登录按钮
    • 4.9 完整代码
    • 4.10 GIF动图展示
  • 五、总结

专栏导读

🔥🔥本文已收录于《100天精通Python从入门到就业》:本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学,从0到100的不断进阶深入,后续还有实战项目,轻松应对面试,专栏订阅地址:https://blog.csdn.net/yuan2019035055/category_11466020.html

  • 优点订阅限时9.9付费专栏进入千人全栈VIP答疑群,作者优先解答机会(代码指导、远程服务),群里大佬众多可以抱团取暖(大厂内推机会)
  • 专栏福利简历指导、招聘内推、每周送实体书、80G全栈学习视频、300本IT电子书:Python、Java、前端、大数据、数据库、算法、爬虫、数据分析、机器学习、面试题库等等
    在这里插入图片描述
    在这里插入图片描述

1. 前言

上文我们学习了通过cookie登录网站,接下来我们来学用代码输入账号信息登录网,测试网站某宝。

2. 实现步骤

下面是某宝的登录界面,接下来我们需要实现的步骤是:

  • 1、打开网页
  • 2、输入账号信息
  • 3、输入密码信息
  • 4、点击 “登录” 按钮

在这里插入图片描述

3. 基础补充

由于某宝的反爬技术很高超,这里我们需要用到网页元素定位操作隐藏浏览器指纹,还不会的小伙伴学习一下专栏文章:

  • 100天精通Python(爬虫篇)——第47天:selenium自动化操作浏览器(基础+代码实战)
  • 100天精通Python(实用脚本篇)——第115天:基于selenium实现反反爬策略之隐藏浏览器指纹特征

4. 代码实战

4.1 创建连接

from selenium import webdriver
from selenium.webdriver.common.by import By
import time# 1. 创建连接
# 创建ChromeOptions对象,用于配置Chrome浏览器的选项
chrome_options = webdriver.ChromeOptions()
# 添加启动参数,'--disable-gpu'参数用于禁用GPU加速,适用于部分平台上的兼容性问题
chrome_options.add_argument('--disable-gpu')

4.2 添加请求头伪装浏览器

通过添加请求头伪装成正常的浏览器信息:

# 2. 添加请求头伪装浏览器
chrome_options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36')
driver = webdriver.Chrome(chrome_options=chrome_options)

4.3 隐藏浏览器指纹

执行 stealth.min.js 文件进行隐藏浏览器指纹特征:

# 3. 执行 `stealth.min.js` 文件进行隐藏浏览器指纹
with open('stealth.min.js') as f:js = f.read()
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": js
})

4.4 最大化窗口

为了方便大家看登录操作,设置浏览器 全屏:

# 4. 最大化浏览器窗口
driver.maximize_window()

4.5 启动网页

# 5. 发送请求,打开网页
driver.get('https://login.taobao.com/member/login.jhtml')
time.sleep(1)

4.6 点击密码登录

1、有时候打开某宝的登录界面,它想让我们扫码登录,这时候我们就需要点击密码登录:

在这里插入图片描述
2、这个标签有个js,本想通过执行js点击元素,结果发现执行不成功也不报错(原因未知大家可以自行尝试下),所以选择定位xpath:

在这里插入图片描述

元素的xpath地址:

//div[@class='login-blocks qrcode-bottom-links']/a[1]

3、通过find_element方法定位元素的xpath,由于这个界面是有几率触发,所以写一个异常捕获防止报错,通过click()方法点击元素:

# 6. 点击账号密码登录
try:# 找到登录按钮元素button = driver.find_element(by=By.XPATH, value="//div[@class='login-blocks qrcode-bottom-links']/a[1]")# 点击登录按钮button.click()
except:pass

4.7 输入账号密码

注意事项:有ID找ID(ID是唯一的),没ID找其他标签

1、确定账号、密码输入框的标签信息:

在这里插入图片描述

账号框ID为:

fm-login-id

密码框ID为:

fm-login-password

2、通过find_element方法定位文本框,通过send_keys方法输入账号信息:

# 7. 输入账号密码
username_input = driver.find_element(by=By.ID, value="fm-login-id") # 定位账号框
username_input.send_keys("your_username")  # 输入账号信息(这里自行替换)password_input  = driver.find_element(by=By.ID, value="fm-login-password") # 定位密码框
password_input .send_keys("your_username")  # 输入密码信息(这里自行替换)

4.8 点击登录按钮

1、刚开始试过,用这个登录按钮classes ID定位,但是代码无法定位成功,所以还是选择xpath定位:

在这里插入图片描述
登录按钮xpath地址:

//button[@class='fm-button fm-submit password-login']

2、通过find_element方法定位xpath,通过click()方法点击元素:

# 8. 点击登录按钮元素
login_button = driver.find_element(by=By.XPATH, value="//button[@class='fm-button fm-submit password-login']")
# 点击登录按钮
login_button.click()

4.9 完整代码

下面是完整登录代码,需要替换自己的账号密码

from selenium import webdriver
from selenium.webdriver.common.by import By
import time# 1. 创建链接
# 创建ChromeOptions对象,用于配置Chrome浏览器的选项
chrome_options = webdriver.ChromeOptions()
# 添加启动参数,'--disable-gpu'参数用于禁用GPU加速,适用于部分平台上的兼容性问题
chrome_options.add_argument('--disable-gpu')# 2. 添加请求头伪装浏览器
chrome_options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36')
driver = webdriver.Chrome(chrome_options=chrome_options)# 3. 执行 `stealth.min.js` 文件进行隐藏浏览器指纹
with open('stealth.min.js') as f:js = f.read()
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": js
})# 4. 最大化浏览器窗口
driver.maximize_window()# 5. 发送请求,打开网页
driver.get('https://login.taobao.com/member/login.jhtml')
time.sleep(1)# 6. 点击账号密码登录
try:# 找到登录按钮元素button = driver.find_element(by=By.XPATH, value="//div[@class='login-blocks qrcode-bottom-links']/a[1]")# 点击登录按钮button.click()
except:pass# 7. 输入账号密码
username_input = driver.find_element(by=By.ID, value="fm-login-id") # 定位账号框
username_input.send_keys("your_username")  # 输入账号信息(这里自行替换)password_input  = driver.find_element(by=By.ID, value="fm-login-password") # 定位密码框
password_input .send_keys("your_username")  # 输入密码信息(这里自行替换)# 8. 点击登录按钮元素
login_button = driver.find_element(by=By.XPATH, value="//button[@class='fm-button fm-submit password-login']")
# 点击登录按钮
login_button.click()# 9. 接下来就可以进行网页信息的解析了,自行编写。。。

4.10 GIF动图展示

在这里插入图片描述

五、总结

爬虫是一个很玄学的技术,本文中4.6执行js和4.8元素定位操作明明是正确的却还是要报错,就不得不换一种网页元素定位方法,所以大家遇到报错不要心慌,不妨换一个操作进行尝试,我们下期见!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/491969.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Android12】Monkey压力测试源码执行流程分析

Monkey压力测试源码执行流程分析 Monkey是Android提供的用于应用程序自动化测试、压力测试的测试工具。 其源码路径(Android12)位于 /development/cmds/monkey/部署形式为Java Binary # development/cmds/monkey/Android.bp // Copyright 2008 The Android Open Source Proj…

发电机测试的常见参数和规格有哪些需要关注?

发电机测试是确保其正常运行和性能的关键步骤。在进行发电机测试时,需要关注一些常见的参数和规格,以确保其安全、高效和可靠的运行。以下是一些需要关注的发电机测试参数和规格: 1. 电压:发电机的输出电压是衡量其性能的重要指标…

车用传感器频繁损坏的原因及解决方案

1.车用传感器频繁损坏的原因? 雷卯EMC小哥,在汽车客户做整改中发现,车用传感器频繁损坏,主要的共同原因:不稳定的电压。 在车辆工作过程中,电压波动是无法避免的。这些波动可能源自发动机的启动、发电机的…

RISC-V SoC + AI | 在全志 D1「哪吒」开发板上,跑个 ncnn 神经网络推理框架的 demo

引言 D1 是全志科技首款基于 RISC-V 指令集的 SoC,主核是来自阿里平头哥的 64 位的 玄铁 C906。「哪吒」开发板 是全志在线基于全志科技 D1 芯片定制的 AIoT 开发板,是目前还比较罕见的使用 RISC-V SoC 且可运行 GNU/Linux 操作系统的可量产开发板。 n…

进阶数据结构 BTree 的插入与删除操作实现

在数据库系统和文件系统中,高效的数据组织与管理是关键之一。B-Tree(Balanced Tree)作为一种平衡搜索树结构,在这一领域发挥着重要作用。本文详细探讨了 B-Tree 的基本概念以及对其进行插入与删除操作的实现,旨在帮助读…

【嵌入式学习】QT-Day4-Qt基础

简单实现闹钟播报,设置时间,当系统时间与设置时间相同时播报语音5次,然后停止。如果设置时间小于当前系统时间,则弹出消息提示框,并清空输入框。 #include "my_clock.h" #include "ui_my_clock.h&quo…

面试redis篇-08数据淘汰策略

原理 当Redis中的内存不够用时,此时在向Redis中添加新的key,那么Redis就会按照某一种规则将内存中的数据删除掉,这种数据的删除规则被称之为内存的淘汰策略。 Redis支持8种不同策略来选择要删除的key: noeviction: 不淘汰任何key,但是内存满时不允许写入新数据,默认就是…

【教程】 iOS混淆加固原理篇

目录 摘要 引言 正文 1. 加固的缘由 2. 编译过程 3. 加固类型 1) 字符串混淆 2) 类名、方法名混淆 3) 程序结构混淆加密 4) 反调试、反注入等一些主动保护策略 4. 逆向工具 5. OLLVM 6. IPA guard 7. 代码虚拟化 总结 摘要 本文介绍了iOS应用程序混淆加固的缘由…

介绍 PIL+IPython.display+mtcnn for 音视频读取、标注

1. nn.NLLLoss是如何计算误差的? nn.NLLLoss是负对数似然损失函数,用于多分类问题中。它的计算方式如下:首先,对于每个样本,我们需要将其预测结果通过softmax函数转换为概率分布。softmax函数可以将一个向量映射为一个概率分布&…

Python Web开发记录 Day3:BootStrap

名人说:莫道桑榆晚,为霞尚满天。——刘禹锡(刘梦得,诗豪) 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 三、BootStrap1、BootStrap-初体验2、BootStrap…

Linux之vim的使用详细解析

个人主页:点我进入主页 专栏分类:C语言初阶 C语言进阶 数据结构初阶 Linux C初阶 算法 欢迎大家点赞,评论,收藏。 一起努力,一起奔赴大厂 目录 一.vim简介 二.vim的基本概念 三.vim的基本操作 3.1准备 …

智能SQL生成:后端技术与LLM的完美结合

文章目录 引言一、什么是大模型二、为什么选择LLM三、开发技术说明四、系统架构说明五、编码实战1. Maven2. 讯飞大模型配置类3. LLM相关的封装4. 编写LLM的service5. 编写controller6. 运行测试 六、总结 引言 本篇文章主要是关于实现一个类似Chat2DB的根据自然语言生成SQL的…