Selenium无头模式容易遇到的坑

 在无头模式下,我们看不到浏览器的操作,但是selenium无头模式的浏览器向服务器发送的请求头和正常模式下还是有点区别的,这就导致了一些网站会检测到我们是用selenium来访问的,从而导致一些问题

  下面就是我在使用selenium无头模式时遇到的一些问题,以及解决方案

  1.user-agent过短

  selenium默认的user-agent比较短,这就可能会让部分网站检测出我们使用了selenium,增加了这一特征点被检测出来的概率。我们可以修改user-agent来解决这个问题

  在selenium的options中添加如下代码即可:

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 S```afari/537.36'options.add_argument(f'user-agent={user_agent}')

2.设置浏览器分辨率

selenium无头模式下的浏览器分辨率默认是800*600,这个分辨率太小了,很容易被检测出来,我们可以设置一个大一点的分辨率来解决这个问题

option = webdriver.ChromeOptions()option.add_argument('--headless')options.add_argument("--window-size=1920,1080")browser = webdriver.Chrome(chrome_options=option)browser.set_window_size(1920, 1080)

3.禁用GPU加速

  selenium无头模式下的浏览器默认是开启GPU加速的,我们可以禁用GPU加速来解决这个问题,GPU加速会让浏览器的性能更好,但是会增加一些特征点,从而被检测出来

#谷歌文档提到需要加上这个属性来规避bugchrome_options.add_argument("--disable-gpu")

4.js检测webdriver

  有些网站会通过js来检测是否使用了selenium,在启用selenium后js读取window.navigator.webdriver参数返回值为true,这样就可以检测出我们使用了selenium

  反检测代码如下:

 option.add_argument('--headless')# 关闭浏览器上部提示语:Chrome正在受到自动软件的控制(改修js特征)options.add_experimental_option('excludeSwitches', ['enable-automation'])options.add_experimental_option('useAutomationExtension', False)browser = webdriver.Chrome(chrome_options=option)browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": """Object.defineProperty(navigator, 'webdriver', {get: () => undefined})"""})

最终代码

 from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsoption = webdriver.ChromeOptions()option.add_argument('--headless')# 关闭浏览器上部提示语:Chrome正在受到自动软件的控制options.add_experimental_option('excludeSwitches', ['enable-automation'])options.add_experimental_option('useAutomationExtension', False)option.add_argument("--window-size=1920,1080") # 设置浏览器分辨率(窗口大小)option.add_argument("--disable-gpu") # 禁用GPU加速options.add_argument("blink-settings=imagesEnabled=false") # 不加载图片, 提升速度options.add_argument('--no-sandbox') # 解决DevToolsActivePort文件不存在的报错option.add_argument('--hide-scrollbars')  # 隐藏滚动条, 应对一些特殊页面# 设置user-agentuser_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'options.add_argument(f'user-agent={user_agent}')browser = webdriver.Chrome(chrome_options=option)browser.set_window_size(1920, 1080)# 关闭浏览器上部提示语:Chrome正在受到自动软件的控制browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": """Object.defineProperty(navigator, 'webdriver', {get: () => undefined})"""})

使用以上代码初始化selenium后,应该可以规避挺大一部分网站对爬虫的检测了,但是也不是万能的,有些网站可能还是会检测出来,这时候就需要我们自己去分析网站的检测方式,然后针对性的去解决了

希望各位能遵守爬虫规则,不要去爬取一些不应该爬取的网站,多多遵守robots协议,不要给爬虫带来不好的影响。

 感谢每一个认真阅读我文章的人,礼尚往来总是要有的,虽然不是什么很值钱的东西,如果你用得到的话可以直接拿走:

 

这些资料,对于【软件测试】的朋友来说应该是最全面最完整的备战仓库,这个仓库也陪伴上万个测试工程师们走过最艰难的路程,希望也能帮助到你!有需要的小伙伴可以点击下方小卡片领取 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/255112.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL 数据库如何实现 XA 规范?

本文我们来讨论 MySQL 的 XA 规范有哪些应用相关的内容。 MySQL 为我们提供了分布式事务解决方案,在前面的内容中提到过 binlog 的同步,其实是 MySQL XA 规范的一个应用,那么 XA 规范是如何定义的,具体又是如何应用的呢&#xff…

echarts双折线图

引用 //反应时长 durationCharts categoryCommonChart(studyBehavior.durationCharts, durationCharts) function categoryCommonChart(odata, dom){var myChart echarts.init(document.getElementById(dom));let oarr []oarr odata.series.map(function(item){let color…

QML与C++之间自定义对象输出

1.定义暴露的C类 Message.h #ifndef MESSAGE_H #define MESSAGE_H#include "QObject" #include "MessageAuthor.h"class Message : public QObject {Q_OBJECTQ_PROPERTY(MessageAuthor* author READ author )public:explicit Message(QObject *parent nu…

短视频账号矩阵系统开发源头

随着经济的高速的发展,越来越多的人进入短视频领域,都想抓住这个流量风口,现如今,短视频领域竞争加剧,为了满足用户对创新、多样化和高质量内容的需求,新版短视频矩阵运营系统应运而生。抖去推系统4.0新版&…

MySQL 忘记root密码后重置密码操作

在忘记 MySQL 密码的情况下,可以通过 --skip-grant-tables 关闭服务器的认证,然后重置 root 的密码,具体操作步骤如下。 步骤 1):关闭正在运行的 MySQL 服务。打开 cmd 进入 MySQL 的 bin 目录。 步骤 2):输入mysqld -…

CANBeded——诊断自动生成代码

目录 一、如何自动生成代码 二、借鉴之处 一、如何自动生成代码 准备: .gny——geny工程 .dbc——CAN 信号矩阵 .cdd——诊断文件 .cfg文件——工程文件宏定义 1.1 打开gny文件 1.2 导入dbc文件 根据dbc文件更新can消息 channel0,configurable options,Acceptan…

java一对一聊天

我们首先要完成服务端,不然出错,运行也要先运行服务端,如果不先连接服务端,就不监听,那客户端不知道连接谁 服务端 import java.awt.BorderLayout; import java.awt.event.ActionEvent; import java.awt.event.Actio…

Failed to resolve org.junit.platform:junit-platform-launcher:1.9.3

springboot 跑 unit test 的时候,如果报错如题的话,可以更改idea 里的 Settings ——> HTTP Proxy 配置为:Auto-detect proxy settings

富时中国a50指数准确吗

富时中国A50指数简介 富时中国A50指数(FTSE China A50 Index)是富时罗素指数有限公司(FTSE Russell)编制的,旨在反映中国A股市场50家市值较大、流动性较好的公司的股价表现。它是国际上对中国A股市场投资者影响较大的…

leetcode刷题:611.有效三角形的个数(双指针实现)

题目地址:有效三角形的个数 解决此题时,首先需要知道的是如何判断三个数字是否能够构成三角形。 我们知道,三角形任意两边之和都大于第三边。所以判断三个数字是否能构成三角形需要进行三次比较(最基础的思路) 方法一…

算法-贪心思想

贪心的思想非常不好解释,而且越使用权威的语言解释越难懂。而且做题的时候根据自己的理解可能直接做出来,但是非要解释一下怎么使用的贪心的话,就懵圈了。一般来说,贪心的题目没有固定的套路,一题一样,不过…

Windows系统的笔记本电脑要怎样做,才能控制iPad?

Windows 10.1803或以上版本并且支持5.0低功耗蓝牙(BLE)的台式电脑或笔记本电脑都可以通过蓝牙连接控制iPhone或iPad。 控制成功后,你可以在电脑上直接用鼠标操作iPhone或iPad,避免工作学习中频繁抬头低头切换界面,也可…