采集极验4滑块验证码图片数据

在网络安全领域,验证码是一种常见的用于验证用户身份或防止恶意机器人攻击的技术。而极验4滑块验证码作为一种广泛应用的验证码形式,其具有较高的安全性和防御能力。本文将以获取极验4滑块验证码图片数据为主题,介绍相关技术和方法。

一、极验4滑块验证码简介

极验4滑块验证码是一种基于用户滑动操作来验证的验证码形式。用户需要通过滑动滑块至指定位置,以证明自己是真实用户而非机器人。这种验证码形式采用了机器学习和行为分析等先进技术,难以被自动化工具或脚本破解,因而广受网站开发者的青睐。

二、采集极验4滑块验证码图片的必要性

在研究极验4滑块验证码自动化通过的过程中,我们需要获取大量的验证码图片数据,以便进行训练和分析。这些数据对于算法的优化和改进非常重要。因此,我们需要利用爬虫技术来采集这些极验4滑块验证码图片。

三、使用爬虫技术采集极验4滑块验证码图片

1、确定目标网站:选择一个包含极验4滑块验证码的目标网站作为爬取对象。

2、分析网页结构:通过查看目标网页的源代码和开发者工具,了解滑块验证码的位置、样式和相关参数。

这里用火狐浏览器为例,浏览器按下F12,选择【网络】选项卡,清空里面的请求。然后点击刷新验证码按钮,就可以获得新的图片,这样就可以得到获取图片的链接。

 3、分析请求参数

通过浏览器抓包,得到的信息如下,其中bg参数包含的就是大图的链接,通过链接就可以直接下载图片了。

4、编写爬虫代码:使用Python编写爬虫代码,模拟浏览器行为,访问目标网站并获取验证码图片的URL。

这个链接具有一定的时效性,可能十分钟后就会失效吧,所以失效后可以再通过浏览器抓包方式获取最新的链接继续采集。下面的代码链接就已经失效了,请替换为自己最新的链接。

import time
import json
import requests
from io import BytesIO
from PIL import Imagefor i in range(100):url = "https://gcaptcha4.geetest.com/load?callback=geetest_1689421548194&captcha_id=cdb27a1d9a634fd518f2fa445d6f1c1f&client_type=web&lot_number=ec23b49f8bcd45c38dce44d5f116ad3f&pt=1&lang=zho&payload=xSJqOy81RFro17RrPzpVayZp14MU2h0xs_RHbIGG757niUjQE6Ce0diVZJvowhabG0LPg9JW7et3ANw6hHB7IA1y7g3utf3RrKEkasazsNcVDYmbIlNPNhrST81ZJr8XaQOwaOj68ZMIsYFNiO5IoUqAP4vu-i9Vn2CK1JMq4n_JPLRl6hFK5Tl013_x-r9eB27gl7t1HShpy75zQ3xBusi0YGsKj9GF_aEWNrxtXZUrahjeaHtaOZdKo1NilEb4tPAdQXbual7aHpLHSaBIxsvu1PJrIEHNUDdxaxS1c17896OaRu5hKQHGS4170jTjhO4rPFoB4ffmugcTpV3DjWDheCt1UuVfme2f8bl96gAUno_f4Trv3ZZiAy4W3mqSik_gVvDtOMrgJrz2CWad1R3pdGOwI-XaLDrTbK4UIMmoZutjQX077m5IJLTMbSYlJwvstO9la0NcbmPK68dcojaABgIkbGvbCS97GPlubQyV_DYGSVCVGH3TmB2sETmQaDj3bkwWFtJ3YHbkL8RxI8sgid3ho4jQVgErUW0eoNgGOB1tzxnKV8RAbDvoT7YXXnVEGCzdve7ySPFrGqpdvbJ95PL3bmoptX4TgKvvPGJZBRXxXAIaYyC1KgUOFpe5YBWAMhcgkEQqQIC2Akb5cXTU6ETwvUz_m7Bufq0n2xnXTi3-pCtXJ5uxQxRVkwzwRc80sj63DnYvdDfu20V7vkJ-C766-TOlsuMOeFMIqHk%3D&process_token=5b752f9db61a493103c23ece058cc115fab03cb5f0e69d1cbd22c36ec24622bc&payload_protocol=1"header = {"Host": "gcaptcha4.geetest.com","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0","Accept": "*/*","Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",# "Accept-Encoding": "gzip, deflate, br","Connection": "keep-alive","Referer": "https://monica.im/login","Cookie": "gt_captcha_v4_user=4c5398c023e1401695cd2cbd3e52aba2; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2218875ab69c7441-060783d3e4bfe08-4c302978-1327104-18875ab69c94db%22%2C%22first_id%22%3A%22%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_landing_page%22%3A%22https%3A%2F%2Fwww.geetest.com%2Fshow%22%7D%2C%22%24device_id%22%3A%2218875ab69c7441-060783d3e4bfe08-4c302978-1327104-18875ab69c94db%22%7D; Hm_lvt_25b04a5e7a64668b9b88e2711fb5f0c4=1685601348; _uetvid=ca611c60004611ee8d41855bd2dec21b",}# 请求获取大图链接response = requests.get(url=url, headers=header)# 解析响应,转成字典data = json.loads(response.text[22:-1])# 获取大图链接bg_url = 'https://static.geetest.com/' + data['data']['bg']# 下载大图response = requests.get(url=bg_url)# 保存大图img = Image.open(BytesIO(response.content))img.save('train_img/{}.jpg'.format(int(time.time() * 1000)))time.sleep(2)

5、下载验证码图片:利用爬虫代码发送请求,下载验证码图片并保存到本地。

6、数据清洗和整理:对下载的验证码图片进行清洗和整理,确保数据的准确性和完整性。

四、总结

1、和极验3相比,极验4大图反爬能力变弱了。因为极验3图片链接很快就会失效。

2、和极验3相比,极验4图片的解析难度变小了。因为极验3的图片是打乱的,还需要拼图。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/29222.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

stable diffusion webui mov2mov

手把手教你用stable diffusion绘画ai插件mov2mov生成动画_哔哩哔哩_bilibili手把手教你用stable diffusion绘画ai插件mov2mov生成动画, 视频播放量 14552、弹幕量 3、点赞数 275、投硬币枚数 114、收藏人数 980、转发人数 75, 视频作者 懂你的冷兮, 作者简介 科技改变世界&…

队列-来看Java骚操作

队列基本概念 队列(Queue)是一种常见的数据结构,采用先进先出(FIFO,First-In-First -Out)的策略来管理数据。类似于现实生活中的排队,新元素从队尾进入队列, 而队列中的元素从队头开…

软件测试行业的困境和迷局

中国的软件测试虽然起点较高,但是软件测试的发展似乎没有想象中那么顺利。 其实每个行业除了有自身领域外,还有属于自己的“生态系统”。属于软件测试的生态系统主要包括后备软件测试人员、软件开发人员和软件管理决策者。后备软件测试人员是软件测试的…

【C语言+sqlite3 API接口】实现水果超市

实验内容: 假如我家开了个水果超市,有以下水果,想实现自动化管理,扫描二维码就能知道当前的水果状态,进货几天了, 好久需要再次进货,那些水果畅销,那些水果不畅销,那些水…

Linux之设备树解耦架构解读-V1.0

术语和缩略语 本文档使用了以下术语和缩略语 Dts:DTS即Device Tree Source,是一个文本形式的文件,用于描述硬件信息。一般都是固定信息,无法变更,无法overlay。 Dtsi:可以理解为dts的公共部分&#xff0…

初识Redis——Redis概述、安装、基本操作

目录 一、NoSQL介绍 1.1什么是NoSQL 1.2为什么会出现NoSQL技术 1.3NoSQL的类别 1.4传统的ACID是什么 1.5 CAP 1.5.1 经典CAP图 1.5.4 什么是BASE 二、Redis概述 2.1 什么是Redis 2.2 Redis能干什么 2.3 Redis的特点 2.4 Redis与memcached对比 2.5 Redis的安装 2.6 Docker安装 三…

机器学习(14)--XGBoost

目录 一、概述 二、CART、GB、GBDT 1、CART 2、BT(Boosting Tree提升树) 3、GBDT(梯度提升树) 4、GBDT在sklearn中的损失函数 三、Sklearn中的GBDT 1、加载模块 2、划分数据集 3、建模 4、与随机森林和线性回归对比 5…

教你快速安装Bootstrap

目录 Bootstrap简介Bootstrap的下载Bootstrap的使用 Bootstrap简介 Bootstrap是美国Twitter公司的设计师Mark Otto和Jacob Thornton合作,基于HTML、CSS、JavaScript开发的简洁、直观、强悍的前端开发框架,它会使Web开发更加快捷Bootstrap框架的优点 开发…

GRE实验

题目参考&#xff1a; 实验步骤&#xff1a; 第一步&#xff1a;地址规划拓扑设计&#xff0c;配置IP地址 R1配置&#xff1a; <Huawei>system-view [Huawei]sy R1 [R1]int g 0/0/1 [R1-GigabitEthernet0/0/1]ip address 192.168.1.1 24 [R1-GigabitEthernet0/0/1]in…

异步fifo(1)

什么时异步fifo FIFO&#xff0c;即First In First Out &#xff0c;是一种先进先出的数据缓存器&#xff0c;异步FIFO 是指读写时钟不一致&#xff0c;读写时钟是互相独立的。数据从一个时钟域写入FIFO缓冲区&#xff0c;并从另一个时钟域的同一FIFO缓冲区中读取数据&#xf…

博弈论--sg函数

sg函数------ 定义终止状态的SG函数值为0。如果游戏已经结束&#xff0c;即达到了终止状态&#xff0c;那么对应的SG函数值就是0。即先手的sg值为0&#xff0c;则先手必败&#xff0c;否则先手必胜。 如何求sg函数值--------对于每个可能的移动&#xff0c;将后续状态的SG函数…

Centos 7 使用国内镜像源更新内核

内核选择参考 此博文 &#xff1a;https://blog.csdn.net/alwaysbefine/article/details/108931626 elrepo官网介绍的内核升级方式为&#xff1a; 一、按文档执行引入 elrepo库&#xff1b; # 1、引入公钥 rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org# 2、安…