Python Selenium+cookie+XPATH爬取数据-编程知识

Python Selenium+cookie+XPATH爬取数据

news/2025/2/19 6:07:08/文章来源:https://www.cnblogs.com/Vicrooor/p/18295004

以某科研基金信息平台为例，写了一个基于selenium的web自动化爬虫。不带验证码防反爬以及代理ip池，是最基础的自动化工具爬虫。

一、首先，此平台需要登录后才能正常访问，否则数据不全，因此需要登录后获取cookie，以便selenium能够以登录状态运行

1.F12打开开发者工具，找到network（网络），在登录后其有一个刷新的请求

可以看到该网站仅刷新了这一个请求

2.点击“cookie”选项卡，进入cookie截面（其实selenium自带了自动保存cookie的方法，但我希望尝试一下手动输入的流程）

3.可以看到cookie的信息分为“name”和“value”两部分，为了让cookie能够注入selenium，需要将其全部整理为[{'name':'xxx','value':'xxx'}]的形式，如下：

这便是一个完整的手动版cookie格式

二、在获取到cookie之后，第二步是需要分析页面找规律，找出我需要获取的信息

1.依旧是打开开发者工具，点开“元素”选项卡，可以看到整个网页的元素结构。将光标放到元素上，页面上就会显示该元素内具体包含了什么

经过查找，发现我需要的内容被包含在一个大元素中，下面分多个子元素，子元素下面又分多个子元素，

虽然关系很复杂，但是实际上，我们可以发现，我们需要的内容的class是一致的，

我需要的内容可以被这样找到：

父元素→遍历其中的子元素→找到子元素中特定class的元素

有了这样的逻辑，我就可以轻松地在代码中定位我需要的数据

为了实际定位，我使用XPATH作为定位的方法

例如我想先找到父元素，也就是<div class="home-content-container">

其XPATH即可以被写为 './/div[@class="home-content-container"]' 即可与find_element配合来获取此元素

三、在以上两步都完成后，我就可以开始编写代码来获取我需要的数据

# coding:utf-8
import time
import random
from time import sleep
from csv import writer
from selenium import webdriver
from selenium.webdriver.common.by import By#初始化webdriver实例
driver = webdriver.Chrome()#定义函数
def get_information(search_name):
#打开某名字下的网站driver.get("https://www.xxxxx.cn/pro/sonE-stwE08?psnname={}".format(search_name))time.sleep(6)#手动添加cookiecookies = [{'name': 'HMACCOUNT', 'value': 'xxx'},{'name': 'Hm_lpvt_0449d831efe3131221f6d2f2b6c91897', 'value': 'xxx'},{'name': 'Hm_lvt_0449d831efe3131221f6d2f2b6c91897', 'value': 'xxx'},{'name': '_c_WBKFRo', 'value': 'xxx'},{'name': '_nb_ioWEgULi', 'value': ''},{'name': 'acw_tc', 'value': 'xxx'},{'name': 'counter', 'value': 'xxx'},{'name': 'gzr_session', 'value': 'xxx'},{'name': 'userId', 'value': 'xxx'},{'name': 'uuid', 'value': 'xxx'},] #加载cookie模拟登陆for cookie in cookies:driver.add_cookie(cookie)time.sleep(5)driver.refresh()time.sleep(random.randrange(5,10))#定位需要爬取的元素(这里我进一步简化了定位的路径，请见谅)#获取我需要的主元素，由于有好几个，所以使用find_elementsparent_element=driver.find_elements(By.XPATH,'.//div[@class="item-box layui-card "]')#遍历每一个主元素for child_element in parent_element:#主元素中的数据元素，也是有多个text_element=child_element.find_elements(By.XPATH,'.//div[@class="layui-col-xs4"]')info=''#对于每个数据元素，使用.text取出数据for n in text_element:info+=n.textinfo+=','print(info)#储存到csv里list_data=[name,info]with open("信息.csv", "a", newline="") as f_object:writer_object = writer(f_object)writer_object.writerow(list_data)time.sleep(5)list_name=[xxxxx]
#主程序
for name in list_name:get_information(name)time.sleep(random.randrange(10,30))

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/741919.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

个人赛补题

round 1范围很小用暴力+贪心，左右枚举，先拿再放。尽量放小的所以需要排下序 include include "map" include "algorithm" include "cmath" include "vector" include "set" include "queue" define int long lo…

观《深入理解C#》有感---泛型五种约束

一、引用类型约束 class Sample<T> where T : class类型实参可以是：任何类： Sample<string> 接口： Sample<IDisposable> 数组： Sample<int[]> 委托： Sample<Action>二、值类型约束 class Sample<T> where T : struct类型实参可以是：…

2024/7/10 笔记

CF1693F对0,1个数相等的0,1串进行排序一定是最优的贪心策略。我们把0记为1，1记为-1.求前缀和如果1的个数大于0的个数，那么就把整个串翻转然后取反，推一下就可以知道结果不会变。CF1646F这题我写了半天发现假了；一开始看了样例很容易想到，每个人每轮都把自己不需要的牌往…

G65 线性基+贪心法 P4570 [BJWC2011] 元素

视频链接： P4570 [BJWC2011] 元素 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn)// 线性基 O(60*n) #include <iostream> #include <cstring> #include <algorithm> using namespace std;#define LL long long const LL N=1005; int n,m; struct node{LL …

一套基于 Ant Design 和 Blazor 的开源企业级组件库

前言今天大姚给大家分享一套基于Ant Design和Blazor的开源（MIT License）、免费的企业级组件库（喜欢Ant Design风格的同学推荐使用）：Ant Design Blazor。项目特性提炼自企业级中后台产品的交互语言和视觉风格。开箱即用的高质量 Blazor 组件，可在多种托管方式共享。支持…

Linux-shell编程入门基础

本篇文章就是一个过渡学习的，先入门shell脚本，由于作者有编程基础，所以有些解释的比较少。由于现在还在努力学习中，以后等本散修进阶了之后再写进阶的、与网络安全更加贴合的shell编程目录前言Shell编程bash特性shell作用域变量环境变量$特殊变量$特殊状态变量$特殊符号(很…

HashMap和ConcurrentHashMap的底层实现原理

（1）HashMap底层实现原理在 JDK 1.7 版本之前， HashMap 数据结构是数组和链表，HashMap 通过哈希算法将元素的键 (Key) 映射到数组中的槽位 (Bucket)。如果多个键映射到同一个槽位，它们会以链表的形式存储在同一个槽位上，因为链表的查询时间是 O(n)，所以冲突很严重，一个…

【Azure Key Vault】关于Key Vault使用的几个问题

问题一：Key Vault 和 Event Grid 通过将 Key Vault 与事件网格集成，可以在密钥保管库中存储的机密的状态发生更改时收到通知。状态更改将定义为即将到期的机密（到期前 30 天）、已过期的机密或具有可用新版本的机密。支持所有三种机密类型（密钥、证书和机密）的通知。无法…

利用Selenium和PhantomJS绕过接口加密的技术探索与实践

本文介绍了如何利用Selenium结合PhantomJS绕过网站接口加密的方法，详细分析了实现过程中的关键步骤和技术挑战。此外，文章还包括一个具体案例：使用该技术爬取振坤行商品信息的实例，展示了该技术在实际网络数据采集中的应用和效果。selenium+phantomjs绕过接口加密我们为什…

Profinet转ModbusTCP网关模块连发那科机器人与DCS通讯

本文介绍了使用巴图自动化Profinet转ModbusTCP网关（BT-ETHPN20）配置通讯，实现DCS与发那科机器人间数据传递的步骤。巴图自动化Modbus转Profinet网关模块(BT-MDPN10)集成了Modbus协议和Profinet协议，具有将Modbus和Profinet协议互转的能力，且支持Modbus RTU主从站。Profine…