7.1.4 Selenium 爬取京东商品信息实战

目录

1、实战内容

2、思路

3、分析 url

4、开始操作

1、得到 Cookies

2、访问页面,得到 response

3、解析页面

4、存入 MySQL

5、1-3步总代码


1、实战内容

爬取京东笔记本电脑商品的信息(如:价格、商品名、评论数量),存入 MySQL 中

2、思路

京东需要登录才能搜索进入,所以首先从登录页面出发,自己登录,然后等待,得到 Cookies,之后带着 Cookies 模拟访问页面,得到页面的 response,再对 response 进行分析,将分析内容存入 MySQL 中。

3、分析 url

来到 京东搜索 笔记本电脑,之后观察首页之后的几页的链接,如下:

不难发现,除了首页之外,其他链接的区别是从第四行的 page 开始,大胆猜测链接就到此即可,且规律也显而易见,就可以直接构造链接。

4、开始操作

1、得到 Cookies

from selenium import webdriver
import json, timedef get_cookie(url):browser = webdriver.Chrome()browser.get(url)    # 进入登录页面time.sleep(10)      # 停一段时间,自己手动登录cookies_dict_list = browser.get_cookies()  # 获取list的cookiescookies_json = json.dumps(cookies_dict_list)  # 列表转换成字符串保存with open('cookies.txt', 'w') as f:f.write(cookies_json)print('cookies保存成功!')browser.close()if __name__ == '__main__':url_login = 'https://passport.jd.com/uc/login?'     # 登录页面urlget_cookie(url_login)

之后就可看到 txt 文件中的 cookies(多个),之后模拟登录构造 cookie 时,对照其中的即可.

2、访问页面,得到 response

当 selenium 访问时,若页面是笔记本电脑页,直接进行爬取;若不是,即在登录页,构造 cookie,添加,登录;

js 语句是使页面滑倒最低端,等待数据包刷新出来,才能得到完整的页面 response(这里的 resposne 相当于使用 request 时候的 response.text );

def get_html(url):    # 此 url 为分析的笔记本电脑页面的 urlbrowser = webdriver.Chrome()browser.get(url)if browser.current_url == url:js = "var q=document.documentElement.scrollTop=100000"browser.execute_script(js)time.sleep(2)responses = browser.page_sourcebrowser.close()return responseselse:with open('cookies.txt', 'r', encoding='utf8') as f:listCookies = json.loads(f.read())for cookie in listCookies:cookie_dict = {'domain': '.jd.com','name': cookie.get('name'),'value': cookie.get('value'),"expires": '1746673777',    # 表示 cookies到期时间'path': '/',            # expiry必须为整数,所以使用 expires'httpOnly': False,"sameSite": "Lax",'Secure': False}browser.add_cookie(cookie_dict) # 将获得的所有 cookies 都加入time.sleep(1)browser.get(url)js = "var q=document.documentElement.scrollTop=100000"browser.execute_script(js)time.sleep(2)response = browser.page_sourcebrowser.close()return response

cookies 到期时间是用时间戳来记录的,可用工具查看时间戳(Unix timestamp)转换工具 - 在线工具

3、解析页面

这里我使用了 Xpath 的解析方法,并将结果构造成字典列表,输出。

def parse(response):html = etree.HTML(response)products_lis = html.xpath('//li[contains(@class, "gl-item")]')products_list = []for product_li in products_lis:product = {}price = product_li.xpath('./div/div[@class="p-price"]/strong/i/text()')name = product_li.xpath('./div/div[contains(@class, "p-name")]/a/em/text()')comment = product_li.xpath('./div/div[@class="p-commit"]/strong/a/text()')product['price'] = price[0]product['name'] = name[0].strip()product['comment'] = comment[0]products_list.append(product)print(products_list)print(len(products_list))

4、存入 MySQL

上述已经得到每一个商品数据的字典,所以直接对字典或字典列表进行存储即可。

参考链接:4.4 MySQL存储-CSDN博客 5.2 Ajax 数据爬取实战-CSDN博客

5、1-3步总代码

from selenium import webdriver
import json, time
from lxml import etreedef get_cookie(url):browser = webdriver.Chrome()browser.get(url)    # 进入登录页面time.sleep(10)      # 停一段时间,自己手动登录cookies_dict_list = browser.get_cookies()  # 获取list的cookiescookies_json = json.dumps(cookies_dict_list)  # 转换成字符串保存with open('cookies.txt', 'w') as f:f.write(cookies_json)print('cookies保存成功!')browser.close()def get_html(url):browser = webdriver.Chrome()browser.get(url)if browser.current_url == url:js = "var q=document.documentElement.scrollTop=100000"browser.execute_script(js)time.sleep(2)responses = browser.page_sourcebrowser.close()return responseselse:with open('cookies.txt', 'r', encoding='utf8') as f:listCookies = json.loads(f.read())for cookie in listCookies:cookie_dict = {'domain': '.jd.com','name': cookie.get('name'),'value': cookie.get('value'),"expires": '1746673777','path': '/','httpOnly': False,"sameSite": "Lax",'Secure': False}browser.add_cookie(cookie_dict) # 将获得的所有 cookies 都加入time.sleep(1)browser.get(url)js = "var q=document.documentElement.scrollTop=100000"browser.execute_script(js)time.sleep(2)response = browser.page_sourcebrowser.close()return responsedef parse(response):html = etree.HTML(response)products_lis = html.xpath('//li[contains(@class, "gl-item")]')products_list = []for product_li in products_lis:product = {}price = product_li.xpath('./div/div[@class="p-price"]/strong/i/text()')name = product_li.xpath('./div/div[contains(@class, "p-name")]/a/em/text()')comment = product_li.xpath('./div/div[@class="p-commit"]/strong/a/text()')product['price'] = price[0]product['name'] = name[0].strip()product['comment'] = comment[0]products_list.append(product)print(products_list)print(len(products_list))if __name__ == '__main__':keyword = '笔记本电脑'url_login = 'https://passport.jd.com/uc/login?'     # 登录页面urlget_cookie(url_login)for page in range(1, 20, 2):base_url = f'https://search.jd.com/Search?keyword={keyword}&wq=%E7%AC%94%E8%AE%B0%E6%9C%AC%E7%94%B5%E8%84%91&pvid=222071d82c0344059f4aac713b1679b4&isList=0&page={page}'response = get_html(base_url)parse(response)

文章参考:python爬虫之使用selenium爬取京东商品信息并把数据保存至mongodb数据库_seleniu获取京东cookie-CSDN博客

 文章到此结束,本人新手,若有错误,欢迎指正;若有疑问,欢迎讨论。若文章对你有用,点个小赞鼓励一下,谢谢大家,一起加油吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/601849.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用 AI 生成正则表达式,告别正则烦恼

如果你有处理正则表达式的需求,那么这个网站(autoregex.xyz)一定要收藏好。 可以根据文字描述生成正则表达式。 默认是从文字到正则,不用选择。 输入框中输入描述,点击 ”GO“ 按钮。 等待一会儿,即可生…

数据结构与算法:哈希表

目录 1.哈希表和哈希 1.1.知识引入 1.2.为什么需要哈希表呢? 2.简易的哈希表 2.1.哈希表的基础结构 2.2.如何实现基础的哈希表 2.2.1.增 2.2.2.删 2.2.3.查 2.3.泛型编程下的哈希表 3.简易的哈希桶 1.哈希表和哈希 1.1.知识引入 哈希表(Hash …

11-新热文章-实时计算

热点文章-实时计算 1 今日内容 1.1 定时计算与实时计算 1.2 今日内容 kafkaStream 什么是流式计算 kafkaStream概述 kafkaStream入门案例 Springboot集成kafkaStream 实时计算 用户行为发送消息 kafkaStream聚合处理消息 更新文章行为数量 替换热点文章数据 2 实时…

网络通信三要素:IP、端口和协议

IP:设备在网络中的地址,是唯一的标识 IP:全程”互联网协议地址“,是分配给上网设备的唯一标志 IP地址有两种形式: IPv4:32位 IPv6:共128位。分成8段表示,每取四位编码成一个16进制…

Linux 5.10 Pstore 功能测试

目录 简介环境配置内核配置参考备注 简介 Pstore(Persistent store support)是用于系统发生oops或panic时,自动保存内核log buffer中的日志。随着功能不断完善,Duo S使用Linux 5.10已经支持保存console日志、ftrace消息和用户空间日志的收集&#xff0c…

Python学习从0开始——007输入与输出

Python学习从0开始——007输入与输出 一、简单输出二、复杂输出2.1引用变量2.2format()函数2.3手动格式化 三、读写文件3.1open()3.2操作文件对象3.3使用 json 保存结构化数据 一、简单输出 str() 函数返回供人阅读的值,repr() 则生成适于解释器读取的值&#xff0…

德兰梅尔:耐高温热销的膜元件亮相2024上海国际生物发酵展

德兰梅尔:耐高温热销的膜元件盛装亮相2024上海国际生物发酵展,8月7-9号上海新国际博览中心与您不见不散! 据了解,从成立至今,德兰梅尔一直专注膜技术、膜产品的开发生产。在中国市场上,德兰梅尔刚步入中国…

峥嵘九载,逐云而上:青果乔迁新址,乘风破浪再起新篇

4月1日,近百名员工和诸多合作伙伴齐聚,共同见证了青果九周年庆典暨乔迁仪式这一里程碑式的时刻。 新起点,新征程,再启航! 以新为序,共赴新征程 在典礼上,青果创始人和高管分别发表了致辞&#…

Python技能树学习-函数

题目一:递归调用 函数的参数: def dump(index, default0, *args, **kw): print(打印函数参数) print(---) print(index:, index) print(default:, default) for i, arg in enumerate(args): print(farg[{i}]:, arg) for…

力姆泰克医疗电动推杆

力姆泰克医疗电动推杆,宛如医疗领域的精巧舞者,以其卓越的性能和稳定的表现,为众多医疗应用献上了精彩的演绎。它犹如一位敬业的演员,始终保持着高度的灵敏度和精确度,无论是微调还是大幅移动,都能准确无误…

wireshark抓包新手使用教程

Wireshark是非常流行的网络封包分析软件,可以截取各种网络数据包,并显示数据包详细信息。常用于开发测试过程各种问题定位。本文主要内容包括: 1、Wireshark软件下载和安装以及Wireshark主界面介绍。 2、WireShark简单抓包示例。通过该例子学…

好用的AI智能工具:AI写作、AI绘画、AI翻译全都有

在科技不断进步的今天,人工智能(AI)已经成为我们日常生活中不可或缺的一部分。它不仅在各个领域都有应用,还为我们提供了许多方便快捷的工具。对此,小编今天推荐7款人工智能软件,AI写作、AI绘画、AI翻译全都…