爬虫之牛刀小试(十一):爬取某东关于手机的评论

首先我们进入华为官方旗舰店,点击Mate60,得到:
在这里插入图片描述
找到存放评论的接口网址:
在这里插入图片描述
在这里插入图片描述
然后使用cookie模拟登录,得到字典筛选出我们想要的内容。

爬取1000条评论
在这里插入图片描述
同样可以对任意商品进行操作,得到16款手机共计16000条评论。
在这里插入图片描述
完整代码如下:

# 导包
import requests
import time
import random# 获取评论
def get_content(page):# 目标网址url = 'https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc&clientVersion=1.0.0&t=1708081217616&loginType=3&uuid=181111935.17080674671511977691958.1708067467.1708067467.1708071360.2&productId=100077414769&score=0&sortType=5&page='+str(page)+'&pageSize=10&isShadowSku=0&fold=1&bbtf=&shield='# 请求头headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36','cookie':'__jdv=76161171|cn.bing.com|-|referral|-|1708067467152; __jdu=17080674671511977691958; areaId=18; shshshfpa=f79ca8f0-dbeb-483a-65d1-1903e4d092d7-1708067469; shshshfpx=f79ca8f0-dbeb-483a-65d1-1903e4d092d7-1708067469; pinId=KwTmTjb4JkIRQRTFN102vw; pin=jd_TbEqoALcQroG; unick=jd_TbEqoALcQroG; _tp=ymdIo7YzbPdf3lcwvjfR%2Bw%3D%3D; _pst=jd_TbEqoALcQroG; jsavif=1; user-key=6e806906-3180-4c42-a5e2-e31a1194ae77; ipLoc-djd=18-1511-29459-31137; cn=1; TrackID=1DA2qdWl8nrh1WmgmQF2S1usFqrqC78TDQvYzcjd8AZ4nbOCNjQbMxJU_1U9MaAgd49EQVTanG262mStqNYe5GK7crEh7KjvjwYq7sjviH7s; thor=4DF93E3A971F99490C488635E7F8D589A8196F54231ECCDB94DE8327335167EB93F82BED3BAFAA1381CFB2F61F2B9491709195640404A09F26521656E4AD10C5D60CA5E579D00521EE9F94F7B4F2FEC71D1F6D243FED2A6492E4157754799CFD69F1143F088E8187CDDD17156C425AB722FAC07C1593BD5CA30078A1A86B8F4D812FE7C612C99FA6BED546A10B210F57A09F60E3C6A4D8EBD3E43ED3FF0E2C6F; flash=2_up4fAwgFa9_MyKNlF4cN75sYhl63GvemBVDO6vAuyiI5HlAz40IWc60iy9d2TjDrgCpKEIeoPkjQTtvlWiokjxPStyb_uzTBbT9R3VsYTdq*; ceshi3.com=000; token=3ef9d1eaecaba20757d307e8f6496c8c,3,948931; __tk=nZbwWciMVxOOVMP0R0kzRUeCVxR0VxzzVMnKWZzzV0bwWlAFRlROiX,3,948931; __jda=181111935.17080674671511977691958.1708067467.1708067467.1708071360.2; __jdc=181111935; 3AB9D23F7A4B3C9B=U5DLBKPWR7TZKL3D7XJZK3O2MYXSUJLW6I36XE4JBMU2Y3IG3C5RK2XG2PWQ7RV6NISS6NMHNWOW4KGDAMCFJYYMKQ; 3AB9D23F7A4B3CSS=jdd03U5DLBKPWR7TZKL3D7XJZK3O2MYXSUJLW6I36XE4JBMU2Y3IG3C5RK2XG2PWQ7RV6NISS6NMHNWOW4KGDAMCFJYYMKQAAAAMNWFHPIOYAAAAACTP4Q7G4XZEE7EX; _gia_d=1; shshshsID=37a146fdd9c1b8a7af5bc40153a38575_34_1708076765078; __jdb=181111935.39.17080674671511977691958|2.1708071360; shshshfpb=BApXeM-dHsuhAagbgKaymjtcYcHRfFiMNBkpHc0Zf9xJ1Mhox0oO2','referer': 'https://item.jd.com/'}# 发生请求并获取json数据resp = requests.get(url,headers=headers).json()# 获取评论内容并保存for comment in resp['comments']:# 将评论内容里的换行符剔除content = comment['content'].replace('\n','')print(content)f.flush()f.write(content)f.write('\n')print(f'============================第{page+1}页爬取完毕===============================')if __name__ == '__main__':product= input('请输入要爬取的商品:')page_number = int(input('请输入要爬取的页数:'))with open(f'JD_comment_{product}.txt','a',encoding='utf-8')as f:for page in range(page_number):try:get_content(page)time.sleep(1+random.random())except:breakprint(f'爬虫程序已结束!评论内容请在同目录下的 JD_comment_{product}.txt 查看!')

请大家关注一下我的公众号。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/471868.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java使用opencsv完成对csv批量操作

文章目录 前言一、maven二、造数三、代码部分1.OpenCsvController2.OpenCsvUtil3.StudentInfo4.CodeToValue 三、效果展示1.download2.upload 总结 前言 csv文件是不同于excel文件的另一种文件,常常以,作为分隔符,本篇将通过JavaBean的形式完成对csv文件…

2024.2.15 模拟实现 RabbitMQ —— 消息持久化

目录 引言 约定存储方式 消息序列化 重点理解 针对 MessageFileManager 单元测试 小结 引言 问题: 关于 Message(消息)为啥在硬盘上存储? 回答: 消息操作并不涉及到复杂的增删查改消息数量可能会非常多&#xff…

【机器学习笔记】8 决策树

决策树原理 决策树是从训练数据中学习得出一个树状结构的模型。 决策树属于判别模型。 决策树是一种树状结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。决策树的决策过程就是从根节点开始&…

心理辅导|高校心理教育辅导系统|基于Springboot的高校心理教育辅导系统设计与实现(源码+数据库+文档)

高校心理教育辅导系统目录 目录 基于Springboot的高校心理教育辅导系统设计与实现 一、前言 二、系统功能设计 三、系统实现 1、学生功能模块的实现 (1)学生登录界面 (2)留言反馈界面 (3)试卷列表界…

Java实现实现自动化pdf打水印小项目 使用技术pdfbox、Documents4j

文章目录 前言源码获取一、需求说明二、 调研pdf处理工具word处理工具 三、技术栈选择四、功能实现实现效果详细功能介绍详细代码实现项目目录WordUtilsMain类实现部分:第一部分Main类实现部分:第二部分Main类实现部分:第三部分 资料获取 前言…

win7自带截图工具保存失效解决办法

今日发现一台远航技术的win7中自带的截图工具使用时正常,保存图片时没有弹出保存位置的对话窗口,无法正常保存图片。解决方案如下: 1、进入注册表编辑器。开始-搜索程序和文件-输入 regedit 按下回车键,打开注册表; 2、…

DS Wannabe之5-AM Project: DS 30day int prep day18

Q1. What is Levenshtein Algorithm? Levenshtein算法,也称为编辑距离算法,是一种量化两个字符串之间差异的方法。它通过计算将一个字符串转换成另一个字符串所需的最少单字符编辑操作次数来实现。这些编辑操作包括插入、删除和替换字符。Levenshtein距…

【知识图谱--第三讲知识图谱的存储与查询】

知识图谱的存储与查询 基于关系型数据库的知识图谱存储基于原生图数据库的知识图谱存储原生图数据库实现原理浅析 基于关系型数据库的知识图谱存储 基于原生图数据库的知识图谱存储 原生图数据库实现原理浅析

黑群晖一键修复:root、AME、DTS、转码、CPU型号等

食用方法:SSH连接群晖使用临时root权限执行 AME3.x激活补丁 只适用于x86_64的:DSM7.x Advanced Media Extensions (AME)版本3.0.1-2004、3.1.0-3005 激活过程需要下载官方的解码包,过程较慢,耐心等待。。。 DSM7.1和7.2的AME版…

CMake进行C/C++与汇编混合编程

1. 前提 这篇文章记录一下怎么用CMake进行项目管理, 并用C/C和汇编进行混合编程, 为了使用这项技术, 必须在VS的环境中安装好cmake组件 由于大部分人不会使用C/C与汇编进行混合编程的情况。所以这篇文章并不适用于绝大部分人不会对其中具体细节进行过多叙述。只是做一些简单的…

静态时序分析:SDC约束命令set_clock_transition详解

相关阅读 静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html?spm1001.2014.3001.5482 在静态时序分析:SDC约束命令create_clock详解一文的最后,我们谈到了针对理想(ideal)时钟,可以使用set_clock_transition命令直…

数据发送程序

#include<reg51.h> //包含单片机寄存器的头文件 unsigned char code Tab[ ]{0xFE,0xFD,0xFB,0xF7,0xEF,0xDF,0xBF,0x7F}; //流水灯控制码&#xff0c;该数组被定义为全局变量 /***************************************************** 函数功能&#xff1a;向PC发…