Python批量采集某东评论,实现可视化分析

news/2024/9/21 11:04:48/文章来源:https://www.cnblogs.com/yuanyuan1010/p/18399632

女朋友没事就喜欢网购,买一大堆又不用,总说不合适,为了不让她花冤枉钱,于是我决定用Python写一个采集商品评论的脚本,然后对商品进行分析,这样就不怕踩到坑了! 

 

让我们直接开始本次操作准备工作
环境安装Python 3.10
Pycharm
模块使用采集数据模块
-DrissionPage -> pip install DrissionPage
-csv
-time
数据可视化
-pandas -> pip install pandas
-pyecharts -> pip install pyecharts
-jieba -> pip install jieba
-wordcloud -> pip install wordcloud
源码和视频讲解都打包好了,为了让大家更好的学会本次内容,我加班熬夜录制了详细的视频讲解,希望对大家有帮助。

 

基本流程
一、数据来源分析
1.明确需求
明确采集的网站以及数据内容
网址: https://****/10088121691070.html#comment
数据: 评论相关内容

2.抓包分析
通过浏览器开发者工具分析对应数据位置

打开开发者工具
F12 / 右键点击检查选择 network 网络刷新网页
通过关键字搜索找到对应数据位置
关键字: 需要什么数据就搜什么数据
数据包地址: https://api.***/

二. 代码实现步骤

requests数据请求

基本步骤: (requests)

 

drissionpage自动化模块

模拟人的行为对于浏览器进行操作: 点击 输入 拖拽 获取数据

打开浏览器
监听数据包 -> 直接监听数据链接
-看数据包是否加载
-监听数据在执行动作之前
访问网站
直接获取响应数据
解析数据
保存数据
准备工作

新建一个临时 py 文件,并输入以下代码,填入您电脑里的 Chrome 浏览器可执行文件路径,然后运行。

 这段代码会把浏览器路径记录到配置文件,今后启动浏览器皆以新路径为准。
另外,如果是想临时切换浏览器路径以尝试运行和操作是否正常,可以去掉 .save() 

【完整源码+v  Python1018    备注(圆圆)即可获得】

csv保存数据基本格式

根据你获取的数据不同:
fieldnames 根据提取数据保存在字典中键
encoding=‘utf-8’
如果使用utf-8打开表格文件出现乱码, 改成utf-8-sig

 json字典取值

 

数据可视化

pyecharts可视化

官方文档: https://gallery.pyecharts.org/#/README

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/792909.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux启动流程

KASLR kernel address space layout randomization 内核地址空间布局随机化 本质是将链接的地址做了随机偏移,这样System.map中的地址也不一样了,需要用 cat /proc/kallsyms才能查看到实际的地址。主要还是为了安全,这样地址布局随机化,来增加安全,被攻击的难度会增加。防…

推荐一款流量录制回放工具:jvm-sandbox-repeater

在软件开发和测试过程中,我们经常会遇到需要对网络请求进行录制和回放的需求,以便进行调试、测试和分析。为了模拟真实的用户请求,我们通常会使用各种流量录制回放工具来记录并重放网络请求。 其中,jvm-sandbox-repeater 是一款功能强大的流量录制回放工具,可以帮助我们轻…

第三章 路由系统

3.路由系统 本质上:URL和函数的对应关系。 3.1 传统的路由 from django.contrib import admin from django.urls import path from apps.web import viewsurlpatterns = [path(home/, views.home),path(news/<int:nid>/edit/, views.news),path(article/, views.article…

Java工程师多年之后看指针

指针是基本数据类型,占用4个字节。Int 类型的 数据 计算机处理语言中是处 中间层。使用图形化方式可以这样更形象直观。计算机对二进制处理数据的方式比较敏感。现 人们的大脑计数方式是通过十进制的方式计算日常和工作中需要的业务。操作符的限制,才增加了十六进制机制。数字…

记录 VMware Workstation 官方下载方式

VMware Workstation 对个人使用已免费,但想找到官方下载地址很困难,在此记录一下 下载地址:https://support.broadcom.com/group/ecx/productdownloads?subfamily=VMware+Workstation+Pro 有账号的话直接登录,没有的话右上角注册即可(注册后需要主动登录) 经过不太友好的…

工业制造企业如何与供应商间 进行高效安全的企业间文件传输?

工业制造企业的供应商数量通常较多,这主要是由于工业制造行业的复杂性和多元化特点所决定的。工业制造企业的产品结构往往较为复杂,涉及到多种原材料、零部件和设备。这些物资的需求不仅数量大,而且种类繁多,因此需要与多个供应商建立合作关系,以满足不同产品的生产需求。…

IC设计企业进行云租户数据传输最大的问题是什么?如何解决?

越来越多的IC设计企业基于云租户进行芯片的设计、仿真及验证流程,其原因在于: 降低成本:由于资源共享,租户无需单独购买、部署和维护昂贵的硬件设备,只需按需付费,大大降低了初期投资和运营成本。 弹性扩展:云租户可以根据业务需求快速、灵活地调整计算和存储资源,无需…

【精选】文件摆渡系统:跨网文件传输的安全与效率之选

文件摆渡系统可以解决哪些问题? 文件摆渡系统(File Shuttle System)主要是应用于不同网络、网段、区域之间的文件数据传输流转场景, 用于解决以下几类问题: 文件传输问题: 大文件传输:系统可以处理大文件的上传和下载,减少文件传输中的中断和错误。 异地传输:支持不同…

51nod 2180 争渡

争渡 常记溪亭日暮,沉醉不知归路。兴尽晚回舟,误入藕花深处。争渡,争渡,惊起一滩鸥鹭。 ——李清照《如梦令常记溪亭日暮》 给出线段上界和下界,要在严格递增地在区间内选数,问到最后一条线段的方案数。见上图,第 i 条线段 j 点的方案数为 i-1 条线段的 j-1 到 l[i] 的方…

【SQL Server】将EXEC的变量结果赋值输出

动态传入表名和表的某些属性,然后将标的属性赋值到参数中,以便后续使用。 首先一张表(表和字段设计略),使用动态的语句如下:1 DECLARE @tablename VARCHAR(255) = BomNo 2 ,@id INT = 1 3 ,@sql NVARCHAR(MAX) ; 4 SET @sql =SELECT fnumber,sonFnumber FROM Bom…

首发 最新AWVS/Acunetix Premium V24.8高级版漏洞扫描器(最新版)Windows/Linux下载

前言 Acunetix Premium 是一种 Web 应用程序安全解决方案,用于管理多个网站、Web 应用程序和 API 的安全。集成功能允许您自动化 DevOps 和问题管理基础架构。 Acunetix Premium:全面的 Web 应用程序安全解决方案 Web 应用程序对于企业和组织与客户、合作伙伴和员工的联系至关…

南沙信C++陈老师解一本通题: 2031:【例4.17】四位完全平方数

​题目描述】输出所有形如aabb的四位完全平方数(即前两位数字相等,后两位数字也相等)。【输入】无【输出】由小到大输出,每个数占一行。【输入样例】 无 【输出样例】 无#include <bits/stdc++.h> using namespace std; bool isSquare(int n) {int tmp=(int)sqrt(n);…