微博聚类文本分析和可视化

本文使用python抓取微博数据并对微博文本分析和可视化,LDA(树图)、关系图、词云、时间趋势(折线图)、热度地图、词典情感分析(饼图和3D柱状图)、词向量神经网络情感分析、tfidf聚类、词向量聚类、关键词提取、文本相似度分析等。

数据预处理

  1. prepro.py、pre_graph.py、senti_pre.py

    为了应对各种分析需求,需要数据预处理,具体所需数据文件类型和输出的结果数据结构见这三个py文件

    PS:

    prepro.py 运行时根据需要修改123、143、166行三处代码

    pre_graph.py 运行时根据需要修改127、140行两处代码

    senti_pre.py 运行时根据需要修改第119行代码

  2. zh_wiki.py、langconv.py

    这两个py文件是用于繁体转简体的无需修改

    数据分析和可视化
    词云:wc.py(需要跑完prepro.py)

    根据需要修改3、19、26行代码

    热度地图: map.py(需要跑完prepro.py)

    根据需要修改第8行代码


    转发、评论、点赞时间序列: line.py(需要跑完senti_pre.py 和 senti_analy.py)


    微博评论关系图: graph.py(需要跑完pre_graph.py)

    (参考)


    文本聚类: cluster_tfidf.py 和 cluster_w2v.py(需要跑完prepro.py)

    LDA主题模型分析: LDA.py(需要跑完senti_pre.py)tree.py(需要跑完senti_analy.py)


    情感分析(词典): senti_analy.py(需要跑完senti_pre.py)3Dbar.py(需要跑完senti_analy.py)pie.py(需要跑完senti_analy.py)


    情感分析(W2V+LSTM):Sentiment-Analysis-master文档中的senti_lstm.py(需要跑完senti_pre.py)

情感分析:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/624273.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何批量删除不包含指定关键字的数据行?

一、需求 有一个报名表,包括年龄,地址,特长等数据,现在想删除特长一列中不含“篮球”这个关键字行,可以使用这些办法。 二、删除数据 方法1.自动筛选, 1.1 选中数据后,点击数据选项卡&#…

SimpleImputer缺失数据处理报错解决方案

作者Toby,来源公众号:Python风控模型 SimpleImputer缺失数据处理报错解决方案 今天有学员反馈缺失值代码报错,由于sklearn缺失值处理的包升级,下面把官网最新的缺失值处理代码奉上。 参考https://scikit-learn.org/stable/module…

微信小程序scroll-view组件

一、介绍 当一个容器内容很多时,若容器无法显示完整内容,则可通过滚动操作查看所有内容 在微信小程序中scroll-view组件可以实现滚动效果 二、scroll-view组件的属性值 (1)scroll-x 【boolean型】 允许横向滚动条,默…

阿里云优惠券种类介绍及领取教程详解

随着互联网技术的快速发展,越来越多的企业和个人开始将业务和数据迁移到云端。阿里云作为国内领先的云服务提供商,为广大用户提供了丰富多样的云产品和服务。为了回馈用户,阿里云经常推出各种优惠活动,其中优惠券就是其中一种常见…

元宇宙VR虚拟线上展馆满足企业快速布展的需要

想要拥有一个VR线上虚拟展馆,展现您的城市风采或企业特色吗? 相比实体展馆搭建,VR线上虚拟展馆投入资金少,回报周期短,只需几个月的时间,您就能开始资金回笼。那么一个VR线上虚拟展馆多少钱呢? 深圳VR公司华锐视点基…

【切换网络连接后】VMware虚拟机网络配置【局域网通信】

初次安装Linux虚拟机以及切换网络都需要配置虚拟机网络, 从而使得win主机内通过远程连接工具能够连接该虚拟机, 而不是在虚拟机内操作。 本片文章你将了解到网络切换后如何配置虚拟机网络的一些基础操作,以及局域网通信的一些基础知识。 …

案例分析-redis

案例需求:在7002这个slave节点执行手动故障转移,重新夺回master地位 步骤如下: 1)利用redis-cli连接7002这个节点 2)执行cluster failover命令 如图: 效果: 4.5.RedisTemplate访问分片集群 …

【Entity Framework】你知道如何处理无键实体吗

【Entity Framework】你知道如何处理无键实体吗 文章目录 【Entity Framework】你知道如何处理无键实体吗一、概述二、定义无键实体类型数据注释 三、无键实体类型特征四、无键实体使用场景五、无键实体使用场景六、无键使用示例6.1 定义一个简单的Blog和Post模型:6…

项目升级到jdk21后 SpringBoot相关组件的适配

了解到jdk21是一个LTS版本,可以稳定支持协程的功能。经过调研,将目前线上的jdk8升级到21,使用协程提升并发性能。 目前系统使用springBoot 2.0.3.RELEASE,并且引入了mybatis-spring-boot-starter、spring-boot-starter-data-redi…

【简单讲解下npm常用命令】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

瞬态瑞丽波频散曲线提取

频散曲线 function [Y1, f, phase] = das_fft(signal1, signal2, Ts) [y, lag

视频自定义字幕,中英文,彩色的,你也可以,不会不知道吧

前言 关于【SSD系列】: 前端一些有意思的内容,旨在3-10分钟里,有所获,又不为所累。 字幕,大家见过吧,其实你也可以,真的可以,真的真的可以。不难,不难,真的…