基于数据挖掘的斗鱼直播数据可视化分析系统

温馨提示:文末有 CSDN 平台官方提供的学长 QQ 名片 :) 

1. 项目简介

        随着网络直播平台的兴起,斗鱼直播作为其中的佼佼者,吸引了大量用户和观众。为了更好地理解和分析斗鱼直播中的数据,本项目介绍了一个基于数据挖掘的斗鱼直播数据可视化分析系统。该系统利用Python编程语言,结合网络爬虫技术,从斗鱼直播平台抓取相关数据,并使用Pandas进行高效的数据分析处理。最终,通过Flask框架搭建Web应用,并结合ECharts实现数据的可视化展示。

        B站详情与代码下载:基于数据挖掘的斗鱼直播数据可视化分析系统_哔哩哔哩_bilibili

基于数据挖掘的斗鱼直播数据可视化分析系统

2. 系统设计与实现

  1. 数据采集:首先,利用Python编写网络爬虫程序,对斗鱼直播平台进行数据抓取。爬虫程序能够自动访问直播间页面,提取关键信息如直播标题、观看人数、弹幕内容等。
  2. 数据分析:收集到的原始数据经过清洗后,使用Pandas库进行进一步的分析处理。通过对数据的统计、聚合和筛选,得到关于直播内容、主播人气和观众互动等方面的洞察。
  3. 系统架构:采用Flask框架构建Web应用,将分析结果以API的形式提供给前端页面。Flask的轻量级特性使得系统的开发和部署更加灵活高效。
  4. 数据可视化:借助ECharts图表库,在前端页面上实现数据的可视化展示。通过柱状图、折线图、饼图等多种图表形式,直观地呈现分析结果,帮助用户快速把握数据背后的规律和趋势。

3. 直播数据网络爬虫

        本次我们采集的数据是播酱网下斗鱼平台的主播直播数据,且该网站关于主播直播数据的展示是以月报的形式进行展示的,所以我们就可以确定本次采集的目标网址为该网站下直播平台的直播月报的网址。

for page in range(1, 151):print("采集 {} 的斗鱼直播数据,page: {}".format(month, page))url = base_url.format(month, page, page_size)resp = requests.get(url, headers=headers)resp = resp.json()batch_insert = []for data in resp['data']['rows']:# 处理“直播时长”的数据类型duration = data['duration'].split(":")[-1].replace('小时', '')info = {# 主播账号名称"name": data['name'],# 主播头像"avator": data['avator'],# 直播类别"cate_name": data['cate_name'],# 主播所属公会"club_name": data['club_name'],# 活跃观众"audience_count": data["audience_count"],# 弹幕数量"danmu_count": data["danmu_count"],# 礼物总值"yc_gift_value": float(data['yc_gift_value']),# 峰值热度"hn_max": data['hn_max'],# 弹幕人数"danmu_person_count": data['danmu_person_count'],# 礼物人数"gift_person_count": data['gift_person_count'],# 单月直播时长"duration": float(duration),# 月份"month": data['month']}batch_insert.append(list(info.values()))print(info)if batch_insert:cursor.executemany(insert_sql, batch_insert)conn.commit()batch_insert.clear()

4. 直播数据可视化分析系统

4.1 系统首页

4.2 直播类型与签约公会分析

4.3 直播热度分析

        可以看出,虽然星秀板块的主播数量最多,但是其平均活跃观众数量相对来说比较少,没有人数稍少的王者荣耀和英雄联盟等游戏板块。 此外,平均活跃观众较多的是 DOTA2、lol云顶之弈、英雄联盟等游戏板块,平均峰值热度较多的是王者荣耀、派对等板块。未与公会签约的主播占比较少,仅有18.27万,且未与公会签约的主播的直播间平均活跃观众远少于与公会签约的主播,可能与公会签约的主播可获得平台的流量扶持政策有关, 但并非公会越庞大(`指公会签约主播数量`)而所提供的流量扶持越大,4月份未签约的主播的平均峰值热度却高于签约主播。

4.4 直播时长分析

        可以看出,主播的直播时长长短与平均活跃观众数量的变化影响不大,呈现不是特别明显的正相关,直播时长越大,大概率活跃观众数量越大,平均峰值热度的变化影响也不大,但随直播时长变化的波动更为明显。

4.5 直播刷礼物分析

        可以看出,一起玩和派对类型的直播,其观众打赏总值最高,远远超出其他类型直播。签约的禾相、考拉、解忧文化等公会的直播,其观众打赏总值较高。峰值热度与观众打赏总价值之间存在一定的正相关,直播热度越高,表明观众越活越,其打赏的概率也会相应增大,符合主观规律。

4.6 直播弹幕分析

5. 总结

        本项目介绍了一个基于数据挖掘的斗鱼直播数据可视化分析系统。该系统利用Python编程语言,结合网络爬虫技术,从斗鱼直播平台抓取相关数据,并使用Pandas进行高效的数据分析处理。最终,通过Flask框架搭建Web应用,并结合ECharts实现数据的可视化展示。

  欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。技术交流、源码获取认准下方 CSDN 官方提供的学长 QQ 名片 :)

精彩专栏推荐订阅:

1. Python数据挖掘精品实战案例

2. 计算机视觉 CV 精品实战案例

3. 自然语言处理 NLP 精品实战案例

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/651934.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

openjudge_2.5基本算法之搜索_200:Solitaire

题目 200:Solitaire 总时间限制: 5000ms 单个测试点时间限制: 1000ms 内存限制: 65536kB 描述 Solitaire is a game played on a chessboard 8x8. The rows and columns of the chessboard are numbered from 1 to 8, from the top to the bottom and from left to right resp…

架构师系列-Docker(二)-部署微服务

安装部署nacos Nacos是阿里巴巴开源的一款支持服务注册与发现,配置管理以及微服务管理的组件。用来取代以前常用的注册中心(zookeeper , eureka等等),以及配置中心(spring cloud config等等),N…

数据结构——二叉树练习(深搜广搜)

数据结构——二叉树练习 路径之和深度优先算法和广度优先算法二叉搜索树判断一棵二叉树是否为搜索二叉树和完全二叉树 我们今天来看二叉树的习题: 路径之和 https://leetcode.cn/problems/path-sum-ii/ 这是一个典型的回溯,深度优先算法的题&#xff0c…

净初级生产力NPP数据

生态系统是地球上生命存在的舞台,而生态系统的能量来源之一是净初级生产力(NPP)。NPP是生态系统中植物通过光合作用将太阳能转化为有机物质的速率,是生态系统中生物量增长和能量积累的重要指标之一。 NPP的重要性 NPP反映了生态系…

python的turtle库画直线

1.画一条直线 让画笔从(0,0)划到(100,100),在turtle中画笔是一只小乌龟。 import turtle turtle.setup(800,800,0,0)#turtle.setup(width,height,startx,starty)来设置窗口初始位置及大小 turtle.goto(100,100)2.画一条折线 left和right使小…

【UE5.1 C++】提升编译速度

步骤 1. 在“C:\Users\用户\AppData\Roaming\Unreal Engine\UnrealBuildTool”目录下找到“BuildConfiguration.xml”文件 打开“BuildConfiguration.xml”&#xff0c;添加如下部分内容 <?xml version"1.0" encoding"utf-8" ?> <Configuratio…

TypeScript入门第一天,所有类型+基础用法+接口使用

表示逻辑值&#xff1a;true 和 false。在JavaScript和TypeScript里叫做boolean | | 数组类型 | 无 | 声明变量为数组。 // 在元素类型后面加上[] let arr: number[] [1, 2]; // 或者使用数组泛型&#xff0c;Array<元素类型> let arr: Array [1, 2]; | | 元组…

vue与Spring boot数据交互例子【简单版】

文章目录 什么是Vue&#xff1f;快速体验Vueaxios是什么&#xff1f;向Springboot后端发送数据接收Springboot后端数据小结 什么是Vue&#xff1f; 官网解释&#xff1a;Vue 是一套用于构建用户界面的渐进式框架。与其它大型框架不同的是&#xff0c;Vue 被设计为可以自底向上…

济宁市中考报名照片要求及手机拍照采集证件照方法

随着中考报名季的到来&#xff0c;并且进入了中考报名演练阶段&#xff0c;济宁市的广大考生和家长都开始忙碌起来。报名过程中&#xff0c;上传一张符合要求的证件照是必不可少的环节。本文将详细介绍济宁市中考报名照片的具体要求&#xff0c;并提供一些实用的手机拍照采集证…

php反序列化字符串逃逸

字符串逃逸 字符串逃逸是通过改变序列化字符串的长度造成的php反序列化漏洞 一般是因为替换函数使得字符串长度发生变化&#xff0c;不论变长还是变短&#xff0c;原理都大致相同 在学习之前&#xff0c;要先了解序列化字符串的结构&#xff0c;在了解结构的基础上才能更好理解…

ubuntu22 部署fastDFS单节点和集群,整合Spring Boot(刚部署成功)

ubuntu22 部署fastDFS单节点和集群 一、先准备1、所需依赖安装2、下载安装包 二、安装FastDFS单节点1、libfastcommon安装1.1、创建软连接 2、安装fastDFS2.1、fastDFS目录简单介绍2.2、创建软连接 3、配置和启动Tracker服务3.1、修改Tracker配置文件3.2、启动Tracker 4、配置和…

DS进阶:并查集

一、并查集的原理 在一些应用问题中&#xff0c;需要将n个不同的元素划分成一些不相交的集合。开始时&#xff0c;每个元素自成一个单元素集合&#xff0c;然后按一定的规律将归于同一组元素的集合合并。在此过程中要反复用到查询某一个元素归属于那个集合的运算。适合于描述这…