【python plotly库介绍】从视觉到洞见:桑基图在业务分析中的应用【保姆级教程过于详细珍藏版】

👤作者介绍:10年大厂数据\经营分析经验,现任大厂数据部门负责人。
本文结构:工具介绍python实现库 - 案例 - 分析思路与过程

实战专栏:https://blog.csdn.net/cciehl/category_12615648.html

备注说明:

  • 企业案例的数据均为模拟后的,重点看分析思路
  • 全文8000字,阅读10分钟,练习2小时
  • 每天一篇数据分析实战案例,一起打怪升级

桑基图(Sankey Diagram)是一种特殊类型的流图,以流的宽度来表示数据量的大小,广泛应用于展示能量、材料、成本或其他信息的流动和转化。它能直观地显示多个过程或阶段之间的关系,以及在这些过程中量的分配或转换情况。介绍桑基图之前我们先介绍一下这次主要用到的库plotly

plotly库介绍

plotly是一个非常强大的Python图形库,它支持创建丰富的交互式图表和数据可视化。作为一个开源库,plotly允许用户以简单的Python代码生成复杂的图形,如线图、散点图、柱状图、饼图、热力图、3D图和桑基图等。由于其交互性强,plotly生成的图表可以让用户通过鼠标操作(如点击、拖拽、缩放等)来探索数据,这使得plotly在数据分析和科学研究中尤为受欢迎。

核心特点

  1. 交互性plotly图表具有高度的交互性,用户可以直接在图表上进行操作,如悬停显示详细信息、缩放、更新数据等。

  2. 多平台支持plotly可以在Jupyter Notebook中直接使用,同时支持将图表导出为HTML文件,便于在网页中嵌入和分享。

  3. 丰富的图表类型plotly支持广泛的图表类型,能够覆盖绝大多数的数据可视化需求。

  4. 高度可定制:几乎图表中的每个元素都是可定制的,包括颜色、大小、布局等,满足个性化的展示需求。

  5. 与Dash结合plotly是构建Dash应用的核心库之一,Dash是一个用于构建数据驱动的Web应用的框架,利用plotly进行数据可视化。

基本用法

安装plotly

pip install plotly

创建一个简单的散点图:

import plotly.graph_objects as go# 创建散点图
fig = go.Figure(data=go.Scatter(x=[1, 2, 3, 4], y=[10, 11, 12, 13], mode='markers'))# 显示图表
fig.show()

创建桑基图:

import plotly.graph_objects as gofig = go.Figure(go.Sankey(node=dict(pad=15,thickness=20,line=dict(color="black", width=0.5),label=["Node 1", "Node 2", "Node 3"],),link=dict(source=[0, 1],  # 定义源节点target=[2, 2],  # 定义目标节点value=[8, 4],  # 定义流量值)))fig.update_layout(title_text="简单桑基图示例")
fig.show()

高级用法

动画

plotly支持为图表添加动画效果,这对于展示随时间变化的数据特别有用。例如,可以创建一个动画来展示股票价格的变化或者气候变化的模拟。

import plotly.graph_objects as go
from plotly.subplots import make_subplots# 创建带有动画的散点图
fig = make_subplots(rows=1, cols=1)# 添加初始数据
fig.add_trace(go.Scatter(x=[1, 2, 3, 4], y=[10, 11, 12, 13], mode="markers"), row=1, col=1)# 添加动画帧
fig.add_trace(go.Scatter(x=[1, 2, 3, 4], y=[13, 11, 12, 10], mode="markers"), row=1, col=1)fig.update_layout(updatemenus=[dict(type="buttons",buttons=[dict(label="Play",method="animate",args=[None])])])# 定义动画
fig.update(frames=[go.Frame(data=[go.Scatter(x=[1, 2, 3, 4], y=[11, 12, 13, 14])]),go.Frame(data=[go.Scatter(x=[1, 2, 3, 4], y=[14, 13, 12, 11])])])fig.show()

展示-点击前

展示-点击后

子图布局

plotly允许在一个图表中创建多个子图(subplot),这在需要同时展示多个相关数据集时非常有用。

from plotly.subplots import make_subplots
import plotly.graph_objects as go# 创建包含2行1列子图的图表
fig = make_subplots(rows=2, cols=1)# 添加第一个子图:折线图
fig.add_trace(go.Scatter(x=[1, 2, 3], y=[4, 5, 6]), row=1, col=1)# 添加第二个子图:柱状图
fig.add_trace(go.Bar(x=[1, 2, 3], y=[3, 2, 1]), row=2, col=1)fig.show()

样式定制

plotly提供了广泛的样式定制选项,包括颜色、字体、图例、布局等,使得图表完全符合你的品牌或个人偏好。

import plotly.graph_objects as gofig = go.Figure(data=go.Bar(x=['A', 'B', 'C'], y=[20, 14, 23]))
fig.update_layout(title_text='自定义样式示例',title_font_size=20,xaxis=dict(title='X轴标题'),yaxis=dict(title='Y轴标题'),paper_bgcolor='lightgray',plot_bgcolor='lightblue')
fig.show()

与Dash集成创建交互式Web应用

plotly是Dash框架的核心,Dash允许开发者用纯Python构建丰富的交互式Web应用。这使得plotly不仅限于静态的数据可视化,还可以用于开发复杂的分析工具和仪表盘。

# 需要安装dash库
from dash import Dash, dcc, html
import plotly.graph_objects as goapp = Dash(__name__)fig = go.Figure(data=go.Bar(y=[1, 3, 2]))
graph = dcc.Graph(figure=fig)app.layout = html.Div(children=[html.H1(children='Hello Dash'),html.Div(children='Dash: Web Dashboards with Python.'),graph])if __name__ == '__main__':app.run_server(debug=True)

企业场景

  1. 能源流动:展示能源从来源到最终用途的转化和分布,如电力或热能的生产、传输和消耗过程。

  2. 成本流分析:在生产和服务过程中,通过桑基图可以直观地显示不同成本因素(原材料、人工、运输等)如何组成总成本。

  3. 物料与资源流:用于展示在生产系统中物料的流动路径和损耗情况,帮助优化资源利用效率。

  4. 网站用户行为:分析用户在网站或应用中的行为路径,如页面访问流程、购物车添加到购买的转化流程等。

  5. 供应链与物流:显示产品从原材料采购、生产加工到最终销售的全过程中的物流和信息流。

使用方法

桑基图的制作涉及以下几个关键步骤:

  1. 确定节点:定义图中的所有节点,每个节点代表流程中的一个状态或阶段。

  2. 定义流:确定节点之间的流动关系,包括流的来源和去向。

  3. 量化数据:为每条流分配一个量值,量值的大小将决定图中流的宽度。

  4. 选择工具:根据需求选择合适的工具绘制桑基图。常用的工具包括Python的matplotlibplotly库,以及在线制图工具如SankeyMATIC或Google Charts等。

  5. 自定义样式:根据展示需求调整桑基图的颜色、标签、布局等,使图表更加直观易懂。

案例分析-城市在一年内的能源消耗流动

背景

假设我们需要分析一个城市在一年内的能源消耗流动情况。这个城市主要的能源来源包括:太阳能、风能、煤炭和天然气。这些能源被用于发电、供暖和汽车燃料。目标是直观展示各种能源来源到最终用途的流动路径及其量值,从而评估城市能源利用的效率和可持续性

数据

展示了能源流动的来源、目标和量值:

数据可视化

通过桑基图,我们可以直观地看到城市能源消耗的全貌,包括各种能源来源对发电、供暖和汽车燃料的贡献比例。从图中可以发现,煤炭是主要的能源来源,尤其在发电和供暖方面的贡献最大,但这也可能意味着较高的碳排放。太阳能和风能虽然对发电有所贡献,但总量相对较小,表明可再生能源的利用率有待提高

python代码

import plotly.graph_objects as go
# 定义节点:能源来源 + 使用目的
labels = ["太阳能", "风能", "煤炭", "天然气", "发电", "供暖", "汽车燃料"]
# 定义流:源节点、目标节点、流量值
source = [0, 1, 2, 3, 3, 2, 2, 3]  # 能源来源节点索引
target = [4, 4, 4, 4, 5, 5, 6, 6]  # 使用目的节点索引
value = [120, 180, 500, 200, 150, 350, 50, 30]  # 流量值(千兆瓦时)
# 创建桑基图
fig = go.Figure(data=[go.Sankey(node=dict(pad=15,  # 节点间距thickness=20,  # 节点厚度line=dict(color="black", width=0.5),label=labels,),link=dict(source=source,  # 源节点索引列表target=target,  # 目标节点索引列表value=value,  # 流量值列表))])
fig.update_layout(title_text="城市能源消耗流动分析", font_size=10)
fig.show()

案例分析-企业成本分析

场景

一家大型企业希望通过深入分析其一年内的成本构成来识别成本节约的机会。该企业的成本主要包括原材料成本、劳动力成本、制造成本、销售与市场推广成本以及其他运营成本。通过构建一个桑基图,企业能够直观地理解不同成本部分如何贡献到总成本中,并识别可能的成本优化领域。

数据

以下是该企业一年内不同成本部分的数据(单位:百万美元):

cost_data = {'总成本': 1000,'原材料成本': 300,'劳动力成本': 200,'制造成本': 250,'销售与市场推广成本': 150,'其他运营成本': 100
}

数据可视化

原材料成本和劳动力成本是主要的直接成本:这两项成本直接流向制造成本,表明它们是生产过程中最重要的成本组成部分。这反映了在制造行业中,原材料采购和人力资源管理对于成本控制的重要性。

制造成本占总成本的一大块:制造成本不仅包括原材料和劳动力,还可能包含其他间接成本,如设备折旧、能源消耗等。这提示管理层需要关注生产效率和生产过程中的成本优化

import plotly.graph_objects as go
​
# 定义桑基图的节点标签
labels = ["总成本", "原材料成本", "劳动力成本", "制造成本", "销售与市场推广成本", "其他运营成本"]
​
# 定义桑基图的流
source = [1, 2, 3, 3, 3, 3]  # 流的源节点索引
target = [3, 3, 0, 4, 5, 0]  # 流的目标节点索引
value = [300, 200, 250, 150, 100, 500]  # 流的数值
customdata = ["300百万美元", "200百万美元", "250百万美元", "150百万美元", "100百万美元", "500百万美元"] # 自定义数据
​
# 创建桑基图
fig = go.Figure(data=[go.Sankey(node=dict(pad=15,thickness=20,line=dict(color="black", width=0.5),label=labels,),link=dict(source=source,  # 源节点索引列表target=target,  # 目标节点索引列表value=value,  # 流的数值customdata=customdata,  # 流的自定义数据hovertemplate='%{customdata}<extra></extra>'  # 设置鼠标悬停时显示的文本模板))])
​
fig.update_layout(title_text="年度企业成本分析桑基图", font_size=10)
fig.show()

案例分析-电子商务网站用户行为

场景

一个电子商务网站希望分析其用户的行为路径,从访问首页开始,到浏览产品、添加到购物车、进行结算,最后到完成购买的整个流程。目的是为了了解在哪些步骤中用户最可能流失,以便采取措施优化用户体验和提高转化率。

数据

以下是一个简化的示例数据,描述了用户在不同步骤中的数量:

  • 首页访问: 10000 用户

  • 浏览产品: 5000 用户

  • 添加到购物车: 2500 用户

  • 进行结算: 1250 用户

  • 完成购买: 600 用户

数据可视化

直接在桑基图流上或节点旁静态显示转化率在plotly中并不直接支持,因此以下示例采用了一种间接的方式,即在图表的标题中包含转化率信息会更直观一些

基于网站用户行为路径的桑基图分析,其中展示了从“首页访问”到“完成购买”的整个过程,以及各个步骤的转化率,我们可以得出以下结论:

显著的转化漏斗:数据明显展示了一个典型的转化漏斗模型,用户数量从首页访问到最终购买逐步减少。这种模式在电子商务网站中很常见,但关键在于识别和优化转化路径中的关键节点,以最大化转化率。

关键流失点:在从“添加到购物车”到“进行结算”的过程中,转化率出现了明显下降。这提示我们这一环节可能是用户流失的关键点,需要进一步分析原因(如是否购物车页面的用户体验存在问题,结算流程是否过于复杂等),并采取相应的优化措施。

简化购买流程:由于在结算环节存在较大的流失,简化购买和结算流程可能有助于提高转化率。这可能包括减少结算步骤、优化移动端体验、提供更多支付选项等。增强用户参与度:在浏览产品阶段增加用户的参与和互动(如通过推荐系统、限时优惠等),可能有助于提高用户从浏览到添加购物车的转化率。

python代码

import plotly.graph_objects as go
​
# 桑基图的数据
labels = ["首页访问", "浏览产品", "添加到购物车", "进行结算", "完成购买"]
source = [0, 1, 2, 3]
target = [1, 2, 3, 4]
value = [5000, 2500, 1250, 600]
​
# 计算转化率
conversion_rates = [f"{value[i]/value[i-1]*100:.2f}%" for i in range(1, len(value))]
conversion_rates.insert(0, "100%")  # 假设第一个转化率为100%
​
# 构建标题,包含转化率信息
title_text = "网站用户行为路径分析<br><sup>转化率: 首页访问到浏览产品: {}, 浏览产品到添加到购物车: {}, " \"添加到购物车到进行结算: {}, 进行结算到完成购买: {}</sup>".format(*conversion_rates)
​
fig = go.Figure(data=[go.Sankey(node=dict(pad=15,thickness=20,line=dict(color="black", width=0.5),label=labels,),link=dict(source=source, target=target, value=value, ))])
​
fig.update_layout(title_text=title_text, font_size=10)
fig.show()

案例分析-全球智能手机供应链与物流分析

场景

一个全球智能手机品牌想要分析其供应链和物流网络,以便更好地理解从原材料采购、组件制造、组装,到最终产品分销的整个流程。该品牌的供应链涉及多个国家,包括原材料的采购(如稀有金属来自澳大利亚和刚果),组件的制造(如处理器来自台湾,屏幕来自韩国),在中国组装,最后产品销售遍及全球。通过构建一个桑基图,公司希望能够直观地展示这一复杂网络中的主要流动路径和量级。

数据

以下是简化的示例数据:

  • 原材料:澳大利亚(稀有金属)、刚果(钴)

  • 组件制造:台湾(处理器)、韩国(屏幕)

  • 组装:中国

  • 销售:美国、欧洲、印度、其他地区

假设的产品流量(单位:万台):

  • 澳大利亚到中国:500

  • 刚果到中国:500

  • 台湾到中国:1000

  • 韩国到中国:1000

  • 中国到美国:500

  • 中国到欧洲:400

  • 中国到印度:300

  • 中国到其他地区:300

数据可视化

分析结论

供应链全球化:智能手机供应链的全球化特征非常明显,原材料和关键组件的供应跨越多个国家和地区,显示了对全球资源的依赖和利用。

中国的制造中心角色:中国作为智能手机的主要组装地,再次凸显了其在全球制造业中的中心地位,利用其成熟的供应链和物流体系。

主要市场分布:智能手机的主要销售市场集中在美国、欧洲和印度,这些地区的销售量占据了大部分,但也有相当一部分分布在其他地区,表明智能手机市场的广泛性和多样性。

优化建议

多元化供应链:鉴于供应链的全球化和对特定地区的依赖,企业应考虑多元化其供应链,以减少地缘政治风险、自然灾害或贸易政策变化带来的影响。

提高供应链的透明度和可追溯性:增加供应链的透明度,确保原材料的可持续采购和道德生产,这不仅能提高品牌形象,还能减少潜在的供应风险。

优化物流和库存管理:利用先进的数据分析和预测模型,优化库存水平和物流效率,减少运输成本,提高响应市场变化的能力。

增强本地市场的销售策略:针对主要销售市场以外的“其他地区”,探索更多本地化的销售和营销策略,以挖掘新的增长点。

提升供应链的灵活性和韧性:构建一个更加灵活和韧性的供应链体系,能够快速适应市场需求的变化,应对突发事件,保证供应链的连续性和效率。

python代码

import plotly.graph_objects as go
​
# 定义桑基图节点
labels = ["澳大利亚", "刚果", "台湾", "韩国", "中国", "美国", "欧洲", "印度", "其他地区"
]
​
# 定义流的源和目的
source = [0, 1, 2, 3, 4, 4, 4, 4]
target = [4, 4, 4, 4, 5, 6, 7, 8]
value = [500, 500, 1000, 1000, 500, 400, 300, 300]
​
# 创建桑基图
fig = go.Figure(data=[go.Sankey(node=dict(pad=15,thickness=20,line=dict(color="black", width=0.5),label=labels,),link=dict(source=source,target=target,value=value,))])
​
# 更新图表的布局和标题,包括主要数据
title_text = """
全球智能手机供应链与物流分析<br>
<sup>原材料和组件: 澳大利亚(500万台), 刚果(500万台), 台湾(1000万台), 韩国(1000万台)<br>
组装地点: 中国; 主要销售市场: 美国(500万台), 欧洲(400万台), 印度(300万台), 其他地区(300万台)</sup>
"""
​
fig.update_layout(title_text=title_text, font_size=10)
fig.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/578265.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《剑指 Offer》专项突破版 - 面试题 95、96 和 97 : 和动态规划相关的双序列问题(C++ 实现)

目录 前言 面试题 95 : 最长公共子序列 面试题 96 : 字符串交织 面试题 97 : 子序列的数目 前言 和单序列问题不同&#xff0c;双序列问题的输入有两个或更多的序列&#xff0c;通常是两个字符串或数组。由于输入是两个序列&#xff0c;因此状态转移方程通常有两个参数&am…

QT资源添加调用

添加资源文件&#xff0c;新建资源文件夹&#xff0c;命名resource&#xff0c;然后点下一步&#xff0c;点完成 资源&#xff0c;右键add Prefix 添加现有文件 展示的label图片切换 QLabel *led_show; #include "mainwindow.h" #include<QLabel> #include&l…

Java八股文(高并发,分布式,JUC)

Java八股文の高并发&#xff0c;分布式&#xff0c;JUC 高并发&#xff0c;分布式&#xff0c;JUC 高并发&#xff0c;分布式&#xff0c;JUC 对于高并发的系统&#xff0c;为了提高用户的体验&#xff0c;你是如何做的&#xff1f;或者说高并发的技巧你用过哪些&#xff1f; …

Unity-通过AB包使用SpriteAtlas图集(基于unity2018)

项目遇到了一个性能问题&#xff0c;需要优化UI。其中就涉及UI的合批问题&#xff0c;其中自然而然就会关联到图集的概念。旧版图集&#xff0c;Legacy Atlas&#xff0c;还没有太研究。今天主要看一下SpriteAtlas怎么使用的。 因为我们项目资源工程和Runtime是分离的&#xf…

56、FreeRTOS/GPIO与定时器相关学习20240329

一、代码实现控制开发板上的指示灯闪烁。 /* USER CODE BEGIN 0 */ //利用定时器机制 定时器溢出时对应的回调函数实现如下 //本次实现控制PB0&#xff0c;PB1两个灯 int flag1 0,flag2 0;//使用一个标记执行以下代码 会造成一个灯常亮 另一个常灭 void HAL_TIM_PeriodElaps…

openPLC_Editor C语言编程 在mp157 arm板上调用io等使用记录

1.编程界面比较简单&#xff0c;具备PLC开发编程的四种编程方式。梯形图语言LD &#xff0c;指令表语言IL&#xff0c;结构化文本语言ST&#xff0c;功能模块图语言FBD。 2.官方使用手册。学习资料实在是太少&#xff0c;目前都是自己比较费劲的研究。 3.2 Creating Your First…

智能人像重绘解决方案如何部署

企业对于视觉呈现的需求日益增强&#xff0c;特别是在人像处理方面&#xff0c;精准、自然、高效的解决方案成为了市场的迫切需求。美摄科技&#xff0c;凭借自研AI技术大模型&#xff0c;推出全新人像重绘解决方案&#xff0c;致力于为企业提供一站式人像美化服务&#xff0c;…

绘制特征曲线-ROC(Machine Learning 研习十七)

接收者操作特征曲线&#xff08;ROC&#xff09;是二元分类器的另一个常用工具。它与精确度/召回率曲线非常相似&#xff0c;但 ROC 曲线不是绘制精确度与召回率的关系曲线&#xff0c;而是绘制真阳性率&#xff08;召回率的另一个名称&#xff09;与假阳性率&#xff08;FPR&a…

代码随想录——移除元素(Leetcode27)

题目链接 暴力&#xff1a;&#xff08;没有改变元素相对位置&#xff09; class Solution {public int removeElement(int[] nums, int val) {int len nums.length;for(int i 0; i < len; i){if(nums[i] val){for(int j i 1; j < len; j){nums[j-1] nums[j];}i…

深入并广泛了解Redis常见的缓存使用问题

Redis 作为一门主流技术&#xff0c;缓存应用场景非常多&#xff0c;很多大中小厂的项目中都会使用redis作为缓存层使用。 但是Redis作为缓存&#xff0c;也会面临各种使用问题&#xff0c;比如数据一致性&#xff0c;缓存穿透&#xff0c;缓存击穿&#xff0c;缓存雪崩&#…

2024软件设计师备考讲义——(7)

数据库技术 一、数据库基础 1.数据库系统 DB、DBS、DBA、DBMS 2.三级模式两级映像 内模式 物理存储 概念模式 基本表 外模式 用户使用应用程序&#xff0c;视图级别 外模式-概念模式的映像 表和视图之间的映射若表中数据变化&#xff0c;只要修改映射&#xff0c;不用改程序…

Flink学习(一)-flink 本地部署

1&#xff0c;安装 jdk 官网推荐 jdk11 版本。我用 17也可以跑起来 2&#xff0c;下载 flink-1.19 的版本并解压 下载 release 1.19.0 并解压。 tar -xzf flink-1.19.0-bin-scala_2.12.tgz cd flink-1.19.0 3&#xff0c;启动 ./bin/start-cluster.sh 4&#xff0c;访问…