数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式

  数据项目,无论是数据分析、可视化,还是数据科学和机器学习相关的项目,通常都非常复杂,涉及多个组成部分,比如代码、数据、运行环境、SQL脚本以及分析报告等;与此同时,随着AI时代的到来,数据科学领域正经历重大变革。这对于数据科学团队来说,如何保持高效地工作模式一直是一个不小的挑战。

  在这样的背景下,协作式、现代化的数据文档(Data Notebook)逐渐成为团队协作中不可或缺的重要工具。像Hex.tech、Deepnote等等这样的平台,已经在团队协作方面做出了许多成功的实践和探索。接下来,我们以阿里云下的DataV Note产品为例,总结一下它是如何帮助数据团队实现高效的工作模式。

一、跨角色协同;跨工具链统一

  我曾在网上看到一张有趣的图片。让人惊讶的是,它竟然十分贴切地描绘出了"BI研发"与"业务人员"之间的关系:

  在常规的分析场景下,业务人员通常会通过“钉钉”或“邮件”等方式,向BI研发团队寻求帮助,请求他们处理并提供一张大宽表或直接可用的表,随后,业务人员便基于这些资料进行自己的分析创作;在一般情况下,如果在处理过程中的表格发现存在字段遗漏或不满足需求的情况,需要进行多轮沟通才能够解决问题。这类工作流程往往涉及多种通讯工具SQL处理平台可视化平台之间的跨越,这不仅降低了公司各部门间合作的效率,也加剧了沟通上的困难,这些挑战极其值得我们深入思考。

  然而,通过使用DataV Note,可以很好地解决这一系列协同问题:

  • 协同分析在数据驱动的公司中,通常会有多种角色参与到数据的处理和分析中,如:BI研发工程师、算法工程师和业务专家等,最合理和高效的协作方式是让所有的人员能够紧密地参与到数据分析的整个过程中。
  • 异构数据源自定义处理分析异构数据源通过 SQL 拉取数据直接产出 Python 可用变量,原生支持 Pandas,Numpy 等数据科学分析库,支持精细复杂的数据自定义处理和进一步的机器学习算法延伸分析,不止于 SQL
  • 多语言支持鉴于公司内不同岗位对技术栈的熟悉程度存在差异,我们期望能够在尽可能降低研发成本的同时,能免去各种复杂研发环境的配置。在数据分析领域中,SQLPython语言无疑是使用频率最高的,由于基于Jupyter进行研发,我们有能力并且很容易扩展对包括R、Julia、Clojure、Scala在内的其他热门编程语言的支持。
  • 高效沟通我们的愿景是尽量促使所有人聚集在一起共同创作,从而能够在遇到任何问题时立刻进行反馈和评议,确保所有协作者之间可以迅速做出响应。



二、为数据项目和数据团队创建知识库

  “数据集”、“图表”、“报表/应用”是数据分析的中间产物,它们通常是为解决特定业务问题或支持决策过程而创建。如果单独存在,而脱离了它们创建时的业务分析场景,可能会存在以下问题:

  • 数据集基于特定业务场景通过执行 SQL 语句获得的结果集合。然而,如果这些数据集与其分析上下文分离,它们与上下游相关联数据的血缘(lineage)关系可能变得模糊不清,这将导致数据集变得难以解读和应用。
  • 图表数据集可视化的形式。如果图表脱离了数据集和业务分析,缺失与数据集间的映射关系和二次加工的逻辑,该图表可能无法有效传达所需信息从而失去意义。
  • 报表/应用集成和展示一系列图表和数据的产物。如果它们与业务分析流程分离被独立存储,当要修改某项业务指标时,追溯流程过于繁琐,更新维护变得很困难。

综上所述,为了最大限度地提高数据分析成果的价值,有必要确保数据集、图表、报表和应用与其原始的业务分析场景保持紧密关联。所以,无论是某个场景的整体分析过程还是分析结果的报告,都是作为公司知识库的内容沉淀,会是一种比较理想的方式。



三、实现可重现和可回溯的数据科学过程

  经过调研,我们发现基于Jupyter的Notebook形式进行分析,用户可以清晰地记录分析过程中的所有步骤,更容易地理解和追溯原始分析的上下文和结果分析。它遵循的设计理念是单元格(如下图的SQL、过滤器、图表)作为最小逻辑单元,可以用于数据加工处理,展示分析结果等,整体的分析流程由各个单元格自上而下组合而成,上游的单元格输出可被下游的单元格作为输入引用。但它本身没有内建直观表示复杂依赖的功能,这会导致复杂的分析过程中,难以看清上下游单元格的依赖关系。

  因此,采用Notebook形式展示分析过程与数据流(DAG)的形式展示各个单元格之间的依赖关系相结合的理念进行设计是一个不错的选择。

  在编辑态中的工作模式是以报告形式来体现整体的分析过程;在构建发布态的过程中会筛选过程中的一些关键特征,将其提取出来并重新编排,以便形成最终的发布状态。无论处于编辑状态的分析过程,还是最终发布状态的成果,两者都能够成为公司宝贵的知识资源



四、一键分享报告,以促进组织内的数据驱动决策

  最后,当您完成了详尽的数据分析过程之后,还需将结果以直观且吸引人的方式呈现,例如PPT、报告或面板等,以便进行汇报。我们为此提供了丰富的定制化功能,包括主题选择布局调整样式优化水印添加等,确保您的展示材料既专业又美观。与此同时,我们还支持导出为PngPdfWord格式,并可通过钉钉微信邮件轻松分享,满足多样化的汇报需求。

五、大模型AI驱动,未来可期

  1. AI智能绘图:系统将自动识别表中每个字段的数据类型,并根据抽样数据的特征智能推荐最适合的数据可视化图表

如:绘制不同类型店铺在各个季度的总毛利的趋势折线图。

  1. AI智能总结、探索:大模型通过波动分析、分布分析、异常识别、相关性分析和数据对比等多种手段,对特定数据集进行深入模拟,从而挖掘出有价值的信息

如:探究不同店铺风格、所在地区以及所售卖的商品类型对于整体业绩表现(即销售额与利润率)的具体影响程度。

  1. NLP2SQL(自然语言生成SQL):业务人员可一键生成SQL并进行取数、聚合

如:查询东南区的销售情况。

  1. NLP2Python(自然语言生成Python):相比于SQL,Python代码具有更高的灵活性,通过 Python 代码可以生成算法预测和归因分析模块

如:对result_1的数据集中的“东南区”的销售情况总结并进行归因分析

  同时,基于数据的智能报告AutoReport终极功能也是作了相应的尝试,它能基于自然语言一键分析结构化数据并自动生成详尽的分析报告。智能报告不仅为分析师们提供了宝贵的洞察视角,还极大地缩短了数据分析周期,有效节约了人力资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/884639.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SU镜像:缩放s

su没有镜像,可用:缩放s 选中要镜像的对象——复制一个——s——找到中间的点——向右拉动——输入 -1

LGP1377 [TJTS 2011] 树的序 学习笔记

LGP1377 [TJTS 2011] 树的序 学习笔记 Luogu Link 题意简述 给一个生成序列 \(p\),简单起见 \(p\) 是一个长为 \(n\) 的排列。按照这样的步骤生成一棵二叉搜索树:往空树中插入 \(p_i\),则 \(p_i\) 成为当前二叉搜索树的根。 往非空树 \(u\) 中插入 \(p_i\),若 \(p_i\) 小于…

vxe-input绑定keyup事件传递的参数

一、VUE3中 Input输入框绑定keyup事件传递的$event 代码一:<script setup>function judgeIsEnterToSerach(event){console.log(event,1111);console.log(event.key,2222);console.log(event.target,230923);console.log(event.target.value,3333);console.log(event.tar…

清华大学推出第二讲 DeepSeek 如何赋能职场应用?从提示语技巧到多场景应用!

前言 清华大学第二讲《DeepSeek如何赋能职场应用》是一份35页的专业文档,详细探讨了DeepSeek在职场中的多场景应用及其赋能作用,从提示语技巧到多场景应用,咱们打工人有福啦!DeepSeek访问地址:https://chat.deepseek.com 清华大学推出的 DeepSeek 从入门到精通(104页)免…

信创

概念 “信创“ (全称“信息技术应用创新”)是国家基于国产芯片和操作系统的PC、服务器、网络设备、存储设备、数据库、中间件等基础设施的技术创新。 信创CPU概览

LGP5854 [LG TPLT] 笛卡尔树 学习笔记

LGP5854 [LG TPLT] 笛卡尔树 学习笔记 Luogu Link 题意简述 给定一个长为 \(n\) 的排列 \(p\),以 \(i\) 为键,\(p_i\) 为值构建 \(p\) 中所有元素的笛卡尔树。 做法解析 定义“右链”为从根开始一直往右儿子走形成的一条链。 因为我们照键从小到大的顺序插入每一个元素,所以…

11.4.3 凸目标的收敛性分析

式\((11.47)\)应该有误,不等号左边还应该有一个项\(-E[||x_T-x^{*}||^2]\),之所以没写估计是因为认为\(x_T\)非常接近\(x^{*}\),所以可以忽略;另外不等号右边的括号打错了,应该是 \[2\underset{t=1}{\overset{T}{\sum}}\eta_tE[R(x_t)]-2S_1R^*-S_2L^2 \],其中\(S_1=\und…

AGC053C 题解

Solution 前面部分略,相信别的题解写得很详细。 本题解集中解释 \(p(d)\) 的计算。 \(p(d)\) 表示对于 \(\forall A_i\),\(B_1\cdots B_{i+d}\) 中有比它大的数。 那么这么考虑,已经加入 \(A_1 \cdots A_{i-1}\)。对于 \(A_i\) ,如果大于 \(\min(A_1 \cdots A_{i-1},B_1 \c…

使用word模板的科研论文编写

编写SCD论文等的时候,可能出现官网的论文模板不够全面.一般我们使用latex作为论文编写模板,格式等都方便控制和编写,而word模板操作起来较为复杂.但是官网有些时候可能找不到latex的模板内容,不得不使用word模板.word的样式模板等功能十分好用,但是官网的模板不一定有那么好的格…

k8sPV、PVC、StorageClass存储状态(20250216)

k8s:PV、PVC、StorageClass存储状态(2025/02/16) 所谓容器的 Volume,其实就是将一个宿主机上的目录,跟一个容器里的目录绑定挂载在了一起 PV与PVC长啥样,有什么用 PV 描述的,是持久化存储数据卷,由运维人员事先创建在 Kubernetes 集群里待用的 apiVersion: v1 kind: Persis…

09 集合框架详解

前言 java集合框架主要包括两种类型的容器,一种是集合,存储一个元素集合(Collection),另一种是图(Map),存储键/值对映射java集合简介 一、集合简介 java集合可分为Set、List、Queue和Map四种体系。 set代表无序、不可重复的集合 List代表有序、重复的集合 而Map则代表具有…

leetcode hot 04

解题思路:暴力解法直接遍历一遍,但是最后两个点超时;解决方法用单调栈的方式进行解决,栈存储的是下标,当某一天的温度值比栈顶的温度高的时候,就把栈顶元素弹出,并且在对应answer填入两者下标差值,然后继续对比,直到空栈或者栈顶元素比该天温度高,将该下标存入栈中,…