火山引擎DataLeap:助你实现从数据研发1.0到数据研发3.0的跨越

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

近日,火山引擎开发者社区 Meetup 第 12 期暨超话数据专场在深圳举办,本次活动主题为“数智化转型背景下的火山引擎大数据技术揭秘 ”,来自 DataLeap 的产品经理黄虹带来了 DataOps 相关实践的分享,以下内容经小编整理编辑后发布。

字节跳动是以数据 BP 的模式来支持业务的数据建设。也就是 数据 BP +数据中台产品,深入到各个业务线,承接、了解或者发现业务的数据需求,让数据在业务中释放最大价值。从下面这张图可以看到数据 BP 遍布了所有核心业务。在字节,数据 BP 是一个数量不小的群体。

(图:字节跳动数据建设模式)

数据 BP 团队做的好坏与否如何来评估,字节用了一套浅显易懂的指标 0987 来评价,包含了数据事故数、需求满足率、分析覆盖率与用户满意度等四个维度。

(图:数据研发新模式)

黄虹提到当前的研发模式是需要去做一个升级。在很早以前因为软件应用的发展是非常成熟的,但到现在来看,为了软件应对软件的危机,适时将工程化的这个理论引入进来,有一完整的一套软件工程理论是必要的。另外为了进一步解决软件开发和软件部署之间跨组织沟通的协调问题,也是需要把这些工程化的理念应用于数据开发里面,对我们是一个升级,从原来这种小作坊式的开发,变成了一个全链路的数据中台。

(图:字节 DataOps 方法论)

字节结合当前自身数据业务的一个发展情况,给出了 DataOps 的理解。 它是作用于人+流程+工具的一套方法论,目标是提高数据质量和开发效率,主要通过敏捷协作、自动化/智能化、以及清晰的度量监测,让数据流水线达到持续集成、部署、交付(CI/CD)。

此方法论可以从图中四个能力维度来理解,首先是构建高效的这个协同机制,也就是说我们会有一套流程,这个流程就是协同各个部门怎么去合作,并且是这个流程能够沉淀到数据研发平台;第二部分是我们会基于数据研发这个流程全链路去定义一套研发的规范,它会沉淀到工具层面,只要你在工具里面使用,你就会触达到这些规范;第三部分是一套度量体系,去度量需求以及它全生命周期里面产生的价值;最后是提供一体化研发平台,串联数据研发全流程,提升效率,打造全链路整合平台。

(图:字节 DataOps 框架)

字节 DataOps 的框架,流程层面首先是定义了需求到数据验收整个过程,同时对应的规范层面,它其实每个环节都有配套的规范。比如说需求规范,一个需求提过来它是什么类型的需求,会有一个提需的模板,后面到了评审环节和建模环节,这些都是类似的。

到了工具层面,是基于字节数据平台研发治理套件 DataLeap 来完善这个功能的建设,将 DataOps 所有这六个环节的能力集成到 DataLeap 里面。除了对于 DataLeap 本身的功能升级,字节也同时开放了能力的建设,会以更灵活的方式扩展集成外部工具来支持不同业务的定制化的需求。

(图:DataOps 产品方案-DataLeap)

这是 DataLeap 产品的架构图, DataLeap 是字节跳动的一站式数据研发治理平台,目前在火山引擎上也是可以去直接使用的。同时也支持私有化部署。这张图展现的是字节数据开发的 DataLeap 套件能力,涵盖了计算引擎、全链路开发、全域治理、资产等工具,这样的一站式大数据开发套件,能够帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据研发工作,帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。DataLeap 不是一个产品,是一个套件(Suite)。形象的类比就是类似 Office,多个产品相互配合,解决同一个大的问题或者叫解决方案,产品之间是相互合作辅助的关系。那么 DataLeap 和 DataOps 是啥关系呢?

(图:DataLeap-DataOps 全流程)

简单来说,DataLeap 产品主要以规范研发流程为目的,涵盖对规范研发流程的“已有能力集成”,形成一站式研发体验,同时也包括规范研发流程所需关键的“新能力建设+集成”,上图体现了从规划设计-反馈的全流程。

在规划阶段首先要把需求全部管理起来,然后去做进度的跟踪以及需求的评审;开发阶段会有一个智能 IDE,同时也会将这个需求和具体的开发环节关联起来,包括这些研发规范的嵌入到开发环节,以及代码版本控制等等;到了测试环节,这个是主要是数据 QA 同学介入进来去做一些自动化的测试工作,包括是单元测试或者说一些集成测试,主要是为了验证这个数据的准确性;部署环节相当于是变更要去做线上发布了,现在是支持定义一套标准化的上线流程,每次变更的话能够自动触发这些流水线;在运维阶段是在线上这些任务已经发布,上线之后有会涉及到这个监控告警的闭环管理,以及就是任务智能调优等等;最后一个阶段其实就是这些需求同步的一个及时性,还有就是生产问题的一个自动反馈。

(图:最佳实践案例)

在现场,黄虹也分享了内部影像团队 DataOps 实践情况,总体也是遵循前文提到的从规划到反馈的全流程来进行实践,总体效果情况如下:

  1. 需求价值反馈:需求支持成本从不可度量->可度量

  2. 团队效能可度量:DataOps 指标看板,团队效能一目了然

  3. 全流程质量保障:整套流程运行 1 个 季度,0 生产事故

也符合前文提到的 0987 核心指标体系的要求。

(图:未来展望)

关于数据研发未来的展望,黄虹表示现在数据研发模式可定义为 3.0,它强调的是一个工程化的理念,接下来字节会将 AI 理念集成到研发模式里面,将它从工程化升级为智能化。也就是说字节会将带语言模型的能力集成进来,通过 AI 加持数据生产和数据消费,希望为企业提供从数据资产的检索、到数据开发,再到数据应用的全链路 AI 能力,通过大模型能力的加持,降低企业数据资产检索和数据开发的准入门槛。

点击跳转DataLeap了解更多

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/284774.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

css+html横向滚动+固定宽

没什么好说的&#xff0c;快上代码&#xff01; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Do…

【02】GeoScene海图生产环境创建

1.1 海图生产环境 GeoScene中的企业级海事制图由中央航海信息系统数据库&#xff08;NIS库&#xff09;来处理&#xff0c;将之前传统桌面产品库&#xff08;PL库&#xff09;产品管理方面的能力已经移植到NIS数据库&#xff0c;以ProductDefinitions、ProductCoverage、Produ…

【Avue】点击新增再点击表单得radio选项出现新表单,且编辑页面关不掉新表单处理方法

一、问题描述 1、点击新增 2、 点击radio选择值 1、点击否得时候没反应 2、点击是得时候出现新表单 2.1、旧代码 {label: 是否危险源,prop: isBigdanger,searchLabelWidth: 120,overHidden: true,span: 24,rules: [{required: true,message: 请选择是否重大危险源,trigger: bl…

【精选】计算机网络教程(第7章网络安全)

目录 前言 第7章网络安全 1、公钥 2、私钥 3、数字签名 前言 总结计算机网络教程课程期末必记知识点。 第7章网络安全 1、公私密钥和对称密钥 公私密钥&#xff08;或非对称密钥&#xff09;和对称密钥是在密码学中用于加密和解密数据的两种不同的密钥类型。 公私密钥…

浅析PAM市场价值

随着全球数字化蓬勃发展&#xff0c;云计算、人工智能、大数据、5G等技术的应用范围不断扩大&#xff0c;在企业运用新技术提高自身效率的同时也面临着更多由新技术诱发的网络威胁&#xff0c;全球网络威胁形势愈发严峻。网络攻击行为日趋复杂&#xff0c;构建全面的安全防护体…

ROS机器人入门

http://www.autolabor.com.cn/book/ROSTutorials/ 1、ROS简介 ROS 是一个适用于机器人的开源的元操作系统。其实它并不是一个真正的操作系统&#xff0c;其 底层的任务调度、编译、寻址等任务还是由 Linux 操作系统完成&#xff0c;也就是说 ROS 实际上是运 行在 Linux 上的次级…

算法专题二:滑动窗口

算法专题二&#xff1a;滑动窗口 一.长度最小的子数组&#xff1a;1.思路一&#xff1a;暴力解法2.思路二&#xff1a;滑动窗口双指针3.GIF题目解析&#xff1a;思路一&#xff1a;思路二&#xff1a; 二.无重复字符的最长子串&#xff1a;1.思路一&#xff1a;滑动窗口2.GIF题…

Unity 如何通过2D Sprite切割一张图为多张

1、理解 在一些2D游戏开发中&#xff0c;我们常常使用2D Sprite把一张大图切割成多个小图使用。 这样做有不少好处&#xff0c;首先&#xff0c;通过精准使用小图&#xff0c;能够一定程度上节省内存&#xff0c;提高渲染性能。 其次把同类的小图做成一张大图在切割使用会更…

【AI基础设施】智算场景的资源管理系统与未来展望

高性能计算与智算场景 首先澄清两个概念&#xff0c;高性能计算与智算场景&#xff0c;高性能计算主要是面向天气预测、生物计算、材料计算等场景&#xff0c;而最近几年很火的智算主要是面向AI场景的计算&#xff0c;如语音识别、图像识别、自动驾驶等场景&#xff0c;我们可…

行为树保姆级教程(以机器人的任务规划为例

行为树 目录 什么是行为树(behavior tree)&#xff1f;行为树的相关术语 行为节点和控制节点不同类型的控制结点&#xff1a; 顺序节点选择节点并行节点装饰结点 机器人的例子&#xff1a;物体搜索 1&#xff1a;如果只存在一个地点A&#xff0c;那么行为树很简单&#xff0…

qt实现基本文件操作

先通过ui界面实现基本框架 接下来就要实现每个按键的功能了 我们先来实现新建的的功能&#xff0c;我们右键新建键&#xff0c;可以发现没有转到槽的功能&#xff0c;因此我们要自己写connect来建立关系。 private slots:void newActionSlot(); 在.h文件中加上槽函数。 conne…

AI技术对于IT数据安全的革新与挑战

随着ChatGPT的出现&#xff0c;人工智能 (AI) 技术进入了一个新的时代&#xff0c;各行各业的营运方式亦随之而产生了深远影响。AI技术的发展正在重塑安全行业&#xff0c;给企业带来了新的思考和挑战。同时&#xff0c;国际和国家对企业数据使用的管控也越发严格&#xff0c;使…