从数据到洞察：DataOps加速AI模型开发的秘密实践大公开！-编程知识

从数据到洞察：DataOps加速AI模型开发的秘密实践大公开！

news/2024/11/20 6:24:29/文章来源:https://www.cnblogs.com/DolphinScheduler/p/18290428

作者 | 代立冬，白鲸开源科技联合创始人&CTO

引言

在AI驱动的商业世界中，DataOps作为连接数据与洞察的桥梁，正迅速成为企业数据战略的核心。

在WOT全球技术创新大会2024·北京站，白鲸开源联合创始人&CTO 代立冬 在「大数据技术与基础设施」专场深入分析DataOps的核心理念、AI大模型开发流程，并通过白鲸开源科技的实践案例，展望了DataOps的未来。

DataOps核心理念

DataOps是一种新兴的数据管理和开发方法论，旨在通过自动化和协作，提高数据管道的效率和质量。

DataOps 在大模型开发中的作用

大模型训练关键要素：

数据集：大量、多样化、高质量的数据是训练和微调大模型的基础
模型架构：包括网络层数、隐藏层的大小、参数的类型等
算力：大模型训练需要极其强大计算资源，包括高性能的GPU，如 A100 等

DataOps与AI模型开发的融合，将加速AI模型的开发周期，提升模型的准确性和效率。

大模型训练流程

大模型训练是一个多阶段过程，涉及数据工程、算法工程和运维。

数据工程阶段包括：

数据源：确定数据起点，包括云、SaaS、本地等混合数据源。
数据准备与数据流管理：涉及数据抽取、转换、加载（ETL）和数据质量管理。
大模型训练：利用高质量数据训练模型，包括模型评估与测试。
数据质量管理：包括数据版本管理、数据质量管控、数据影响分析

算法工程阶段包括大模型训练、模型评估预测试，其中，经过预训练、指令微调、增强学习的步骤，并完成性能评估、模型验证和模型优化，训练编排的pipeline才算完成，最终将训练完成的模型应用于实际业务场景。

企业面临的数据挑战

企业在新技术环境下，面临数据源多样化、数据处理流程复杂化等挑战，具体包括：

企业内拥有多组 “数据平台”，数据资源和流程分散在各部门，难以掌控；
企业大数据开发处于“野蛮生长状态”，整体研发管理距离应用开发DevOps流程相差甚远；
大数据、流数据、AI数据加工缺乏工具管控形成了企业新的“蜘蛛网”；
多种新兴数据引擎、云原生、新数据架构的变化缺乏管控，数据血缘、同步、调度与数据发展严重落后。

新技术环境下EtLT架构出现

云、SaaS、本地混合数据源让传统的数据处理流程从ETL、ELT变为能更加快速满足业务需求的EtLT架构，EtLT能更加敏捷地应对离线/实时数据湖、数据仓库、AI模型训练当中的复杂多变的数据需求场景，从而解决以上企业面临的诸多数据挑战。

白鲸开源是一家开源原生的DataOps商业公司，由多个Apache Member成立，80%员工都是Apache Committer，主导2个 Apache顶级开源项目(Apache DolphinScheduler, Apache SeaTunnel），同时根据全球最佳实践发布商业版本 --WhaleStudio，帮助企业在大数据和AI时代智能化地完成多数据源、多云及信创环境的数据集成，数据开发、工作流编排运维及部署、数据质量管控、团队敏捷协作等一系列问题，已在 6000多家企业中得到实践和使用。

DataOps关键实践之任务调度平台

Apache DolphinScheduler：云原生调度引擎

作为云原生的调度引擎，DolphinScheduler支持大数据工作流，解决企业级场景中的多个任务单元、高执行频率、数据量大等痛点。

DataOps关键实践之数据集成工具

Apache SeaTunnel：新一代实时多源数据同步工具

在数据集成领域，企业面临的技术和业务挑战同样严峻：

数据源多达几百种，版本间不兼容，而且不断有新的出现；
数据丢失与重复，无法一致性
出现问题无法回滚或者断点继续执行
同步过程不透明，缺少监控
频繁读取 binlog 对数据源端影响大
大事务、Schema 变更影响下游
低吞吐高时延导致数据无法及时到达
离线同步和实时同步常被分开管理，维护困难
数据割接人工进行

Apache SeaTunnel是新一代实时多源数据同步工具，支持130+种数据源，提供批量和实时数据集成。可以有效地解决以上企业面临的困境。

Apache SeaTunnel特点

同时，为了实现更高效的数据集成，Apache SeaTunnel社区还“重复造轮子”，自研了专门为数据引擎而设计的SeaTunnel Zeta Engine。

与Spark、Flink等流行引擎相比，Apache SeaTunnel在数据同步上的优势显而易见：

典型案例

同样地，Apache SeaTunnel以其强大的数据同步和集成性能在数千家企业的大数据处理中作为重要的一环，发挥着不可替代的作用。典型的用户包括美国醉的商业银行摩根大通银行和哔哩哔哩，两者分别利用Apache SeaTunnel高效解决了跨云数据准备和异构数据实时数据同步的巨大挑战。

白鲸开源DataOps实践

白鲸开源科技是DataOps领域的领先实践者，提供开源解决方案和商业产品，为企业数据打造全流程DataOps闭环。

稳定高效的企业级dDataOps平台——WhaleStudio

WhaleStudio基于Apache DolphinScheduler和Apache SeaTunnel，是一个分布式、云原生并带有强大可视化界面的 DataOps系统，增加了商业客户所需的企业级特性：

完全自主研发，上下游生态圈广阔，支持 160+ 种数据源
全面支持云原生—云、仓、湖实时/离线批流一体化任务管控
低代码实现企业大数据的操作系统和高速公路
完善的DataOps流程可无缝集成代码工具
丰富的数据源对接和传统ETL数据组件支持

一站式完成从开发-》测试-》上线-》的运维闭环

WhaleStudio技术架构

工作流编排能力

WhaleStudio具有强大的工作流编排能力：

支持各类计算任务组件：Amazon DMS、Azure Datafactory，Amazon Datasync、Apache Linkis，DataX，Sqoop，SeaTunnel等
支持各类云数据库和计算架构，支持 K8S、MLDB。
平台采用插件式设计，支持自由扩展数据源支持。
可视化的数据源管理，数据源统一集中管理，一次配置，到处使用，大大减少配置修改带来的工作量。