中信建投在金融电于化期刊发布 DataOps 实践

文 ‖ 中信建投证券股份有限公司 马丽霞 高宇航 李可 许哲 李海伟

file

近年来,数据的分析和应用对各行各工业的业务模式和竞争形态进行重塑,而积极应对挑战和顺应时代变化是各个市场参与者的必选项。作为资本市场数字化转型的领航者,中信建投证券重视数字化转型机遇,陆续启动了各业务领域的数字化转型建设。

DataOps 作为近年来数据管理领域兴起的工程文化和实践,借用了 DevOps 敏捷交付的基础框架,揉合了 DAMA 数据治理理念,强调在如此激烈竞争的商业环境下,最大限度地快速匹配业务部门的需求和资源开展交付,加速业务价值的试验与试错,持续实现数据价值。

为高质量服务公司数字化转型,中信建投证券于 2021 年正式启动 DataOps 能力建设,结合公司现状打造了 DataOps 研发管理创新体系,梳理优化需求、设计、开发、测试、投产的全过程及相关支撑工具的整合,逐步建立了标准化、全线上流水线,支持数据持续集成和交付,为数据供给提供效率和质量的双重保障,支撑公司数字化转型。

基于DataOps的券商数据平台与应用服务体系建设

1. 面向“汇聚共享”的数据底座

中信建投证券建设了信创化的云原生湖仓一体数据底座。该平台是将数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的融合架构,是公司打造的新代数据底座,满足了数据高效汇聚、数据算力灵活扩展、资源隔离的需求。

file

通过建设数据底座,打破了公司数据“烟囱”壁垒,将公司内外部的数据汇聚在一起,并参考证券行业SDOM数据模型结合公司数据标准规范和实际情况,对数据进行重新清洗、整理、组织和联系,逐步形成公司级的高质量、可信的、标准化的产品、客户、机构等共性数据,为经营分析、风控等数据消费提供数据供给。

同时探索建立指标标签管理体系,在共性数据的基础上,数据底座还构建了指标标签工厂。一方面推动指标标签的定义归集、计算(结果)归集和服务归集 ;另一方面通过解耦指标标签需求与数据开发,通过提供统一语义层,下游数据消费者可以方便地将业务语言转换为技术语言,快速实现业务服务。

2. 建设“服务化”的数据中台

搭建企业级数据能力框架,弥合数据供需鸿沟,用户不需关注数据架构和技术只需关注业务实现,快速响应数据需求数据中台服务化分为数据技术服务化和数据服务化。

数据技术服务化通过搭建数据基础能力平台,为用户提供开箱即用的数据开发能力。为此,数据中台构建了数据开发中心和数据基础服务中心。

数据开发中心:构建统一、标准化的一站式数据开发协作平台,完成采集、建模、加工、测试、调度、发布、监控功能的整合和集成,降低数据开发门槛,提升开发运维效率。中信建投联合白鲸开源基于WhaleScheduler产品基础上打造了全栈信创化的数据开发平台,实现统一数据开发、任务编排、任务调度,更好地完成了离线批处理、实时流处理等任务,有效峰低了数据加工处理成本,真正实现精益敏捷的数据运营。

数据基础服务中心:数据中台搭建了AI、BI、图计算、OLAP、实时计算等基础服务集群,封装了对应的数据服务能力,满足各种业务场景对计算能力的要求,帮助下游系统快速构建数据应用。

“数据服务化” 体现为封装数据底座数据应用的数据接口,提供服务化的数据调用介入方式。为此,数据中台构建了数据服务中心和数据资产中心。

数据服务中心:在数据安全合规的前提下,将数据以API、文件等形式开放供业务流程调用、下游系统交换数据使用。

数据资产中心:建设数据门户,提供企业级数据资源访问入口和数据工作展示服务窗口。将数据资产目录建设为公司级的数据资产查询和操作系统,解决数据“是什么,在哪里”的问题,具备向数据服务引流的能力,支持数据应用。同时整合公司各项数据能力,打造数据工具箱,面向不同用户提供不同的数据能力服务,着力解决数据“怎么用”的问题。

3. 打造“敏捷高效”的数据产品交付中心

数据需求方面,通过“两归口”实现需求统筹管理。一方面,发挥SI制度优势由业务部门SI归口本部门数据需求,从源头上规范数据需求:另一方面,组织数据专家形成评审委员会,对重点项目重点需求开展评审,借助专家经验不断提升交付质量。

数据研发方面,通过一站式数据开发协作平台与公司DevOps持续交付体系结合起来,数据开发协作平台统一对接Gitlab进行代码托管,将各种数据任务类型构建数据研发流水线,提高数据研发效率和交付能力。同时,数据研发过程引入数据模型管控,通过对接数据模型管理工具,实现数据模型设计标准化。

CI/CD方面,数据流水线通过持续集成插件自动化进行代码规范扫描、业务规则测试、测试报告生成,满足数据测试质量要求版本后,运维人员可以一键确认和发布,极大节省了测试和运维工作量,提升了版本发布效率和成功率,实现了数据产交付的标准化规范化。数据研发流水线可以实现开发、测试和部署的多重保障降本增效,提升大规模数据需求交付能力实现数据价值快速输出。

4.面向“自助消费”的数据服务体系

传统的企业数据需求很大一部分是通过内部数据查询单的模式触发数据分析工作,由于开发人员工作排期及需求理解等问题,分析需求需要多轮迭代才能完成导致数据分析的时效性低。针对这一问题中信建投证券探索建立自主消费的数据服务体系。

从工具层面,基于数据中台打通了数据探源、整合及分析展现的整个链路构建自助分析体系,通过可视化低代码开发代替专业工具代码开发将以往的开发门槛大大降低。通过数据自助分析,业务用户可以更快速地进行数据探查和分析模型迭代,极大提高了数据分析的时效性。

从制度文化层面,持续开展数据分析师培训,帮助更多人建立数据思维。从人力资源层面,以数据中台为依托,举办数据分析师培训及作品评比比赛,通过作品评选挖掘发现潜在种子用户、种子部门逐步建立企业数据分析师团队。

5.构建“智能”数据管理与运营平台

(1)价值驱动的数据交付。倡导由数据价值驱动的数据开发运营,评估数据产品的业务价值和经济价值。企业数字化的目标是要建立长期目标和规划的,以关键项目为抓手,集中最优势的资源,攻坚克难,解决业务发展中最迫切的数智化要求。

(2)开发治理一体化。遵从源头管控的原则,积极开展数据治理并将相关动作尽量前置,并与数据的研发工艺有机结合.在数据产生阶段即开展数据治理。通过数据开发和治理的统一规划管理,推动数据汇聚和标准化,强化大数据融合分析。

(3)运营管理一体化。数据产品的强大生命力,一方面依赖于高质量的数据数据研发;另一方面通过收集和挖摇用户需求,以及实际的使用效果和反馈,不断优化迭代数据产品,将其建设为业务级甚至是公司级的重量级数据产品,实现数据运营与研发管理的协同。

未来展望

DataOps能力体系的建设是一个不断打磨、精益求精的过程,中信建投证券将在不断探索和总结中持续前行,为公司数字化转型提供更多动力和支持。

一是加强业务赋能。围绕关键数据应用和场景、数据组织,借助DataOps开展持续集成交付,提高数据仓库、数据中台等平台类工程建设的ROI,实现数据组织协作效能最大化,帮助企业实现数字化转型。

二是聚焦内功、不断进化。目前DataOps理念和方法论还在不断演进中因此,需积极对标最佳实践,完善我司DataOps体系,同时也会积极参与相关标准的制定和推广工作。

file

文章来源于金融电子化第355期期刊

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/236302.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

时序预测 | Python实现TCN时间卷积神经网络价格预测

时序预测 | Python实现TCN时间卷积神经网络时间序列预测 目录 时序预测 | Python实现TCN时间卷积神经网络时间序列预测预测效果基本介绍模型描述程序设计参考资料预测效果 基本介绍 时间卷积网络,TCN。 利用CNN技术处理时间序列数据。 卷基础层有三种,第一种是一维CNN,用于输…

WebUI工作流插件超越ComfyUI

在AI绘画领域,Stable Diffsion是最受欢迎的,因为它是开源软件。 开源有两大优势,一是免费,二是适合折腾。 大量的开发者、爱好者投入无尽的热情,来推动Stable Diffsion的快速发展。 在图形界面方面,WebU…

Aria2 开发历程 (4) --使用RPC与 Aria2 进行通讯

结合这段时间搜集到到资料,比较理想的方案是通过RPC(websocket)来与运行时的Aria2(必须是运作中)进行通讯。 在配置文件和命令行都有RPC的相关配置: 例如:配置文件中的: ## RPC 设置 ### 启用 JSON-RPC/XML-RPC 服务…

麒麟操作系统网桥配置

网桥概念: Bridge 是 Linux 上用来做 TCP/IP 二层协议交换的设备,其功能可 以简单的理解为是一个二层交换机或者 Hub;多个网络设备可以连接 到同一个 Bridge,当某个设备收到数据包时,Bridge 会将数据转发 给其他设备。…

Re8 Generative Modeling by Estimating Gradients of the Data Distribution

宋扬博士的作品,和DDPM同属扩散模型开创工作,但二者的技术路线不同 Introduction 当前生成模型主要分成两类 基于似然模型 通过近似最大似然直接学习分布的概率密度,如VAE 隐式生成模型 概率分布由其抽样过程的模型隐式表示&#xff0c…

Git常用命令#切换分支

要在 Git 中切换分支,你可以使用 git checkout 命令。 a.创建新分支并切换到该分支 如果你想要创建一个新分支并立即切换到该分支,可以使用以下命令: git checkout -b 新分支名这会创建一个名为 新分支名 的新分支,并将你的工作目…

golang WaitGroup的使用与底层实现

使用的go版本为 go1.21.2 首先我们写一个简单的WaitGroup的使用代码 package mainimport ("fmt""sync" )func main() {var wg sync.WaitGroupwg.Add(1)go func() {defer wg.Done()fmt.Println("xiaochuan")}()wg.Wait() }WaitGroup的基本使用场…

如何判断数据库慢 SQL 查询?

慢 SQL 查询通常指执行时间较长或者消耗大量系统资源的查询。要判断一个 SQL 查询是否慢,可以考虑以下几个方面: 执行时间: 观察查询执行所需的时间。如果一个查询花费了相对较长的时间才能返回结果,可能就是慢查询的一个指标。通…

计算机硬件(一)

1.机箱 计算机的许多硬件,如主板,硬盘和电源等,都安放在固定机箱中。机箱是一个相对封闭的空间,箱体一般由钢和铝合金等金属制成(其他材料亦可用,但不多见),同时设有许多通风口,以促进箱内空气流动,防止内部温度过高,机箱的颜色,大小乃至形状…

[Matlab有限元分析] 2.杆单元有限元分析

1. 一维杆单元有限元分析程序 一维刚单元的局部坐标系(单元坐标系)与全局坐标系相同。 1.1 线性杆单元 如图所示是一个杆单元,由两个节点i和j,局部坐标系的X轴沿着杆的方向,由i节点指向j节点,每个节点有…

XUbuntu22.04之OBS30.0设置录制音频降噪(一百九十六)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

ARM与大模型,狭路相逢

编辑:阿冒 设计:沐由 从去年底至今,伴随着OpenAI旗下ChatGPT的火爆,一波AI大模型推动着AI应用全面进入了大模型时代。与此同时,随着边缘算力的提升,AI大模型的部署也逐渐从云端涉入到边缘。 世界对AI算力的…