中国企业在数智化转型中在数据治理领域遭遇多重挑战,包括在数据标准化、数据质量提升、数据分级分类,以及数据安全治理等。近几年,中电金信依托自主研发的智能数据底座“源启·数据资产平台”,助力企业实现数据驱动的业务经营和精益管理。该平台不断吸纳全球数据治理领域的前沿技术与理念,持续迭代升级。
2023年,“源启·数据资产平台”完成第一次升级,融合Data Fabric“数据编织”技术,将物理上支离破碎的数据,“编织”在统一的平台中。
NEWS
2024年,平台再度升级,推出三大创新点:
(一)DataOps体系建设,提升数据产品的研发效率和质量;
(二)Data4AI与AI4Data的数智融合,实现数据研发全流程的智能化;
(三)“管-察-防-监”数据安全闭环管理,构建全面的数据安全治理体系。
在2024年DAMA中国数据管理峰会上,中电金信研究院副院长杜啸争深入解读了“源启·数据资产平台”的创新实践。如何利用该平台实现智能化与安全化的数据治理?请观看视频获取详细解析,并阅读下文深入了解“源启·数据资产平台”的深层价值。
数字化做不好,智能化就做不了。
中国经历了30余年的信息时代,之后仅经历了7年左右的数字时代。实话实说,7年的数字时代实在太短,短到多数企业还处于数字化的深水区,就被裹挟着进入了水更深的智能时代。
不得已,他们现在还在“补课”——中国企业希望在数据产生的源头,就获得标准统一的高质量数据;也希望以更高效的方法完成数据分级分类;更希望将数据安全治理从运维层面推向生产环境。
姑且,将此称为数字时代的“遗留工程”。
其实在信息时代的中后期,中国企业已经意识到数据安全,更认识到数据是可以创造价值的生产资料,其重要性类似于过去的土地、石油。也正是在这段时期,业内出现了不同的数据管理流派。
金融机构推崇建设“数据驱动的数据平台”,他们先海纳百川再化云为雨,将所有系统中的数据吸纳集中,再经过数据治理后,反哺给各个业务系统。互联网公司反其道而行之,这些企业信奉小步快跑地建设“业务驱动的数据中台”,根据业务需求逐步吸纳相关数据,并快速完成数据中台的迭代。
此后,这两种思维不断碰撞、相互融合,“应用驱动+数据运营”就成为了业内共识。突出的变化是,越来越多的业务部门中,设立了“数据运营经理”的岗位。但这还不够好,没有行业属性的产品性数据平台,总感觉还差点意思。
“中电金信也应该研发自己的数据平台。”
说这句话时是2019年。中电金信大数据团队认为,通用性数据平台的短板是“纸上得来终觉浅”,而自己的长板是“绝知此事要躬行”。若将两者结合,可实施经验和应用场景,嵌入数据平台。当然,还要辅以数据咨询服务、数据运营服务等。
在此之后,中电金信逐步升级了数据管控、数据湖、数据集成等模块,并最终形成了完整的自研数据平台产品。截至目前,中电金信大数据团队集结了6000余名业内专家,已经为近300家客户提供数据服务,囊括国有大行、股份制银行、政策性银行、城商行、保险、证券等。
更进一步。2022年,中电金信正式发布“源启”金融级数字底座。中电金信的数据中台,成为源启平台的四大组件之一,即“源启·数据资产平台”。
延续这一思路。2023年,“源启·数据资产平台”完成第一次升级,其可以将物理上支离破碎的数据,“编织”在统一的平台中。又过一年,即2024年,“源启·数据资产平台”再次完成升级。平台升级的创新体现在三方面:一是DataOps;二是数据安全;三是Data 4 AI与AI 4 Data。
越来越清楚的事实是:数据驱动型企业都在努力维护和管理数据,以获得战略优势。在此过程中,他们首先想到的是提升数据质量,并以此获得业务洞察力。这就是典型的数字时代“遗留工程”。
但具体该怎么做呢?答案就是DataOps。
DataOps(数据研发运营一体化)是构建集设计、开发、治理、运营于一体的自动化数据流水线。
源启·数据资产平台则是基于对典型数据研发流程的已有支撑能力,全面完善和升级了数据研发工具体系,通过研发工艺管控和提升研发流程各个环节的研发质量,并通过运营维护从企业自身的研发实践中滚动改进研发工艺,实现自动化过程和规范化质量的双闭环。
中电金信研究院副院长、商业分析事业部总经理杜啸争将其称为“数据管理前置”,即从源头开始解决数据质量问题,在数据产生时就有明确的标准。
坦白讲,“数据管理前置”虽是趋势,但能做到的企业并不多。没关系,DataOps已经在为企业提供全新的思维模式——站在数据战略的角度,设计企业的组织架构、流程制度、数据标准的体系。
当然,中电金信对DataOps也有自己的理解。“中电金信的理念是‘需求设计一体化、设计开发自动化’。”杜啸争接着说:“更重要的是,中电金信将数年来积累的实施工艺,封装到产品体系中,以降低实施成本,并减少了对人员的依赖。”
翻译这句话,明显包括两层意思。
-
首先,企业接受DataOps理念,即意味着其已经在建立“数据战略”,中电金信可为此提供一系列咨询服务;
-
其次,中电金信将实施工艺封装到产品,即除交付产品型平台外,中电金信也在同时交付运维、运营等服务。
再延伸一步至数据加工环节。
数据战略承接着企业的业务战略,数据治理承接着数据战略的落地,数据安全治理又是数据治理的重要分支。“所以不能就安全谈安全。”杜啸争进一步解释:“数据安全治理不是一套工具就能解决问题,一定要将数据战略和业务目标相结合,更要辅以咨询服务。”
其实,前有《中华人民共和国数据安全法》,后有《网络数据安全管理条例》,随之一系列法律法规的出台,数据安全已经得到前所未有的重视。显著的变化就是“安全左移”。在此之前,数据安全由运维部或网络部负责,现在越来越多的金融机构已经在数据管理部下成立数据安全处,以专门推进数据安全工作。
这意味着什么?
意味着数据安全治理的重点,已经从运维层面转向生产环境。而在生产环境,金融机构处理大量客户信息和业务应用数据,面临更为严峻的安全风险。所以杜啸争才说:“不能就安全谈安全。”
换句话说,如果从安全的视角看数据安全,多半是这不能做,那也不能做,多数业务创新必是无法推进。“所以数据安全一定是以应用视角,在安全和业务之间寻找平衡。”杜啸争的意思是,说“不能做”很容易,说“能做”就很难。说“不能做”最安全,但此后的数据价值释放,就无从实现,而说“能做”就要既懂安全,又懂业务。
例如数据分级分类。
半年之内,多家企业发布或升级了安全大模型,并试图以此解决数据分级分类问题。而且初看效果还不错,数据分级分类的“纸面”准确度已达到80%。但问题是,80%的准确是否真的准确,剩下20%的数据该怎么办?
这种担心并非多余。
金融行业从2000年开始,已在推进数据大集中。2010年之后,更是开始了数据治理。但至今仍处于深水区。例如,甲系统中数据标签“1”代表男,“0”代表女;乙系统就是“A”代表男,“B”代表女。
类似的案例还有很多,例如同设置为“地址”的数据标签,有的是在存储家庭地址,有的是IP地址,还有的是应用目录。而这样的关键数据,只要在治理过程中出现一处错误,就会影响后续分析结果。
这又该如何解决?
目前,借助大模型技术,中电金信实现了对海量字段数据的自动化分类和精细分级,通过将字段数据转化为语义向量,并基于语义相似度进行匹配。“但中电金信更关注客户的核心诉求和业务目的。”杜啸争说。
其实,基于大模型的自动数据打标只是第一步。第二步,中电金信以数据治理咨询顾问辅助进行反向检查,同时对重要节点进行重新梳理,这也就是人工智能技术中“人在回路”的学习模式。
如果不明白什么是“人在回路”,建议再重温《流浪地球2》片尾彩蛋。源启·数据资产平台产品就像电影中的主演,永远站在“回路”上,以数据治理咨询顾问,帮助用户使用和迭代数据平台。
当前,在充沛的算力支撑和推动下,人工智能成为引领未来的战略性和基础性技术,在金融等重点行业大量应用。作为一项通用技术,相比本身作为产品存在,AI更应该作为基础设施在各个场景赋能应用。
这也非常体现中电金信对人工智能的理解:应用牵动、场景为王。因此,中电金信致力推动AI场景应用向深向实发展,在数据领域,率先将人工智能应用于数据安全治理。
但尽信书不如无书,现在被吹上天的人工智能,并非万能的,至少现在还不是万能的。
所以中电金信要站在“回路”上服务辅佐人工智能发挥更大的价值,要帮助用户找到更适合人工智能发挥价值的场景。“中电金信要基于数据加工链做智能化。”杜啸争说的是两个解决方案:
一是,AI to SQL。借助AI大模型实现自然语言到SQL的转换,以降低了业务人员掌握SQL语言的难度,这很体现中电金信的优势。在此之前,中电金信实施了数百个数据仓库、数据平台,积累了巨大的SQL语言脚本量;
二是,代码补全。这很类似于“智能输入法”。开发工程师只要敲出首字母,就能联想出关键字。经过数轮迭代,现在中电金信代码补全的推荐准确率,已经超过85%,员工效率提升30%以上。
不仅如此。
中电金信还已将人工智能,嵌入了数据应用场景,当然,同时嵌入平台的还有实施经验。例如“数据孪生”,可构建业务数据的线上“数字孪生”,实现业务场景数字化仿真;再例如“智能决策引擎”,其内嵌了中电金信积累的丰富模型,适用于零售、小微信贷业务场景的风险管理。
还有“智能驾驶舱”。通过自然语言生成指标和报表,通过RAG技术,“智能驾驶舱”实现外部资源查询挂接,实现全域搜索。例如,输入“提高信用卡发卡量”,系统就能自动将任务拆解,并根据历史数据生成业务表格,同时提出业务建议。
是不是感觉很实用?
产品型的平台,可能会说“NO”,但服务一定会对用户说“Yes”。中电金信的业务思路就是“咨询+产品+服务”——以内嵌实施经验和业务场景的“源启·数据资产平台”为底座,同时,辅以咨询服务保证企业数字战略能顺利落地,辅以运营服务护航数据平台丝滑运营、持续迭代。
有灵魂的数字平台,大抵就是这个样子。