历时半年,由蚂蚁集团和之江实验室牵头,联合北京邮电大学、浙江大学、西湖大学、东北大学、杭州悦数科技、浙江创邻科技、北京大学、北京交通大学、复旦大学、北京海致星图科技、腾讯、信雅达科技、北京枫清科技等单位编写的《Graph+AI:大模型浪潮下的图计算》白皮书,在11月2日全国智能计算标准化工作组年会上正式发布。作为白皮书编写小组代表,蚂蚁集团图计算负责人洪春涛,分享了图计算技术和人工智能技术的协同发展,最终将引领行业进入一个全新的图智能时代。
1. 背景
众所周知,图(Graph)计算技术拥有着悠久的历史,最早可以追溯到欧几里得的“七桥问题”,适用于面向客观世界的关联关系建模,有着天然的数据可解释性优势。人工智能技术自诞生以来,也历经了多次跌宕起伏,随着硬件算力的提升和大语言模型的兴起,正在带领着人类社区迈入下一个纪元。Graph+AI白皮书重点围绕着图计算与人工智能技术的结合角度,从数据、算法、应用三个维度拆解了Graph+AI技术的发展现状与未来演进。
数据层面:在图机器学习领域,衍生了图数据采样、图数据构建、图数据增强等技术,以及知识图谱领域的图数据建模与知识表示技术等。
算法层面:以图神经网络(GNN)、图表示学习为代表的方法为机器学习领域带来了新的进展。受大语言模型的启发,图基础模型(GFM)、大图模型(LGM)等通过预训练和适应性方法提升模型在各种任务中的表达能力和泛化能力。
应用层面:除了深耕多年的知识图谱、图系统优化等技术,也涌现出大量的新兴的技术结合。例如自然语言转图查询(Text2GQL)、图检索增强生成(GraphRAG),以及结合图技术的智能体(Agent)系统等。
2. 问题挑战
任何事物的发展并非是一帆风顺的,我们看到了大量的Graph+AI技术结合的机遇,也很清楚当下行业与技术上面临的问题与挑战。
图数据层面:图数据采集过程容易受到噪音影响,且噪声沿着边传播,导致危害加大。动态图和异质图对存储和计算有更高的要求。还有就是图数据的标注数据相对较少,标注成本高。复杂的网络结构和多样性导致任务需求不同,模型需要关注的信息粒度也不同。而传统的数据增强方法不适用于图数据,需要针对图数据的特征、结构、标签进行分别增强。
图神经网络层面:大规模图计算在性能方面存在显著不足,处理大规模图数据需要更高效的算法。动态图和异质图带来了额外的信息处理需求,使得模型之间的迁移和泛化能力面临严峻挑战。另外,节点的不平衡问题、图神经网络的梯度爆炸问题也会严重影响了模型的性能。
图基础模型层面:图数据集的规模和多样性还不足以支持大图模型的训练,图任务类型多样化,节点级、边级和图级任务的差异性增加了模型设计的复杂性。模型的安全与隐私问题也面临很大挑战。
知识图谱层面:作为符号化的表示和推理技术方案,在大模型出现之后,如何从知识表示和推理的角度进行协作?哪些知识应该存储于大模型中,哪些知识应该存储于知识图谱中?如何提升知识图谱技术的泛化性,以便更好地与大模型配合并保留其强大的任务泛化能力?这些都是需要解决的重要问题。
图应用层面: 图查询语言标准尚未全面普及,Text2GQL的技术建设还在做初步探索。图计算系统在系统的成熟度、产品易用性和安全性上,相比于传统计算系统仍有很大改进空间。GraphRAG在一定程度上可以缓解大模型生成幻觉,但领域知识库的构建成本与表达能力仍需持续建设与改进。智能体技术的发展让大语言模型具备了一定的思考与决策能力,如何将图技术与智能体的规划、思考、行动能力进行深度结合,还需进一步探索。
3. 关键技术
3.1 图数据处理
图数据结构是最适合面向客观世界的关联关系建模模型。基本的图数据构建流程为:数据采集 - 图元素抽取 - 图数据存储。为了提升图分析的性能和鲁棒性,一般可以从结构、特征、标签维度对图数据进行增强。图采样技术可以大大降低全图计算带来的巨大时间和空间开销,常见的采样算法有随机游走、邻域采样、层次聚合采样等。
3.2 图神经网络
GNN通过深度学习的方法自动学习图的结构特征,从而提高了模型的性能和泛化能力。涉及了常见的卷积算子GCNConv、SAGEConv、GATConv等,以及池化算子SimplePool、DiffPool、gPool等。GNN通过堆叠多个图广播层为图中的每个节点生成一个包含聚合邻居信息和特征信息的嵌入表示,每一层的计算模式可以被抽象成四个计算步骤:ScatterToEdge, EdgeForward, Gather&Aggregate, Vertex Forward。在异构环境中如何进行高效的分布式训练阶段与推理,以及可信图学习也是当下热点的研究方向。
3.3 图基础模型
图神经网络和大型语言模型的融合引起了广泛的关注,图基础模型是在广泛的图数据上进行预训练并能够适应多种下游图任务的模型。其核心能力包含:缩放法则、同质泛化能力,多任务适应性、图推理能力。当下的研究路径主要围绕在:构建大规模多样化的图数据集、图结构的高效表达、增强LLM的图理解和推理能力,以及基准测试等。
3.4 知识图谱
知识图谱属于人工智能领域符号主义的典型代表,用三元组描述事物之间的复杂关系,包含图结构数据、文本数据、逻辑规则等。大语言模型在语言理解方面的突破,为知识图谱的表示、抽取、补全和服务带来新的技术变革。
首先,知识表示向着能表示更深度的语义和更广泛的语义发展;其次,知识抽取的泛化性提升和成本的降低让构建大规模知识图谱成为可能;再者,知识补全从依赖图结构的补全向着混合依赖图结构和文本的方向发展,可以更充分地利用知识图谱中图结构和语义信息;最后,知识图谱服务的方式多样性逐渐增加,除了检索查询这类传统服务方式,还发展出了辅助大模型思维链等方式。
3.5 Text2GQL
为了提升用户通过自然语言与图数据库交互的体验,将自然语言翻译为图查询语言几乎是最基本的诉求。然而图查询语言并非像SQL广泛普及,训练语料的不足和测试基准的缺失给Text2GQL带来了巨大的困难。为此,蚂蚁TuGraph团队提出了“语法制导的语料生成”策略,为高质量的GQL语料合成提供了有效的方法,并实现了完整的GQL微调链路和评估方案。实际测试下来,TuGraph团队提供的Text2GQL微调模型的测试准确率可以达到92%以上。
3.6 图系统优化
将图系统LLM相结合,可以实现更深入的语义理解、更精准的决策支持、高效的信息检索和个性化交互等。
主要目标有:
- 查询性能优化:通过优化图数据库和图处理引擎,减少查询响应时间,提高图数据的访问效率。
- 运维自动化:能够适应动态的数据规模和业务需求,实现系统的扩展伸缩、诊断调优。
- 存储效率优化:合理利用存储空间,降低存储成本,同时确保数据的完整性和一致性。
- 系统安全增强:建立完善的安全机制,防止数据泄露、误操作等安全问题。
- 产品体验优化:提供友好的用户界面和便捷的操作方式,使图系统易于使用和管理。
3.7 GraphRAG
检索增强生成 RAG(Retrieval Augmented Generation) 是一种将检索和生成相结合的技术框架。在生成答案时,RAG不仅依赖于预训练模型的内部知识,还通过从外部知识库中检索相关信息来增强生成过程。知识库作为RAG链路的核心组件,直接影响了知识的存储与召回。融合索引可以更好地应对多样化的应用场景,GraphRAG使用了基于图谱的知识索引格式,在知识的确定性和可解释性上充分利用了图数据结构的天然优势。
3.8 智能体
尽管大语言模型已经具备了一定的思考与决策的能力,但将其与现实世界打通,具备与跟实际环境交互的能力,初步具备类人的自主工作的能力,还需要很多工作要做,包括角色、记忆、思考规划以及行动等。智能体工作流、多智能体协作、思维链等可以与图技术深度结合,充分发挥图数据在规划、编排、关联分析等方面的优势。
4. 解决方案
4.1 申请反欺诈
基于图数据库+AI的技术架构解决方案,将实时/准实时/离线多种技术场景融合,支撑在申请反欺诈场景中的各类业务需求。
4.2 企业决策智能化
基于关联分析的企业决策智能化解决方案旨在为企业提供智能化的数据关联分析决策支持,通过先进的图数据处理方法和持续的模型管理能力,帮助企业在复杂的商业环境中迅速作出明智决策。
4.3 安全风控
蚂蚁集团建设了基于图算法分析的安全风控解决方案,基于关系视角的风险描述、基于全面的风险数据,构建风险关系网络,形成风控知识图谱,实现风控全链路的图数据应用。基于蚂蚁集团TuGraph图数据管理平台,沉淀了包含图特征、图算法、图组件的一体化图运营平台,通过图数据刻画复杂风险模式,通过图计算进行即时风险防控,通过图应用实现规模化风险运营。
4.4 图异常检测
在现代数据驱动的商业环境中,随着数据量的快速增长和关系复杂性的提升,异常行为往往隐藏在复杂的关联网络中。这在金融反欺诈、网络安全和供应链管理等关键领域尤为明显。通过对数据中的节点、边及其关系进行深度分析,该方案能够识别复杂的异常模式。
4.5 图检索增强生成
悦数的图检索增强生成技术方案,旨在构建一个代理式知识库管理与知识推理应用平台,支持用户根据不同用途和特征来管理知识,并针对不同类型的知识文档采用不同的索引方式,提升了系统的通用性和可扩展性。
4.6 知识增强生成
近年来,越来越多的研究聚焦于将RAG技术融入到大语言模型中,以弥补其在事实信息上的不足,如GraphRAG,即采用图结构来优化检索机制。但即便引入RAG技术,将特定领域的知识库或事实文档提供给大型语言模型进行重新生成时,仍不能完全保证生成答案的准确性。针对以上大模型垂直领域应用的关键问题,蚂蚁集团经过了大量探索,构建了面向专业领域的知识增强生成技术框架 KAG(Knowledge-Enhanced Generation)。
4.7 知识抽取框架
蚂蚁集团与浙江大学依托多年积累的知识图谱与自然语言处理技术,联合构建和升级蚂蚁百灵大模型在知识抽取领域的能力,并发布中英双语大模型知识抽取框架 OneKE。OneKE 主要聚焦基于 Schema 的可泛化信息抽取,采用了基于 Schema 的轮询指令构造技术,专门针对提升大模型在结构化信息抽取的泛化能力进行了优化,旨在通过提供中英双语、可泛化的大模型知识抽取,OneKE 在一定程度上具备统一、通用、可泛化的知识抽取能力。
5. 应用案例
5.1 能源电力
在某电力调度控制中心,悦数图数据库的应用极大地提升了调度控制的效率和准确性。
5.2 信用卡反欺诈
某银行信用卡中心采用了创邻科技的Galaxybase图数据库与图计算技术相结合的解决方案。这个系统整合了来自银行内部和外部的多种数据,建立了一个覆盖数十亿条记录的信用卡申请网络图谱。
5.3 存款流失预警
基于TuGraph图系统建设的分析系统,可以通过账户的交易和联系,挖掘更多特征,用于学习预警模型。除个体维度的特征外,增加账户交易的特征,捕捉账户间联系,自动学习拓扑模式,建立更加精准的分类模型。
5.4 交易风控
通过基于图计算思想的子图模式匹配算法(Subgraph Pattern Matching),可以将多个节点(账户、交易、联系信息)和边(交易流、联系链)构成的关系图作为一个整体进行分析,识别出与典型洗钱网络类似的子图,从而挖掘出整个洗钱的模式与结构,帮助银行快速定位团伙。
5.5 跨境电商风控
利用图风控技术充分挖掘案件定性相关的交易信息,实现更快更准的风险定性。在国际电商场景中,盗卡风险分为无关联性的单点风险和呈现批量性的团伙风险。
5.6 芝麻信用
基于TuGraph图智能模型,构建基于半监督中介拓展的团伙识别框架,不再仅仅关注一层的风险,而是通过资金、媒介等关系,提取租赁用户的历史交互子图。
基于TuGraph建设的职业图谱,统一各场景数据,还能完善用户画像,有助于带来场景增益、提升用户人岗匹配的效果。
5.7 犯罪网络检测
在犯罪网络分析领域,图技术展现出了独特的优势。它通过节点、边和属性的结构,能够直观而有效地展示各实体之间错综复杂的关系和交互模式。ArcNeural不仅具备强大的图数据处理能力,还可以同时处理文本、图像、音频等多种数据类型,为犯罪网络检测提供了全方位的技术支持。
5.8 游戏
为了更全面地刻画游戏,腾讯构建了名为“游谱”的游戏垂直领域知识图谱,这是一个多模态的知识图谱,汇聚了全球约 200 万款游戏实体,涵盖主机、PC 和手游三大类游戏。通过多模态知识图谱的构建,能够更深入地理解游戏,并为游戏推荐、评估、运营等场景提供更精准的数据支持。
5.9 地球科学
利用大模型的数据汇聚、理解与推理能力,从海量科学文献中自动挖掘有价值的实体、关系及属性,辅助科学家建立地学全领域最完整的知识图谱和有学科纵深的地学知识体系。同时,利用知识图谱对地学学科体系化的建模与表示,为大模型提供可靠的信息检索服务,能有效提升模型的分析推理能力,在关系推理、逻辑推理和推断任务中提高准确性,减少大模型的幻觉,提高可解释性。
5.10 生命科学
通过将科学事实、理论、实验数据、研究成果及科学家之间的关联以图谱的形式组织起来,生命科学知识图谱能够增强科学理解的深度、促进新发现以及加速科学传播,为解决复杂科学问题提供强有力的支持。
5.11 物理学
无论是在宏观还是微观,大量的物理系统都可以构建成图,并通过图神经网络进行模拟。
5.12 材料学
将晶体或者多晶构建成图,通过训练图神经网络来实现性质的预测,以及给定材料性质的结构生成。
5.13 运筹学
运筹学中大量组合优化问题可以用图来表示。借助图神经网络提取优化问题的特征,以更有效地用求解器求解这些问题。
6. 总结
本次发布的Graph+AI白皮书中,我们系统地探讨了图技术与人工智能的结合应用,涵盖了从基础技术到实际应用的各个方面。未来图技术与大模型的结合将进一步推动人工智能的发展,带来更多创新和突破。
- 图技术与大模型的融合:将图结构信息融入大模型中,可以显著提升模型在复杂关系和结构化数据处理方面的能力。同时训练基于图的基础模型,可以进一步提升图技术的应用广度和深度。
- 跨领域应用的扩展:图技术在各个领域的应用潜力巨大,未来将看到更多跨领域的应用。
- 增强解释性和可解释AI:图技术在提升模型解释性方面具有独特优势,对于构建可信赖的人工智能系统至关重要,尤其是在涉及敏感数据和决策的应用场景中。
- 大规模图数据处理:提升图算法的效率和可扩展性,开发能够处理超大规模图数据的分布式计算框架和优化算法,从而支持更大规模和更复杂的图应用。
- 开放图数据和标准化:通过建立统一的数据标准和共享平台,可以加速图技术的研究和应用,推动整个生态系统的发展。
通过不断探索和创新,图技术将在未来的人工智能发展中发挥越来越重要的作用,我们期待看到更多的研究突破和应用创新,共同推动图技术的进步与发展。