Paper Digest | 基于原型学习的实体图谱预训练跨域推荐框架-编程知识

欢迎大家在 GitHub 上 Star 我们：

分布式全链路因果学习系统 OpenASCE: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE

大模型驱动的知识图谱 OpenSPG: https://github.com/OpenSPG/openspg

大规模图学习系统 OpenAGL: https://github.com/TuGraph-family/TuGraph-AntGraphLearning

论文标题：PEACE: Prototype lEarning Augmented transferable framework for Cross-domain rEcommendation

组织单位：蚂蚁集团

录用会议：WSDM 2024

论文链接：https://arxiv.org/abs/2312.01916

本文作者：甘淳井。主要研究方向是图算法，推荐算法，大语言模型和知识图谱的应用，研究成果收录于主流机器学习相关会议（WSDM/SIGIR/AAAI）。过去一年在团队的主要工作为基于知识图谱的预训练推荐模型，基于知识增强的大语言模型及其应用，其中包括在SIGIR'23发表的理财场景下基于多粒度解耦的图神经网络框架MGDL，在WSDM'24发表的基于原型学习的实体图谱预训练跨域推荐框架PEACE。

背景

随着支付宝小程序生态的发展，越来越多的商家开始在支付宝上运营小程序，同时支付宝也希望通过小程序生态+商家自运营来实现去中心化的战略。

在商家自运营的过程中，越来越多的中小商家都有数字化、智能化运营的需求，比如通过个性化推荐能力来提升其小程序私域阵地的营销效率，但对于中小商家公司而言，自建AI个性化推荐能力的技术成本、人力成本均很高。

在此背景下，我们希望基于蚂蚁海量用户行为数据，为商家提供可见而不可得的个性化推荐搜索能力来帮助商家打造智能化小程序从而提升商家在支付宝平台的营收，为用户提供更好的个性化体验从而提升用户在支付宝内的留存，同时也能够沉淀通用的技术方案来进一步优化商家/用户的体验。

在业界已经有许多成功的利用行为丰富场景的数据来提升中长尾场景推荐效果的应用案例，比如淘宝利用首猜的行为数据来提升其他小场景的推荐效果，飞猪利用app端和支付宝小程序端联合建模来提升整体推荐效果。

然而这类方法通常面对的是具有相似心智的多个推荐场景，利用具有丰富行为的场景数据来提升行为稀疏的相似场景的推荐效果，比如淘宝、飞猪等。但诸如支付宝这类的超级APP通常包含了诸如出行、政务，租赁，旅行，餐饮，日用百货等各式各样的小程序，各个小程序间的用户心智差异非常大，这给我们建模带来了极大的挑战：

支付宝的小程序分散在政务、美食、租赁、零售、理财等业务类型差异很大的垂类行业，通常来说这些小程序间信息不共享，且相近的物品可能也不具备相似的属性，当直接将全域的多种行为迁移到特定的垂类场景而不对这种跨域差异进行对齐时，模型较难从杂糅了多个垂类的行为中学习到该对垂类有用的知识，甚至可能会带来负向迁移；
虽然点对点的用户行为迁移，比如美食行业只使用用户在支付宝的餐饮相关行为，可以在一定程度上缓解上述问题，但是每次新接入一个行业都需要人工介入，成本较高且无法实现全链路自动化，除此之外，一些商户在首次对接时，即无用户行为数据时，也希望支付宝平台可以提供即插即用的个性化推荐方案，这样的模式在这种设定下不可行。

基于上述挑战，我们提出了基于原型学习的图谱预训练多场景迁移学习框架PEACE，基于垂类行业域间差异较大这一问题。

我们引入了实体图谱并希望通过实体图谱作为连接起不同域间差异的桥梁从而来减缓其对建模带来的负面影响，然而生产环境中的实体图谱通常规模巨大，虽然其包含了大量的实体间的结构信息，但也会引入大量噪声，无差别的对实体图谱中的结构信息进行聚合通常会降低模型的鲁棒性，因而我们引入了原型学习来对建模过程中的实体表征以及用户表征进行约束。

整体而言，PEACE框架是ONE FOR ALL的迁移设计思路，我们将用户在支付宝的多源公域行为作为预训练模型的输入，并通过解耦表征的思路将用户多行业的兴趣偏好学习到一个模型中，再结合捕捉行业信号的原型网络，只需预训练一个统一的模型，便可以将用户的多种兴趣自适应地迁移到下游不同的垂直行业用于个性化推荐（normal推荐+zero-shot推荐）。

PEACE-基于原型学习的实体图谱预训练跨域推荐框架

预备知识-基于实体图谱的跨域对齐

可以看到，通过映射得到对应item相关的entity后，基于图谱推理流程，我们可以得到许多和映射得到的entity相关的高阶信息，如苹果这个公司有手机产品，而手机这类产品相关的公司有三星等，从而可以潜在的拉近和其他相关实体（如三星生产的手机等）间的关系。

模型框架

在本节中，我们将介绍本文提出的图谱预训练跨域推荐框架PEACE，下图为PEACE的整体架构。整体来说，为了更好的实现跨域对齐以及更好的利用实体图谱中的结构性信息，我们的整体框架建立在实体导向的预训练模块上；为了进一步提升预训练模块中用户和实体的表征，使其更具备通用性和可迁移性，我们提出基于原型对比学习的实体表征增强模块和基于原型增强注意力机制的用户表征增强模块对其进行表征增强；在此基础上，我们定义了在预训练阶段和微调阶段的优化目标和轻量化在线部署流程。接下来，我们将对每个模块进行逐一介绍。

PEACE整体架构

01. 实体导向的预训练模块

诸如支付宝等在线服务平台聚集了来自不同服务提供商提供的各式各样的小程序/场景，通常来说这些场景间信息不互通，没有一套共享的数据体系，因而即使是同一品牌同一类目下的产品的属性也无法完全对齐（如不同小程序中售卖的iPhone 14具有不同的商品ID，类别名称，比如在一个小程序中类别为电子产品，在另外一个小程序中类别为电子）。为了减小由于这些潜在问题带来的差异及其对于建模性能的影响，同时也更好的利用这些交互信息，我们基于实体图谱进行预训练，希望通过这样的方式来引入实体粒度的信息以实现泛化性更强的预训练。

以图1为例，若为item→entity→entity，从该商品出发，对于Apple，我们只能知道它的相关产品有Phone，但从entity→entity→entity进行预训练，我们则可以知道Apple不仅有Phone这样的相关产品，还可以知道它和Samsung这个公司具有关联，从而进一步提升我们学习到的表征的泛化性)。

02. 基于原型对比学习的实体表征增强模块

03. 基于原型增强注意力机制的用户表征增强模块

在预训练阶段，源域收集到的数据包含了用户在不同场景的行为，比如在制定旅行计划的时候用户会访问和出行相关的场景，而在需要找工作时会访问和在线求职相关的场景，然而，之前步骤中学习到的用户通用表征未将用户和场景相关的context考虑进来，这使得无法捕捉到在不同场景下的和场景相关的表征，因此我们希望借助于注意力机制来对context进行捕捉从而对用户表征进行增强。

04. 模型训练及预测

源域预训练环节

通过将实体导向的预训练模块和原型学习增强模块相结合，整体的优化目标可以以如下方式定义：

目标域微调环节

以及最终的损失函数：

在线部署

为了缓解线上服务的压力，我们使用了一种轻量化的方式来部署PEACE模型，部署流主要分为三个部分：

Pre-training flow：基于收集到的多源行为数据和实体图谱，我们对PEACE模型进行天级的更新，使得模型可以学习到具备时效性的通用可迁移的知识。对于预训练模型，我们将其存储在ModelHub中，以方便下游使用时可以轻量化的加载模型参数。
Offline inference flow：为了降低图神经网络对在线服务系统带来的负担，我们会提前对user和entity的表征进行infer，然后将其存储到ODPS表中，在下游微调时，仅需对最后的MLP网络进行微调，而无需重新进行图神经网络中的信息传播过程，从而大大降低在线服务时的延迟。
Fine-tuning flow：由于新推出的小程序/服务没有交互数据，因此PEACE通过以下两步来提供推荐服务：
对于冷启场景，通过直接对user和item的表征做内积，我们可以获取到user对不同item的偏好程度从而直接进行排序；
对于已经累积了一定数据的非冷启场景，我们基于预训练的user/item表征和user/item的基础信息进行微调，然后将微调得到的模型用于在线服务。

效果分析

离线实验

01. 数据简介

我们收集了一个月的支付宝账单，足迹，搜索数据作为源域数据，对于目标域，我们在六种类型的小程序，即租赁，旅行，数字藏品，日用百货，美食，食物配送上进行了实验，由于目标域数据相比于源域更为稀疏，我们收集了过去两个月的行为数据用于模型训练。为了对不同域间的巨大差异进行桥接，我们引入了具有千万级节点，百级关系和亿级边的实体图谱。具体的数据情况可参见下表。

02. 有效性实验

结合两个表格中的实验结果我们可以发现，整体而言，实验结果表明：

PEACE在冷启/非冷启的场景中相比于基线而言均取得了大幅的提升，这表明了基于实体粒度的预训练和基于原型学习进行增强的机制的结合的有效性；
就大多数情形而言，预训练+微调的模型相比于无预训练的基线DeepFM有较大的提升，这说明了引入多源数据进行预训练的有效性，然而，在一些情形下，部分模型的表现不如基线DeepFM，有一定的负向迁移，而这进一步阐明了预训练方式的重要性；
在许多情形下，基于gnn的跨域推荐模型并没有取得很好的实验效果，这很大程度上是归咎于实体图谱中的巨大噪声，而由于我们在PEACE模型中引入了原型学习，通过聚类的方式使得相似的实体在表征空间中有着相近的距离，而不同的实体间的距离被拉的更远，从而缓解了这些噪声对模型带来的负面影响。

03. 消融分析

为了进一步验证PEACE模型中各个模块的作用，我们准备了以下三种变体以对各个模块的有效性进行评估：

PEACE w/o GL，即移除实体表征时的图学习模块；
PEACE w/o CPL，即移除基于对比的原型学习模块；
PEACE w/o PEA，即移除基于原型增强的注意力机制模块。从图4中可以看出，当移除任意一个模块时，模型性能都出现了大幅下跌，这说明了模型中每个模块的不可或缺性；此外，可以看出PEACE w/o CPL的表现最差，这说明了原型学习在来捕获通用可迁移的知识中的重要性。

04. 可视化分析

为了更加显式的对CPL模块的效果进行分析，我们随机选择了实体图谱中的6000个实体及其通过PEACE w/o CPL和PEACE模型学习到的实体表征来对其进行可视化，这里的各种颜色分别对应了不同实体归属的不同原型。从图5中我们可以看到，相比于PEACE w/o CPL学习到的实体表征，完整的PEACE模型学习到的表征在聚类结果上具有更好的连贯性，这说明了CPL模块及其学习到的原型，可以很好的帮助模型减小相似的实体在表征空间中的距离，从而更好的帮助模型学习到更鲁棒和通用的知识。

在线实验及业务落地情况

为了更好的验证模型在实际生产环境中的效果，我们在不同垂类的多个商家都进行了精排的在线AB实验，在多个场景中，PEACE模型相比于baseline都得到了有效的提升。整体来说，基于PEACE的预训练+迁移学习的推荐模型在重点商家上经过ab效果验证后，已作为基线模型全量应用到50+商家以为其提供个性化推荐。