Paper Digest | 基于原型学习的实体图谱预训练跨域推荐框架

欢迎大家在 GitHub 上 Star 我们:

分布式全链路因果学习系统 OpenASCE: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE

大模型驱动的知识图谱 OpenSPG: https://github.com/OpenSPG/openspg

大规模图学习系统 OpenAGL: https://github.com/TuGraph-family/TuGraph-AntGraphLearning

论文标题:PEACE: Prototype lEarning Augmented transferable framework for Cross-domain rEcommendation

组织单位:蚂蚁集团

录用会议:WSDM 2024

论文链接:https://arxiv.org/abs/2312.01916

本文作者:甘淳井。主要研究方向是图算法,推荐算法,大语言模型和知识图谱的应用,研究成果收录于主流机器学习相关会议(WSDM/SIGIR/AAAI)。过去一年在团队的主要工作为基于知识图谱的预训练推荐模型,基于知识增强的大语言模型及其应用,其中包括在SIGIR'23发表的理财场景下基于多粒度解耦的图神经网络框架MGDL,在WSDM'24发表的基于原型学习的实体图谱预训练跨域推荐框架PEACE。

背景

随着支付宝小程序生态的发展,越来越多的商家开始在支付宝上运营小程序,同时支付宝也希望通过小程序生态+商家自运营来实现去中心化的战略。

在商家自运营的过程中,越来越多的中小商家都有数字化、智能化运营的需求,比如通过个性化推荐能力来提升其小程序私域阵地的营销效率,但对于中小商家公司而言,自建AI个性化推荐能力的技术成本、人力成本均很高。

在此背景下,我们希望基于蚂蚁海量用户行为数据,为商家提供可见而不可得的个性化推荐搜索能力来帮助商家打造智能化小程序从而提升商家在支付宝平台的营收,为用户提供更好的个性化体验从而提升用户在支付宝内的留存,同时也能够沉淀通用的技术方案来进一步优化商家/用户的体验。

在业界已经有许多成功的利用行为丰富场景的数据来提升中长尾场景推荐效果的应用案例,比如淘宝利用首猜的行为数据来提升其他小场景的推荐效果,飞猪利用app端和支付宝小程序端联合建模来提升整体推荐效果。

然而这类方法通常面对的是具有相似心智的多个推荐场景,利用具有丰富行为的场景数据来提升行为稀疏的相似场景的推荐效果,比如淘宝、飞猪等。但诸如支付宝这类的超级APP通常包含了诸如出行、政务,租赁,旅行,餐饮,日用百货等各式各样的小程序,各个小程序间的用户心智差异非常大,这给我们建模带来了极大的挑战:

  • 支付宝的小程序分散在政务、美食、租赁、零售、理财等业务类型差异很大的垂类行业,通常来说这些小程序间信息不共享,且相近的物品可能也不具备相似的属性,当直接将全域的多种行为迁移到特定的垂类场景而不对这种跨域差异进行对齐时,模型较难从杂糅了多个垂类的行为中学习到该对垂类有用的知识,甚至可能会带来负向迁移;
  • 虽然点对点的用户行为迁移,比如美食行业只使用用户在支付宝的餐饮相关行为,可以在一定程度上缓解上述问题,但是每次新接入一个行业都需要人工介入,成本较高且无法实现全链路自动化,除此之外,一些商户在首次对接时,即无用户行为数据时,也希望支付宝平台可以提供即插即用的个性化推荐方案,这样的模式在这种设定下不可行。

基于上述挑战,我们提出了基于原型学习的图谱预训练多场景迁移学习框架PEACE,基于垂类行业域间差异较大这一问题。

我们引入了实体图谱并希望通过实体图谱作为连接起不同域间差异的桥梁从而来减缓其对建模带来的负面影响,然而生产环境中的实体图谱通常规模巨大,虽然其包含了大量的实体间的结构信息,但也会引入大量噪声,无差别的对实体图谱中的结构信息进行聚合通常会降低模型的鲁棒性,因而我们引入了原型学习来对建模过程中的实体表征以及用户表征进行约束。

整体而言,PEACE框架是ONE FOR ALL的迁移设计思路,我们将用户在支付宝的多源公域行为作为预训练模型的输入,并通过解耦表征的思路将用户多行业的兴趣偏好学习到一个模型中,再结合捕捉行业信号的原型网络,只需预训练一个统一的模型,便可以将用户的多种兴趣自适应地迁移到下游不同的垂直行业用于个性化推荐(normal推荐+zero-shot推荐)。

PEACE-基于原型学习的实体图谱预训练跨域推荐框架

预备知识-基于实体图谱的跨域对齐

图片

可以看到,通过映射得到对应item相关的entity后,基于图谱推理流程,我们可以得到许多和映射得到的entity相关的高阶信息,如苹果这个公司有手机产品,而手机这类产品相关的公司有三星等,从而可以潜在的拉近和其他相关实体(如三星生产的手机等)间的关系。

模型框架

在本节中,我们将介绍本文提出的图谱预训练跨域推荐框架PEACE,下图为PEACE的整体架构。整体来说,为了更好的实现跨域对齐以及更好的利用实体图谱中的结构性信息,我们的整体框架建立在实体导向的预训练模块上;为了进一步提升预训练模块中用户和实体的表征,使其更具备通用性和可迁移性,我们提出基于原型对比学习的实体表征增强模块和基于原型增强注意力机制的用户表征增强模块对其进行表征增强;在此基础上,我们定义了在预训练阶段和微调阶段的优化目标和轻量化在线部署流程。接下来,我们将对每个模块进行逐一介绍。

PEACE整体架构

01. 实体导向的预训练模块

诸如支付宝等在线服务平台聚集了来自不同服务提供商提供的各式各样的小程序/场景,通常来说这些场景间信息不互通,没有一套共享的数据体系,因而即使是同一品牌同一类目下的产品的属性也无法完全对齐(如不同小程序中售卖的iPhone 14具有不同的商品ID,类别名称,比如在一个小程序中类别为电子产品,在另外一个小程序中类别为电子)。为了减小由于这些潜在问题带来的差异及其对于建模性能的影响,同时也更好的利用这些交互信息,我们基于实体图谱进行预训练,希望通过这样的方式来引入实体粒度的信息以实现泛化性更强的预训练。

以图1为例,若为item→entity→entity,从该商品出发,对于Apple,我们只能知道它的相关产品有Phone,但从entity→entity→entity进行预训练,我们则可以知道Apple不仅有Phone这样的相关产品,还可以知道它和Samsung这个公司具有关联,从而进一步提升我们学习到的表征的泛化性)。

02. 基于原型对比学习的实体表征增强模块

03. 基于原型增强注意力机制的用户表征增强模块

在预训练阶段,源域收集到的数据包含了用户在不同场景的行为,比如在制定旅行计划的时候用户会访问和出行相关的场景,而在需要找工作时会访问和在线求职相关的场景,然而,之前步骤中学习到的用户通用表征未将用户和场景相关的context考虑进来,这使得无法捕捉到在不同场景下的和场景相关的表征,因此我们希望借助于注意力机制来对context进行捕捉从而对用户表征进行增强。

04. 模型训练及预测

  • 源域预训练环节

通过将实体导向的预训练模块和原型学习增强模块相结合,整体的优化目标可以以如下方式定义:

  • 目标域微调环节

以及最终的损失函数:

在线部署

为了缓解线上服务的压力,我们使用了一种轻量化的方式来部署PEACE模型,部署流主要分为三个部分:

  • Pre-training flow:基于收集到的多源行为数据和实体图谱,我们对PEACE模型进行天级的更新,使得模型可以学习到具备时效性的通用可迁移的知识。对于预训练模型,我们将其存储在ModelHub中,以方便下游使用时可以轻量化的加载模型参数。
  • Offline inference flow:为了降低图神经网络对在线服务系统带来的负担,我们会提前对user和entity的表征进行infer,然后将其存储到ODPS表中,在下游微调时,仅需对最后的MLP网络进行微调,而无需重新进行图神经网络中的信息传播过程,从而大大降低在线服务时的延迟。
  • Fine-tuning flow:由于新推出的小程序/服务没有交互数据,因此PEACE通过以下两步来提供推荐服务:
  • 对于冷启场景,通过直接对user和item的表征做内积,我们可以获取到user对不同item的偏好程度从而直接进行排序;
  • 对于已经累积了一定数据的非冷启场景,我们基于预训练的user/item表征和user/item的基础信息进行微调,然后将微调得到的模型用于在线服务。

效果分析

离线实验

01. 数据简介

我们收集了一个月的支付宝账单,足迹,搜索数据作为源域数据,对于目标域,我们在六种类型的小程序,即租赁,旅行,数字藏品,日用百货,美食,食物配送上进行了实验,由于目标域数据相比于源域更为稀疏,我们收集了过去两个月的行为数据用于模型训练。为了对不同域间的巨大差异进行桥接,我们引入了具有千万级节点,百级关系和亿级边的实体图谱。具体的数据情况可参见下表。

02. 有效性实验

结合两个表格中的实验结果我们可以发现,整体而言,实验结果表明:

  • PEACE在冷启/非冷启的场景中相比于基线而言均取得了大幅的提升,这表明了基于实体粒度的预训练和基于原型学习进行增强的机制的结合的有效性;
  • 就大多数情形而言,预训练+微调的模型相比于无预训练的基线DeepFM有较大的提升,这说明了引入多源数据进行预训练的有效性,然而,在一些情形下,部分模型的表现不如基线DeepFM,有一定的负向迁移,而这进一步阐明了预训练方式的重要性;
  • 在许多情形下,基于gnn的跨域推荐模型并没有取得很好的实验效果,这很大程度上是归咎于实体图谱中的巨大噪声,而由于我们在PEACE模型中引入了原型学习,通过聚类的方式使得相似的实体在表征空间中有着相近的距离,而不同的实体间的距离被拉的更远,从而缓解了这些噪声对模型带来的负面影响。

03. 消融分析

为了进一步验证PEACE模型中各个模块的作用,我们准备了以下三种变体以对各个模块的有效性进行评估:

  • PEACE w/o GL,即移除实体表征时的图学习模块;
  • PEACE w/o CPL,即移除基于对比的原型学习模块;
  • PEACE w/o PEA,即移除基于原型增强的注意力机制模块。从图4中可以看出,当移除任意一个模块时,模型性能都出现了大幅下跌,这说明了模型中每个模块的不可或缺性;此外,可以看出PEACE w/o CPL的表现最差,这说明了原型学习在来捕获通用可迁移的知识中的重要性。

04. 可视化分析

为了更加显式的对CPL模块的效果进行分析,我们随机选择了实体图谱中的6000个实体及其通过PEACE w/o CPL和PEACE模型学习到的实体表征来对其进行可视化,这里的各种颜色分别对应了不同实体归属的不同原型。从图5中我们可以看到,相比于PEACE w/o CPL学习到的实体表征,完整的PEACE模型学习到的表征在聚类结果上具有更好的连贯性,这说明了CPL模块及其学习到的原型,可以很好的帮助模型减小相似的实体在表征空间中的距离,从而更好的帮助模型学习到更鲁棒和通用的知识。

在线实验及业务落地情况

为了更好的验证模型在实际生产环境中的效果,我们在不同垂类的多个商家都进行了精排的在线AB实验,在多个场景中,PEACE模型相比于baseline都得到了有效的提升。整体来说,基于PEACE的预训练+迁移学习的推荐模型在重点商家上经过ab效果验证后,已作为基线模型全量应用到50+商家以为其提供个性化推荐。

文章推荐

OpenSPG v0.0.3 发布,新增大模型统一知识抽取&图谱可视化开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE

【演讲回顾】知识图谱的演进与基于 OpenSPG+TuGraph 的推理实践

Paper Digest | GPT-RE:基于大语言模型针对关系抽取的上下文学习

关注我们


OpenSPG:
官网:https://spg.openkg.cn
Github:https://github.com/OpenSPG/openspg


OpenASCE:
官网:https://openasce.openfinai.org/
GitHub:[https://github.com/Open-All-Scale-Causal-Engine/OpenASCE]

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育,覆盖大规模图学习,因果推理,知识图谱,大模型等技术领域,欢迎扫码关注,解锁更多 AI 资讯~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/688843.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

靠谱的知识竞赛活动公司怎么去找

搞知识竞赛活动,找一家靠谱的知识竞赛活动公司来承办是重中之重,他直接决定了竞赛活动的成败和效果。那么,如何去找这样一家公司呢? 知识竞赛活动一般包括两大部分内容,一部分是舞台及其包装,另一部分是知识…

WT32-ETH01作为TCP Client进行通讯

目录 模块简介WT32-ETH01作为TCP Client设置电脑作为TCP Server设置连接并进行通讯总结 模块简介 WT32-ETH01网关主要功能特点: 采用双核Xtensa⑧32-bit LX6 MCU.集成SPI flash 32Mbit\ SRAM 520KB 支持TCP Server. TCP Client, UDP Server. UDP Client工作模式 支持串口、wif…

【Java】高效解决 非降序数组合并 两种方法

欢迎浏览高耳机的博客 希望我们彼此都有更好的收获 感谢三连支持! oj:https://leetcode.cn/problems/merge-sorted-array/submissions/ 合并两个有序数组是个经典问题,它不仅在算法学习中频繁出现,也在实际开发中经常遇到。合并数…

NLP 词嵌入向量即word embedding原理详解

文章目录 1. 前言2. 目标3. CBOW4. 训练结果5. 如何使用6. 延伸7. 参考 1. 前言 现在 NLP 相关的技术大概率会接触到词向量、word embedding(词嵌入)诸如此类的术语。然后网上一搜,哦,有一个 Word2Vec 的技术,能够把单…

租赁商城小程序基于ThinkPHP+FastAdmin+UniApp(源码搭建/上线/运营/售后/更新)

提供用户物品租赁服务的应用程序,方便客户搭建各种类型的租赁场景服务。通过小程序端多角色进行平台管理,用户租赁商品缴纳租金及押金,员工端可操作商品出库和归还,订单完成后押金原路退回。 ​在线预约和支付:用户可以…

构建内网yum仓库

1、环境介绍 系统:龙蜥os 7.9 2、安装epel源 yum install epel-release -y3、安装nginx服务器并启动 yum install nginx httpd -y配置 server {listen 80;server_name repo.wtown.com;root /usr/share/nginx/html/repo;index index.html index.htm;location / {…

如何批量将十六进制数据转成bin文件

最近在做新项目遇到一个问题,我们要通过上位机把一堆数据通过串口发送给下位机存储,而上位机需要Bin文件。 解决办法: 1)创建一个记事本文件,然后将其后缀修改成.bin 2)然后打开notepad,新建一个文件,随便写下数据 我…

【Git】Git在Gitee上的基本操作指南

文章目录 1. 查看 git 版本2. 从Gitee克隆仓库:3. 复制文件到工作目录:4. 将未跟踪的文件添加到暂存区:5. 在本地提交更改:6. 将更改推送到远程仓库(Gitee):7. Windows特定提示: 1. …

动作识别 slowfast动作识别项目记录

动作识别 slowfast动作识别项目记录

pikachu靶场-全套学习

文章目录 配置pikachu靶场浏览器访问过程burpsuite配置代理hackbar安装使用kali安装中国蚁剑暴力破解cookie简化场景解释各部分含义如何工作 基于表单的暴力破解验证码绕过(On server)验证码绕过(on client)token防爆破? XSS(Cross-Site Scripting跨站脚本攻击 &am…

使用Baidu Comate五分钟 , 工作时间摸鱼8小时

Baidu Comate:引领智能编码新时代 文章目录 Baidu Comate:引领智能编码新时代一、明日工具,今日领先——百度Comate智能编码助手二、万变不离其宗——适配场景需求三、功能研究3.1 指挥如指掌——指令功能3.2 助手增援——插件功能使用3.3 实…