SINGLE论文阅读笔记

Modeling User Viewing Flow Using Large Language Models for Article Recommendation论文阅读笔记

Abstract

​ 本文针对文章推荐任务提出了用户浏览流建模方法(SINGLE),该方法从用户点击的文章中建立用户恒定偏好和即时兴趣模型。具体来说,我们首先采用用户恒定浏览流建模方法来总结用户的一般兴趣,从而推荐文章。在这种情况下,我们利用大语言模型(LLMs)从之前点击的文章中捕捉用户的恒定偏好,如技能和职位。然后,我们设计了用户即时浏览流建模方法,在用户点击的文章历史记录和候选文章之间建立交互。它能仔细阅读用户点击文章的表征,并学习用户的不同兴趣观点,从而匹配候选文章。

Introduction

​ 很多文章推荐模型主要集中在新闻推荐任务上,它从用户之前点击的新闻文章中学习用户兴趣,并为用户返回相关的新闻文章。很多工作都考虑了用户个性化信息,以便从点击的文章中更好地捕捉用户兴趣,如用户 ID 、用户上下文信息 和用户反馈。大型语言模型(LLM),如 GPT3 ,在总结用户特征以更好地匹配与用户兴趣相匹配的条目方面表现出很强的能力。

​ 在本文中,我们提出了一种用户浏览流建模(SINGLE)方法来为用户推荐文章。如图 1 所示,我们对持续浏览流和即时浏览流进行了建模,以更好地表现用户的兴趣,从而有助于提取用户的一般兴趣和即时兴趣进行推荐。具体来说,我们通过提示 LLM 作为用户来建立持续浏览流模型,从而从浏览过的文章中提取用户偏好和特征。然后,SINGLE 对即时浏览流进行建模,以学习用户的不同兴趣观点。它使用 BERT 对文章的标题和正文进行编码,在用户访问过的文章和候选文章的表征之间建立交互,并仔细阅读访问过的文章的表征,从而进行用户即时兴趣表征。此外,SINGLE 还利用文章标题和正文中的文本信息来更好地表示文章语义。在这种情况下,我们通过将文章标题作为要点来设计摘要提示,利用 LLMs 从文章正文中提取关键词,然后生成一个简短的段落来表示文章正文。

pAAMk24.png

​ 我们的进一步分析表明,SINGLE 模型有能力模仿不同的文章浏览行为,构建更有效的文章推荐系统。用户持续浏览流建模方法通过对点击过的文章进行更多的相似用户表征来学习用户的一般兴趣。然后,用户即时浏览流根据候选文章为这些用户点击的文章分配不同的权重,从而从访问过的文章中捕捉不同的用户兴趣。它可以从点击的文章序列中捕捉到一致的主题或主题转移。

Method

​ 在本节中,我们将介绍用户查看流程建模(SINGLE)方法。我们首先介绍 SINGLE 的框架(第 3.1 节)。然后介绍我们的用户常量和即时观看流建模方法(第 3.2 节),这些方法可以了解一般用户特征和多视角用户兴趣。

pAAMKIK.png

SINGLE的框架

​ 如图 2 所示,给定用户浏览过的文章\(D_{1:t-1} = \{d_1,...,d_{t-1}\}\), 文章推荐任务旨在推荐下一篇文章𝑡,以满足用户在第 𝑡 次浏览时的信息需求。在本小节中,我们将介绍我们的文章表示和编码方法,然后介绍如何根据之前点击的文档\(D_{1:t-1}\)预测下一篇文章。

文章表示

​ 现有的文章推荐方法通常面临长文本建模问题,这源于现有语言模型的最大长度限制。因此,这些模型舍弃了文章正文,只使用文章标题来表示文章。显然,这种文章表示方法通常会丢失一些关键语义,从而限制了这些文章推荐系统的有效性。

​ 为了充分模拟文章的语义𝑑𝑖,我们尝试借用大型语言模型(LLM)的强大泛化能力来减少文章正文的文本长度。具体来说,我们设计了文章摘要指令𝑖𝑛𝑠𝑡𝑟𝑢𝑐𝑡𝑠,并利用 LLM 为文章主体\(d_i^{b*}\)生成简短摘要:

\(d_i^{b*}=\mathrm{LLM}(instruct_s,d_i^t,d_i^b),\)

\(d_i^t,d_i^b\)分别表示文章的标题和主体,本文说通过这种方式能使文章的长度减少十多倍。最后用生成的摘要替换文章主体,于是文章就由标题、属性和生成的正文摘要来表示。

文章编码

​ 我们可以通过刚刚提到的标题、属性和生成的正文摘要来表示文章:

\(h_{d_i}=h_{d_i}^a;h_{d_i}^t;h_{d_i}^{b*},\)

​ 其中;表示连接

​ 然后我们使用BERT对这些文本内容进行编码,得到各自的表示。

\(h_{d_i}^t=\mathrm{Linear}(\mathrm{BERT}(d_i^t));h_{d_i}^{b*}=\mathrm{Linear}(\mathrm{BERT}(d_i^{b*})),\)

​ 其中BERT的参数在训练时是被冻结的

​ 这些文章特征\(d_i^a\)由随机初始化的嵌入表示。然后,我们将这些属性嵌入连接起来,并利用多层神经网络得到文章属性的最终表示\(h^a_{d_i}\)

下一篇文章预测

​ 我们的SINGLE模型通过建模用户的即时兴趣和对以前访问过的文章的持续偏好来学习用户的表示\(h_{u_t}\)。然后我们可以预测第𝑡次候选文章𝑑𝑡的点击率:

\(P(y=1|D_{1:t-1},d_t)=\mathrm{Sigmoid}(\mathrm{Linear}(h_{u_t};h_{d_t})),\)

​ 其中\(h_{d_t}\)是文章\(d_t\)的嵌入表示

​ 然后,我们利用交叉熵损失L来优化我们的单个模型的可训练参数:

\(\mathcal{L}=\mathrm{CrossEntropy}(y^*,P(y|D_{1:t-1},d_t)),\)

用户浏览流建模

​ 在本小节中,我们使用文章点击历史记录𝐷1:𝑡-1 = {𝑑1, ..., 𝑑𝑡-1} 对用户行为进行建模,并学习用户表示法\(h_{u_t}\)。具体来说,我们的目标是通过模拟用户的即时兴趣和持续偏好,在第 𝑡 次推荐文章。我们将用户即时兴趣表征\(h_{u_t}^{ins}\)和用户恒定兴趣表征\(h_{u_t}^{cons}\)连接起来来代表用户:

\(h_{u_t}=h_{u_t}^{ins};h_{u_t}^{cons}.\)

用户即时浏览流建模

​ 用户在浏览文章时通常会产生多视角兴趣,而用户即时兴趣则表明了用户快速而直接的偏好。在阅读文章的过程中,一些属于不同主题的文章会激起用户的好奇心,吸引用户点击这些文章。

​ 为了模拟用户的即时兴趣,SINGLE 将第 𝑡 次可能互动的文章\(d_t\)视为查询,并从用户之前访问过的文章 𝐷1:𝑡-1 = {𝑑1, ..., 𝑑𝑡-1} 中仔细阅读语义,从而模拟即时浏览流。这种关注机制旨在根据候选文章𝑑𝑡,从这些访问过的文章𝐷1:𝑡-1 中提取一些语义,从而为预测下一篇文章提供一些支持性证据。具体来说,我们首先利用公式 2 得到已访问文档的文章表示\(H_{1:t-1}=\{h_1,...,h_{t-1}\}\),以及在第 𝑡 次时可能互动的文档的表示。然后就可以计算出用户即时兴趣表示:

\(h_{u_t}^{ins}=\sum_{i=1}^{t-1}\alpha_i\cdot h_{d_i},\)

\(\alpha_i=\mathrm{softmax}_i(h_{d_t}\cdot W\cdot(h_{d_i})^T),\)

用户长期浏览流建模

​ 与我们的用户即时浏览流建模不同,用户持续浏览流旨在从不同的点击文章中析出用户的一般偏好,并了解静态的用户特征。

​ 为了模拟用户的偏好,我们使用标记级协作过滤模型模拟用户的一般浏览行为。具体来说,我们将之前点击过的文章的文本表述𝐷1:𝑡-1 = {𝑑1, ..., 𝑑𝑡-1} 连接起来,使用 LLM 捕捉一些常见的关键词,并从𝐷1:𝑡-1 捕捉用户特征:

\(u_t^{cons}=\mathrm{LLM}(instruct_u,D_{1:t-1}),\)

​ 其中,𝑖𝑛𝑠𝑡𝑟𝑢𝑐𝑡𝑢是提示 LLMs 在从𝐷1:𝑡-1 中提取用户特征时发挥作用的指令。然后就可以对长期的用户兴趣表示进行编码:

\(h_{u_t}^{cons}=\mathrm{BERT}(u_t^{cons})\otimes h_{d_t},\)

总结

​ 这篇文章是使用LLM来进行推荐的一篇论文,在推荐文章时,使用了用户的短期兴趣和长期兴趣以及文章的内容来进行建模。首先针对文章内容长的问题,使用LLM来对文章内容进行摘要。然后在建模短期兴趣时,直接采用传统的注意力机制进行建模,在建模长期兴趣时,使用LLM来获取用户的喜好,用用户的喜好来建模长期兴趣。整体看下来通俗易懂,方法也非常不错。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/789015.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

产品经理面试宝典:阿里、字节、百度、腾讯、拼多多等全国顶级大厂面试题一网打尽!

​在互联网行业蓬勃发展的今天,产品经理作为连接技术、设计和市场的核心角色,其重要性日益凸显。想要进入国内顶尖的互联网大厂,如阿里巴巴、字节跳动、百度、腾讯、拼多多等,产品经理岗位的面试无疑是一场硬仗。本文将为你揭秘这些大厂的产品经理面试真题,并提供参考答案…

袋鼠云《数据资产管理白皮书》重磅发布,提供数据资产管理新思路,激发数据资产新动能(附下载)

近年来,政府将数据要素纳入了经济发展的重要指示性文件当中,数据作为一种新型生产要素,已经成为第五大生产要素。 要实现数据要素的市场效能,真正发挥数据生产要素的作用,离不开数据资产化,而数据资产化自然也离不开数据资产管理这一基础工作。数据资产管理是释放数据要素…

设置程序开机自动启动

win+R输入shell:startup 把需要开机自动启动的程序的快捷方式拖进去即可.

Maven篇

1、什么是 maven ? maven 主要服务于基于 java 平台的项目构建,依赖管理和项目信息管理。 maven 项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的项目管理工具软件。它包含了一个项目对象模型,一组标准集合,一个项目生命周期,一个依赖管理系统…

【C#】【WinForm】启动报错 “lc.exe”已退出,代码为 -1

启动项目时报错 “lc.exe”已退出,代码为 -1,这个原因是项目需要认证的凭证,有两种方法解决. 1. 手动搜索license,然后删掉即可 2.工具->nuget包管理->管理解决方案的nuget包,搜emptylicenses,找到emptylicenseslicx下载安装就行。 有志者,事竟成,破釜沉舟,百二…

数业智能心大陆开学 “收心” 全指南

凉爽的秋风为我们带来了新学期的讯息。欢乐的暑假已临近尾声,孩子即将重返校园,踏上全新的征程。开学在即,众多同学和家长 “涌入” 数业智能心大陆的 AI 心理咨询平台,与 AI 心理咨询师展开深入细致的交流。心大陆留意到,近期同学们普遍出现情绪波动的状况,例如精神萎靡…

【MySQL】binlog常见问题

https://mp.weixin.qq.com/s/n9vWkee2N-gpXpOHIYtRJg 关于binlog,这里常见的问题如下:binlog是什么 binlog的配置和查看 binlog的类型 binlog如何数据恢复 binlog是逻辑日志还是物理日志 binlog的作用binlog是什么 binlo(binary log),是MySql的二进制日志文件,这个文件记…

【私有云场景案例分享②】批量装包与冒烟测试的自动化实现

利用AirtestIDE企业版与DeviceKeeper结合的多机跑测方案不仅解决了传统测试流程中的效率瓶颈,还为整个产品开发生命周期带来了革命性的变化!此文章来源于项目官方公众号:“AirtestProject” 版权声明:允许转载,但转载必须保留原链接;请勿用作商业或者非法用途一、前言 在…

MySQL 延迟从库介绍

延迟从库主要适用于需要增强数据安全性和提高系统可用性的场合。通过合理配置和监控,可以有效利用延迟从库的优势来增强数据库系统的稳定性、可靠性和性能。前言: 我们都知道,MySQL 主从延迟是一件很难避免的情况,从库难免会偶尔追不上主库,特别是主库有大事务或者执行 DD…

使用open3d合并ply模型

import open3d as o3d from scipy.ndimage import binary_fill_holesdef merge_ply(ply1, ply2, output_path):# 加载两个多边形模型mesh1 = o3d.io.read_triangle_mesh(ply1)mesh2 = o3d.io.read_triangle_mesh(ply2)# 使用 + 运算符合并两个多边形模型merged_mesh = mesh1 + …

淘宝商品API接口:电商数据的金钥匙

在数字化浪潮的推动下,电商行业蓬勃发展,数据成为企业最宝贵的资产之一。淘宝,作为中国乃至全球最大的在线零售平台,其庞大的商品数据蕴含着无限商机。如何高效地获取并利用这些数据,成为电商从业者和开发者关注的焦点。本文将带您了解淘宝商品API接口的强大功能,以及如何…

DB9和DB15的引脚编号

1、DB9的引脚编号2、DB15的引脚编号