NPA: Neural News Recommendation with Personalized Attention论文阅读笔记
这个又是一篇很老但是很经典的论文,这里来读一下
Abstract
现存的问题:
不同的用户通常有不同的兴趣爱好,同一用户也可能有不同的兴趣爱好。因此,不同的用户点击同一篇新闻时可能会关注不同的方面。
提出方法:
本文提出了一种具有个性化关注的神经新闻推荐模型(NPA)。我们方法的核心是新闻表示模型和用户表示模型。在新闻表征模型中,我们使用 CNN 网络根据标题学习新闻文章的隐藏表征。在用户表征模型中,我们根据用户点击新闻文章的表征来学习用户表征。
由于不同的单词和不同的新闻文章对于代表新闻和用户来说可能具有不同的信息量,因此我们建议应用单词和新闻级别的关注机制来帮助我们的模型关注重要的单词和新闻文章。此外,同一新闻文章和同一词语对不同用户的信息量也可能不同。因此,我们提出了一种个性化关注网络,利用用户 ID 的嵌入来生成单词和新闻级关注的查询向量。
Introduction
在新闻推荐场景中有两个共同点。首先,用户点击的所有新闻并不能反映用户的偏好。此外,同一新闻对不同用户的信息量也应不同。其次,新闻标题中的不同词语通常对学习新闻表征具有不同的信息量。此外,新闻标题中的相同词语对于揭示不同用户的偏好也可能具有不同的信息量。因此,对不同用户而言,词语和新闻的不同信息量建模可能有助于学习更好的用户表征,从而实现准确的新闻推荐。
在本文中,我们提出了一种用于新闻推荐的个性化关注神经方法(NPA)。我们方法的核心是新闻表示模型和用户表示模型。在新闻表征模型中,我们使用 CNN 网络学习新闻标题的上下文表征;在用户表征模型中,我们从用户点击的新闻中学习用户表征。由于在学习新闻和用户表征时,不同的词语和新闻文章通常具有不同的信息量,因此我们建议在词语和新闻层面应用注意力机制,以选择并突出信息量大的词语和新闻。此外,由于不同用户对相同词语和新闻的信息量可能不尽相同,我们提出了个性化关注网络,将用户 ID 嵌入作为词语级和新闻级关注网络的查询向量,根据用户偏好对重要词语和新闻进行差异化关注。
Method
模型的框架如下:
在本节中,我们将介绍针对新闻推荐的个性化关注 NPA 方法。我们的模型有三个主要模块。第一个是新闻编码器,旨在学习新闻的表征。第二个模块是用户编码器,旨在根据用户点击新闻的表征学习用户表征。第三个是点击预测器,用于预测一系列候选新闻的点击得分。在新闻编码器和用户编码器模块中,我们在词级和新词级应用了个性化注意力网络,以根据用户偏好选择不同的信息词和新闻。我们的方法架构如上图所示。下面我们将详细介绍我们的方法
新闻编码器
这里分为三个模块
第一个模块是新闻编码器,这里就不多解释了。
第二个模块是CNN,是用来捕捉新闻标题中单词的局部语境来学习其上下文表征。非常经典,具体实现见论文
第三个模块是单词级注意力网络,具体实现如下图:
在普通非个性化注意力网络中,注意力权重只是通过一个固定的注意力查询向量根据输入表示序列计算出来的,并没有将用户的偏好纳入其中。为了模拟每个词对不同用户推荐的信息量,我们建议使用个性化关注网络,根据用户偏好识别并突出显示新闻标题中的重要词语。
实现的具体公式见论文,这个也是比较简单的注意力机制。
用户编码器
我们方法中的用户编码器模块旨在从用户点击新闻的表征中学习用户表征。在该模块中,新闻级个性化关注模块用于建立信息丰富的用户表征。在学习用户表征时,同一用户点击的新闻通常具有不同的信息量。为了模拟同一新闻对不同用户的不同信息量,我们还对同一用户点击新闻的表征应用了个性化注意力机制。最后获得用户向量。
这个个性化注意力机制也比较简单,具体实现见论文。
点击预测器
用的是比较传统的损失函数计算方式
\(\hat{y}_{i}^{\prime}=\mathbf{r}_{i}^{'T}\mathbf{u},\\\hat{y}_{i}=\frac{\exp(\hat{y}_i^{\prime})}{\sum_{j=0}^K\exp(\hat{y}_j^{\prime})}\)
\(\mathcal{L}=-\sum_{y_j\in\mathcal{S}}\log(\hat{y}_j),\)
总结
这篇文章因为比较老,是五年前的论文了,方法都比较传统,但是写的比较清晰,这里贴一下原文的conclusion
在本文中,我们提出了一种具有个性化关注(NPA)的神经新闻推荐方法。在我们的 NPA 方法中,我们使用 CNN 从标题中学习新闻表示模型,并使用用户表示模型从用户点击的新闻中学习用户表示。由于不同的单词和新闻文章通常对表示新闻和用户具有不同的信息量,我们建议在单词和新闻中同时应用注意力机制,以帮助我们的模型关注重要的单词和新闻文章。此外,由于同样的词语和新闻对不同用户的重要性不同,我们提出了一种个性化的注意力网络,利用用户 ID 的嵌入作为词语级和新闻级注意力网络的查询。