How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective-编程知识

How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective

news/2025/2/23 0:05:41/文章来源:https://www.cnblogs.com/MTandHJ/p/18726979

概
符号说明
Popularity bias
- $\mathbf{q}_1$ 和 $\mathbf{r}$ 具有高相似度
- 相似度随着维度降低而增加
- 相似度随着训练的变化
ReSN: Regulartion with Spectral Norm

Lin S., Gao C., Chen J., Zhou S., Hu B., Feng Y., Chen C. and Wang C. How do recommendation models amplify popularity bias? An analysis from the spectral perspective. WSDM, 2025.

概

本文分析在不引入额外的约束下, 基于矩阵分解的模型倾向于匹配 item 的流行度.

符号说明

$\mathcal{U}$, user set, $|\mathcal{U}| = n$;
$\mathcal{I}$, item set, $|\mathcal{I}| = m$;
$Y \in \{0, 1\}^{n \times m}$, interaction matrix;
$r_i = \sum_{u \in \mathcal{U}} y_{ui}$, 表示 item 的交互频率, 总的构成流行度向量 (popularity vector) $\mathbf{r}$.

Popularity bias

我们考虑基于矩阵分解的方法, 它提供:

\[\mathbf{u}_u, \mathbf{v}_i, \]
用以计算 user $u$ 和 item $i$ 之间的相似度

\[\hat{y}_{ui} = \mu (\mathbf{u}_u^T \mathbf{v}_i), \]
这里 $\mu(\cdot)$ 表示激活函数.
令 $\mathbf{U} \in \mathbb{R}^{n \times d}, \mathbf{V} \in \mathbb{R}^{m \times d}$ 表示 user, item 的向量矩阵, 可得

\[\hat{\mathbf{Y}} = \mu (\mathbf{U} \mathbf{V}^T). \]
对预估的得分矩阵 $\hat{\mathbf{Y}}$ 进行 SVD 分解:

\[\tag{1} \hat{\mathbf{Y}} = \mathbf{P\Sigma Q^T} = \sum_{1 \le k \le L} \sigma_k \mathbf{p}_k \mathbf{q}_k^T, \quad L= \min(n, m), \]
且 $\sigma_1 \ge \sigma_2 \ge \ldots \ge \sigma_L$.

$\mathbf{q}_1$ 和 $\mathbf{r}$ 具有高相似度

上图展示了 (1) 中的主(右)奇异向量 $\mathbf{q}_1$ 和 popularity vector $\mathbf{r}$ 的 cosine 相似度:

\[\frac{\mathbf{q}_1^T \mathbf{r}}{\|\mathbf{q}_1\| \cdot \|\mathbf{r}\|} \]
非常接近 1. 因此, 我们可以认为, 传统模型所学到的得分矩阵 $\hat{\mathbf{Y}}$ 其实受到了非常非常多的流行度的影响.
进一步地, 我们可以理论证明这一点:
Theoerm 1 (Popularity memorization effect): 给定一个 embedding-based 的模型且具备足够的表达能力, 当 $\mathbf{r}$ 服从 power-law, 我们有:

\[\cos (\mathbf{q}_1, \mathbf{r}) \ge \frac{\sigma_1^2}{r_{\max} \sqrt{\zeta (2 \alpha)}} \sqrt{1 - \frac{r_{\max} (\zeta (\alpha) - 1)}{\sigma_1^2} }, \]
其中 $r_{\max} = \max_i r_i$, $\zeta (\alpha)$ 表示 Riemann zeta function $\zeta (\alpha) = \sum_{j=1}^{\infty} \frac{1}{j^{\alpha}}$.

proof:

注意, 这里假设模型有足够的表达能力, 即假设 $\hat{\mathbf{Y}}$ 能够足够近似 $\mathbf{Y}$, 于是后面的分析相当于都是基于 $\mathbf{Y}$ 的 SVD 分解之上.
于是

\[\cos(\mathbf{q}_1, \mathbf{r}) =\frac{\mathbf{q}_1^T \mathbf{r}}{\|\mathbf{r}\|} =\frac{\mathbf{q}_1^T \mathbf{Y}^T \mathbf{e}}{\|\mathbf{r}\|} =\frac{\sigma_1 \mathbf{p}_1^T \mathbf{e}}{\|\mathbf{r}\|}. \]
又

\[\| \mathbf{r} \| = \sqrt{\sum_{i=1}^m r_i^2} =\sqrt{\sum_{i=1}^m (r_{\max} \cdot i^{-\alpha})^2} =r_{\max} \sqrt{\sum_{i=1}^m i^{-2\alpha}} \le r_{\max} \sqrt{\zeta (2 \alpha)}. \]
于是

\[\cos (\mathbf{q}_1, \mathbf{r}) \ge \frac{\sigma_1 \mathbf{e}^T \mathbf{p}_1 }{\mathbf{r}_{\max} \sqrt{\zeta (2 \alpha)} }. \]
后续需要 bound $\sigma_1$ 和 $\mathbf{e}^T \mathbf{p}_1$, 需要更多的符号引入 (详情请回看原文).

相似度随着维度降低而增加

这个其实是比较显然, 因为维度降低总的能量降低了.

相似度随着训练的变化

随着训练进行, popularity bias 的影响是逐步降低的, 但是过低实际上会导致效果的下降, 这似乎说明了 popularity bias 的需要维持在一定程度, 过低或这过高都不太好.

ReSN: Regulartion with Spectral Norm

本文提出的方法是:

\[\mathcal{L}_{\text{ReSN}} = \mathcal{L}_R (\mathbf{Y}, \hat{\mathbf{Y}}) + \beta \|\hat{\mathbf{Y}}\|_2^2, \]
这里 $\|\cdot \|^2$ 是谱范数.
但是这个计算是复杂的, 因此用如下的替代

\[\frac{\beta }{\| \mathbf{VU}^T \mathbf{e} \|^2 } \| \mathbf{UV^TVU}^T \mathbf{e} \|^2. \]
相当于, 我们要求最后得到 score matrix 和流行度向量

\[\mathbf{V}\mathbf{U}^T \mathbf{e} \]
的匹配度不能太高 (根据证明, $\mathbf{V}\mathbf{U}^T \mathbf{e}$ 是比较接近 $\mathbf{q}_1$ 的).

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/887214.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

（文末有福利！）深度剖析大语言模型推理：指标、优化与框架选择

在人工智能飞速发展的当下，大语言模型（LLM）已然成为焦点。从智能聊天机器人到内容创作辅助，大语言模型的应用无处不在。但你是否了解其背后的推理过程，以及如何让这些模型运行得又快又好？今天，我们就来深入探讨大语言模型推理的奥秘。一、🌟大语言模型推理指标详解在…

Docker之网络模型

Docker的网络模型类型说明None 不为容器配置任何网络功能，没有网络 --net=noneContainer 与另一个运行中的容器共享Network Namespace，--net=container:containerID,k8s中Pod容器之间用此网络。Host 与主机共享Network Namespace，--net=hostBridge Docker设计的NAT网络模型…

初来园子

金易安装与使用说明金易介绍【金易】是交易外汇黄金的专项EA，只能用来交易黄金，做日内超短线的交易，是我们EA开发研究院研发多年的EA。金易由一位金融高校毕业有着超过十年外汇黄金实盘交易，黄金交易年入超十万美金的操盘高手指导完成，有着成熟的交易模型，也有完善的系…

太好了，IDE支持满血版DeepSeek了，我们有救了！

近期通义灵码能力再升级全新上线模型选择功能，目前已经支持 Qwen2.5、DeepSeek-V3 和 R1系列模型，用户可以在 VSCode 和 JetBrains 里搜索并下载最新通义灵码插件，在输入框里选择模型，即可轻松切换模型。你好呀，我是歪歪。今年 1 月，通义灵码 AI 程序员全面上线，同时支…

2.14

今天在Java Web开发中深入学习了如何进行Web应用的部署，这是将我们开发的成果转化为可运行的服务的关键步骤。首先，关于将项目打包成war文件（Web Application Archive），这不仅仅是简单的文件压缩。在打包过程中，要确保所有的依赖项都被正确地包含在内。例如，如果我们在…

可持续建筑设计的实践与挑战：筑梦绿色未来之路

在21世纪的建筑设计领域，可持续性不再只是理念的探讨，而是实践中的行动指南。在实际项目中推进可持续设计，既是机遇也是挑战。本文旨在深入剖析可持续建筑设计在实践中的具体应用及其面临的重重考验，共同探讨如何跨越障碍，迈向更加绿色的未来。实践之光：可持续设计的亮点…

swapoff -a # 临时禁用交换分区 sed -i / swap / s/^$.*$$/#\1/g /etc/fstab # 永久禁用 1.安装KubeKeyexport KKZONE=cn curl -sfL https://get-kk.kubesphere.io | VERSION=v3.0.7 bash - chmod +x kk2.安装包括socat、conntrack、ebtables、ipset 等依赖程序s…

建筑节能技术与材料的进展：迈向绿色建筑新时代

在应对全球气候变化和资源日益紧张的背景下，建筑节能已成为推动建筑业可持续发展的重要方向。本文将为您详细介绍当前最前沿的节能技术与材料，探索它们如何助力构建低碳环保的绿色建筑。 1. 智能玻璃与动态遮阳系统智能玻璃，如电致变色玻璃和热致变色玻璃，能够根据外部环境…

建筑与艺术的结合 —— 当空间遇见灵魂的诗篇

在历史的长河中，建筑与艺术如同两条并行又交织的河流，共同塑造着人类文明的风貌。本文将带您走进这一奇妙的领域，探讨建筑如何以其独特的语言，讲述故事，激发情感，以及如何在形式与功能的融合中绽放出艺术之光。 1. 建筑：凝固的音乐，立体的诗德国诗人歌德曾言：“建筑是…

java学习-5

异常 java把异常当作对象来处理，并定义一个基类java.lang.Throwable作为所有异常的超类在Java API中已经定义了许多异常类，这些异常类分为两大类，错误Error和异常ExceptionError和Exception的区别：Error通常是灾难性的致命错误，是程序无法控制和处理的，当出现这些异常时…

DeepSeek 在线使用开发服务

14:00-14:50上阿里云百炼：不用下载，话题1 上百炼，轻松调用稳定高限流的 DeepseekAPI 服务，驱动企业新跨越。话题2 上百炼，高效、灵活定制 Deepseek 专属智能体，点燃业务增长引擎14:50-15:20 云上解锁 DeepSeek 技能密码话题 DeepSeek 快速部署、训练、蒸馏全体验15:2…

SSH服务器“Failed to start OpenSSH Server daemon”

SSH服务器“Failed to start OpenSSH Server daemon” 在使用FinalShell连接Linux虚拟机的时候连接失败。以下是解决方法：先查看sshd(ssh服务)状态，发现SSH打开失败 systemctl status sshd.service查看具体的原因---远程连接的SSH没有获得用户和用户组的权限。 sshd -t顺序执…