快手HoME多任务论文

news/2025/1/22 12:04:09/文章来源:https://www.cnblogs.com/xumaomao/p/18685545

论文链接:HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou

背景

论文指出现在的MMOE/PLE模型存在以下几个问题:

1. 专家崩溃:专家的输出分布存在显着差异,并且一些专家使用 ReLU 的零激活率超过 90%,使得门网络很难分配公平的权重来平衡专家

2. 专家退化:一些共享专家只被一项任务占据,这表明共享专家失去了他们的能力,而是退化为一些特定专家

3. 专家欠拟合(针对特定专家):在我们的服务中,我们有数十个行为任务需要预测,但我们发现一些数据稀疏的预测任务往往会忽略其特定专家,并为共享专家分配较大的权重。原因可能是共享专家可以从密集任务中感知更多的梯度更新和知识,而特定专家由于其稀疏行为很容易陷入欠拟合。

 

技术方案

Expert归一化和Swish机制

作者研究发现,造成专家崩溃的本质原因是因为不同专家输出尺度差异过大,为了解决问题,论文采用了在专家层之后加BN层,并把激活函数替换成Swish激活函数:

对比一下BN + Swish 和直接用Dice的区别:

BN+Swish:f(s) = BN(s) * sigmoid(BN(s))

Dice:f(s) = s * p(s) = s * sigmoid(BN(s)) + αs * (1 - sigmoid(BN(s)))

 

层次掩码机制

针对一些共享Expert退化成只起到私有Expert作用的情况, 作者提出基于任务相关性的先验知识来缓解这一问题,以快手短视频推荐为例, 预测任务可以大体分成两类:

  • 被动观看的时长类任务: 如完播、长播、快划等
  • 主动交互的互动类任务: 如点赞、评论、收藏等

更加这个划分,作者把模型分为两层:

第一层学习更粗粒度的表示,别提取:(1)时长子类别内共享知识;(2)全局共享知识; (3)互动子类目内共享知识

第二层在第一层粗粒度表示基础上,进行正常的多任务预测,以点击率和有效播放两个目标为例, 第2阶段的过程描述如下: 

Feature-gate与Self-gate机制

对于数据稀疏任务存在的Expert欠拟合的问题, 作者提出了两种门控机制来确保这些任务能够获得适当的梯度以最大化其有效性。

Feature-gate机制

对于feature-gate,其目的是为不同的任务专家生成不同的输入特征表示,以缓解所有专家共享相同的输入特征时的潜在梯度冲突 

Self-gate机制

除了专家输入层面引入feature-gate,作者还在级联层次的各专家输出层面(包含第一层和第二层)添加了一个基于残差思想的self-gate, 比如下图所示的第二层级中, 红圈的I就表示self-gate。self-gaet是用于确保顶层梯度可以有效地传递到底层, 并只关注其特定专家的输出。

 

参考资料

快手HoME: 推荐系统多任务学习MoE机制的里程碑式改进

快手HOME——PLE的进一步升级

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/873197.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 笔记

目录Linux 目录结构Linux 目录与 Windows 目录对比Windows 目录结构Linux 目录结构Linux 世界里---一切皆文件Linux 目录结构详解/bin/sbin/home/root/boot/lib/etc/usr/proc, 别动/srv, 别动/sys, 别动/tmp/dev/media/mnt/opt/usr/local/var/selinux常用快捷键案例常用命令开机…

Prometheus+Grafana 监控搭建

Prometheus+Grafana 监控搭建 Prometheus 是使用 Golang 开发的,安装和运行都非常简单,只需直接运行可执行文件即可。个人认为,只要理解了 Prometheus 的架构图,整体概念就会变得非常清晰。 Prometheus 做的挺成熟,使用非常简单,主要是想自己记录一下,方便后续记忆。 1、…

【防火墙】防火墙监控没做好,断网2小时准备提桶跑路

防火墙告警:该业务CPU负荷过多(81>= 80) ,发现吞吐量超过设备性能阈值,导致网络特别卡,客户端体现就是偶尔网络中断。 之前有篇文章是针对华三的防火墙指标数据采集做了介绍说明,可点击这里查看 网络监控:华三防火墙监控 这篇文章了解,在防火墙可观测性领域目前案例分…

nRF21540—低功耗蓝牙,蓝牙mesh、Thread和Zigbee和2.4 GHz私有协议范围扩展射频前端模块

nRF21540是一款射频前端模块(FEM),可用于改善短距离无线产品的传输范围和连接鲁棒性。作为一款辅助性设备,nRF21540是一种“即插即用型”的无线传输范围扩展器,可与nRF52和nRF53系列的高级多协议无线SoC搭配使用,所需的外部器件数量非常少。 nRF21540的+13dB RX增益和低…

Transformer 学习与解读

LLM学习笔记 注意力机制 sequence to sequence (seq2seq)输入N个向量,输出任意可能数量的向量(由机器决定);如果输出N个向量的任务就叫做Sequence Labeling 李沐课程讲义:https://zh-v2.d2l.ai/chapter_attention-mechanisms/self-attention-and-positional-encoding.ht…

JDK中的可视化故障处理工具

JDK提供了几个功能集成度更高的可视化工具,我们可以使用这些可视化工具以更加便捷的方式进行进程故障诊断和调试工作。 今天就简单介绍一些JDK中的可视化故障处理工具。 JHSDB:基于服务性代理的调试工具 在说JHSDB之前,先来了解一下JCMD和JHSDB这两个集成式的多功能工具箱,…

ExKMP Z函数

讲解Z函数(ExKMP),附模板及例题更新日志 20250122:开工。思路 我们定义 \(z_i\) 表示从 \(i\) 开始的后缀与整个字符串的最长公共前缀长度。 考虑它的作用,假如我们要字符串匹配,将模式串接在前面并以特殊字符分隔,然后 \(O(n)\) 遍历原串,当 \(z_i=|T|\)(\(T\) 为模式…

【资产梳理】 攻击面资产梳理可视化工具

免责声明: ⽂中所涉及的技术、思路和⼯具仅供以安全为⽬的的学习交流使⽤,任何⼈不得将其⽤于⾮法⽤途以及盈利等⽬的,否则后果⾃⾏承担。所有渗透都需获取授权!确定攻击面对于防御和进攻网络安全团队都至关重要。毫无疑问,可视化映射比简单的列表更有效。专家可以快速掌握…

OpenWRT24.10旁路由挂载USB移动硬盘,配置Samba4,作为NAS使用,解决中文不显示,乱码,解决断电重启后挂载失败问题

1. 为何选择OpenWRT 24.10,及如何配置旁路由,或者IPv6地址 看这篇:参OpenWRT24.10配置作为旁路由,并配置获取IPv4和IPv6地址 使用的OpenWRT固件是从这里下载的:https://openwrt.ai/ 2.挂载大容量USB移动硬盘 2.1 安装必备插件 kmod-fs-ntfs3 kmod-fs-ext4 kmod-fs-exfat…

如何迅速并识别处理MDL锁阻塞问题

TaurusDB推出MDL锁视图功能,帮助用户迅速识别并处理MDL锁阻塞问题,从而有效减少对业务的负面影响,提升数据库管理效率。摘要:TaurusDB推出MDL锁视图功能,帮助用户迅速识别并处理MDL锁阻塞问题,从而有效减少对业务的负面影响,提升数据库管理效率。本文分享自华为云社区《…

运维职业要求

摘抄知乎@Hi峰兄运维技能导图量化自己的技能深度 级别 水平 0   啥都不懂 1   理解基本概念,应用场景 2   基本的安装,配置,使用,常用配置修改,定位基本问题 3 根据实际情况定位、优化服务,了解服务核心模块运行机制,熟悉服务的各种使用方法 4 深…

关于RNN (循环神经网络)相邻采样为什么在每次迭代之前都需要将参数detach

转自:https://www.cnblogs.com/catnofishing/p/13287322.htmldetach到底有什么作用呢 首先要明确一个意识:pytorch是动态计算图,每次backward后,本次计算图自动销毁,但是计算图中的节点都还保留。 ​ 方向传播直到叶子节点为止,否者一直传播,直到找到叶子节点 我的答案是…