机器学习28：《推荐系统-I》概述

news/2024/11/20 8:46:20/文章来源:https://blog.csdn.net/Jin_Kwok/article/details/131593071

在互联网领域，推荐系统（Recommendation Systems）的应用非常广泛。在音视频方面，如抖音、快手、哔哩等；在电商平台方面，如京东、淘宝、拼多多等。推荐有助于帮助用户快速发现潜在感兴趣的内容（音视频、商品、新闻等信息流），从而提升用户体验，同时有助于提升商业效率。

从本文开始，笔者将结合自身在信息流推荐领域的经验，通过系列文章对推荐系统展开介绍。

目录

1.什么是推荐？

1.1 首页推荐

2.为什么推荐？

3.基本术语

3.1 Item

3.2 Query

3.3 Embedding

3.4 推荐场景中哪些数据可以采用 Embedding 来构造特征呢？

3.4.1 User 数据

3.4.2 Item 数据

3.4.3 额外数据

4.推荐系统架构

4.1 候选 Item 池

4.2 打分

4.3 重排

5.候选 Item 池

5.1 嵌入空间

5.2 相似性计算

5.2.1 余弦

5.2.2 点积

5.2.3 欧氏距离

5.3 召回

6.参考文献

1.什么是推荐？

当你进入淘宝、京东等电商平台APP时，你可能会发现，展示的商品大都是自己感兴趣的。当你进入抖音、快手、哔哩等音视频APP时，你会发现很多音视频也是自己感兴趣的。不必惊讶，这其实就是推荐——更准确地说，是信息流推荐——即通过机器学习的推荐模型，从海量的商品、视频、新闻中寻找出用户潜在感兴趣的内容。常用的推荐有两种：

首页推荐——home page recommendations
相关Item推荐——related item recommendations

注意：Item 一词直接翻译为“项目”并不合适，在信息流推荐领域，Item 指一条新闻、一则广告、一个商品、一首歌曲、一个权益等等。Item 可以理解为被一条被推荐的内容。

1.1 首页推荐

首页推荐是根据用户的已知兴趣向用户个性化推荐。每个用户都会看到不同的推荐——俗称“千人千面”。你可以尝试访问淘宝、京东等 APP，和身边的朋友对比一下，你会发现，你们看到的内容是不一样的。

顾名思义，相关 Item 推荐是指推荐与特定 Item 相似 Item。在 Google Play 应用程序示例中，查看数学应用程序页面的用户还可能会看到相关应用程序的面板，例如其他数学或科学应用程序。

2.为什么推荐？

推荐系统可以帮助用户在大型语料库中快速找到感性却的内容。例如，Google Play 商店提供数百万个应用程序，而 YouTube 提供数十亿个视频。每天都会新增更多应用程序和视频。用户如何找到新颖且感兴趣的内容呢？

一种朴素的观点，人们可以使用搜索来寻找、访问内容。然而，这并不高效，因为用户可能并不了解自己对哪些内容感兴趣，即便知道，也可能不清楚使用哪些关键词来搜索。相较之下，推荐引擎可以为用户推荐一些用户自身 “未曾想到但感兴趣” 的 Item。

你可知道？

Google Play 上 40% 的应用安装来自推荐。
YouTube 上 60% 的观看时间来自推荐。

3.基本术语

为了便于理解后面的系列文章，我们先 “统一语言”——即定义一些术语，基于这些术语交流，可以减少歧义：

3.1 Item

直译为：项目，内涵为系统推荐的实体（如视频、商品、新闻、酒店等等），也称为项目，在不同场景下，Item 的内涵也有差异。对于 Google Play 商店，Item 是要安装的应用程序；对于 YouTube，Item 是视频。

3.2 Query

也称为上下文-Context，推荐系统需要根据 Query 来计算并返回建议（推荐）的 Item。Query 可以是以下各项的组合：

用户信息
- 用户的 ID
- 用户之前交互过的 Item
- 用户的地理位置、年龄、学历、收入等
补充信息（也称为额外信息）
- 一天中的时间
- 用户的设备类型和 ID

3.3 Embedding

即嵌入，在《机器学习20：嵌入-Embeddings》一文中有详细的介绍。嵌入是指从离散集（在本例中为 Query 集或要推荐的 Item 集）到称为嵌入空间的向量空间的映射。许多推荐系统依赖于学习 Query 和 Item 的适当嵌入表示—— Query 和 Item 的合适嵌入，将有助于推荐。

在提到 Embedding 时，首先想到的是“向量化”，主要作用是将 高维稀疏向量 转化为 低维稠密向量，从而方便下游模型处理。换一种说法，Embedding 是用一个 低维稠密向量 来表示一个对象，使得这个向量能够表达相应对象的某些特征，同时向量之间的距离能反映对象之间的相似性。

还有一种定义：Embedding 是将一个实例（instance）从复杂的空间嵌入（投射）到相对简单的空间，以便对原始实例进行理解，或者在相对简单的空间中进行后续操作。

3.4 推荐场景中哪些数据可以采用 Embedding 来构造特征呢？

下面简单列了笔者在 游戏和信息流推荐 时主要采用 Embedding 技术来处理的数据。

3.4.1 User 数据

典型如：用户的基础属性数据，如性别、年龄、关系链、兴趣偏好等。

对于用户兴趣偏好，一般简单地采用文本 Embedding 方法来得到各标签的 Embedding 向量，然后根据用户对这个标签的偏好程度做向量加权；
对于关系链数据（如同玩好友、游戏中心相互关注等），构造用户关系图，然后采用基于图的 embedding 方法来得到用户的 Embedding 向量；

3.4.2 Item 数据

Item 基本信息数据，如标题、作者、游戏简介、标签等。

对于文本、简介和标签等可以采用基于文本的 Embedding 方法来在已有语料上预训练模型，然后得到对应的 Embedding 向量（如 word2vec 或者 BERT）；
此外对于有明确关系的（如 item->文本->标签 or 关键词）可以采用对关键词/标签的向量均值来表示 item 的文本向量；
针对用户对 Item 的操作（如点击、互动、下载）构造：用户->item+Item 标签体系，构造用户-item-tag 的异构网络，然后可以采用 Metapath2vec 来得到各节点的 Embedding 向量；
通过记录用户在整个场景访问 item，构造 Item-Item 关系图，然后采用 DeepWalk 算法得到 item 的向量，用来挖掘 Item 间的关系特征；

3.4.3 额外数据

外部扩充数据，如用户游戏行为、用户微信其他场景活跃等。

标签型，主要是用户在各场景的兴趣偏好；
关系链型（如游戏中心好友、游戏内好友、开黑好友）可以采用用户关系构造用户关系图，采用 Graph Embedding 方法（如 GraphSAGE）来表示用户抽象特征。

4.推荐系统架构

推荐系统的常见架构如下图所示，包括四个组件（复杂的推荐系统包括召回、粗排、精排、重排，会更加复杂）。

物料库：包括所有 Item 和 User 的特征数据
召回：即采用简单模型从海量物料库中选择部分用户可能感兴趣的 Item
精排：即通过复杂模型对 Item 进行打分，进而排序
重排：给用户推荐的 Item 也不能完全是用户潜在感兴趣的，需要考虑多样性、时效性等

4.1 候选 Item 池

在第一阶段，系统从一个潜在的巨大物料库开始，通过【召回】生成一个小得多的候选子集。例如，YouTube 中的候选生成器将数十亿个视频减少到数百或数千个。鉴于语料库规模巨大，该模型需要快速评估查询。给定的模型可以提供多个候选生成器，每个生成器指定不同的候选子集。

4.2 打分

在复杂的推荐系统中，打分通常包括两个部分：【粗排打分】+【精排打分】。本质上都是通过模型对候选 Item 进行评分和排序，以便选择要向用户展示的 Item 集（信息流推荐大多数是分页的，每页大约 10 个，因此每次打分后，取 TOP N 即可）。由于该模型评估相对较小的 Item 子集，因此系统可以使用依赖于附加查询的更精确的模型。

4.3 重排

最后，系统必须考虑最终排名的附加约束。例如，系统删除用户明确不喜欢的项目或提高较新鲜内容的分数。重新排名还有助于确保多样性、新鲜度和公平性。

5.候选 Item 池

如何获取候选 Item 池呢？作为推荐的第一阶段，本质是一个【召回】过程。给定一个 Query，系统会生成一组相关的候选 Item。如下表所示，为两种常见的候选池生成方法。

类型	定义	例子
基于内容的过滤	利用 Item 之间的相似性，来推荐与用户喜欢的 Item 相似的 Item	如果用户 A 观看了两个可爱的猫咪视频，那么系统可以向该用户推荐可爱的动物视频。
协同过滤	同时使用 Query 和 Item 之间的相似性来提供建议。	如果用户A与用户B相似，并且用户B喜欢视频1，则系统可以向用户A推荐视频1（即使用户A没有看过任何与视频1类似的视频）。

5.1 嵌入空间

基于内容的过滤和协作过滤都将每个 Item 和每个 Query（或上下文）映射到公共嵌入空间中的嵌入向量 $E = \mathbb R^d$ 。通常，嵌入空间是低维的（即 $d$ 比物料库的大小小得多），并捕获 Item 或 Query 集的一些潜在结构。类似的 Item（例如由同一用户观看的 YouTube 视频）最终会在嵌入空间中紧密结合在一起。“接近度” 的概念是通过相似性度量来定义的。

额外资源： projector.tensorflow.org是一个用于可视化嵌入的交互式工具。

5.2 相似性计算

相似性度量是一个函数 $s : E \times E \to \mathbb R$ 它接受一对嵌入并返回一个测量它们相似度的标量。嵌入可用于候选池生成（即召回，也称为【向量召回】）。如下所示：给定查询嵌入： $q \in E$ ，系统寻找那些接近于 $q$ 的 Item 的嵌入 $x \in E$ ，即相似度高的嵌入 $s(q, x)$ 。

为了计算相似度，大多数推荐系统依赖于以下一项或多项：

余弦
点积
欧氏距离

5.2.1 余弦

即计算两个向量之间角度的余弦， $s(q, x) = \cos(q, x)$ ，两个向量越接近，余弦值越大，夹角为 90 度（垂直），则结果为 0，即可认为相似度最低。

5.2.2 点积

两个向量的点积为 $s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i$ 。也可用 $s(q, x) = \|x\| \|q\| \cos(q, x)$ （角度的余弦乘以范数的乘积）。因此，如果嵌入被规范化（归一化），则点积和余弦重合。

5.2.3 欧氏距离

欧几里得空间中的距离。距离越小意味着相似度越高。请注意，当嵌入规范化（归一化）时，平方欧几里德距离与点积（和余弦）一致，直到达到一个常数，因为在这种情况下。 $s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}$

5.3 召回

基于 Embedding 和相似度计算，我们就可以从海量的物料库中寻找到那些用户可能感兴趣的 Item，即基于相似度计算结果取出 TOP N。这一过程，在很多推荐场景中被称为【召回】。

6.参考文献

1-https://developers.google.cn/machine-learning/recommendation/overview

2-https://www.163.com/dy/article/FROC0ILQ0518R7MO.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/18297.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

设计模式之二：观察者模式

设计模式之二：观察者模式

假定我们需要为Weather-O-Rama公司建立一个气象站系统，除已有的WeatherData有数据源类，还需要更新三个布告板的显示：目前状况（温度、湿度、气压）、气象统计和天气预报。 1 以下是一个可能的实现 class WeatherData { …

阅读更多...

C++类相关概念

C++类相关概念

1. 函数形参默认值 （1） 建议函数（不仅仅是构造函数）形参默认值只在函数声明中指定； （函数声明和定义写在同一个文件中，则函数声明、定义两者之一或两者都可指定形参默认值，两者都指…

阅读更多...

云原生监控——VictoriaMetrics

云原生监控——VictoriaMetrics

1.简介 VictoriaMetrics是一个快速高效且可扩展的监控解决方案和时序数据库，可以作为Prometheus的长期远端存储，具备的特性有： 支持prometheus查询api，同时实现了一个metricsql 查询语言支持全局查询视图，支持多prom…

阅读更多...

在OK3588的Ubuntu系统上安装Firefox浏览器

在OK3588的Ubuntu系统上安装Firefox浏览器

文章目录概要配置上网环境安装的具体命令概要因为Ubuntu系统里面没有安装浏览器，为了方便使用，提高工作效率，我们安装一下Firefox浏览器。 Firefox是一款适用于Ubuntu系统的免费和开源的Web浏览器。由Mozilla Foundation和其子公司Mozil…

阅读更多...

生成图片验证码-Google Kaptcha

生成图片验证码-Google Kaptcha

CaptchaImage生成验证码图片 captchaProducerMath.createText() 类似 captchaProducer.createText() 混合带字符的char如下从若依学的，先看他的引用方式 package com.ruoyi.web.controller.common;import java.awt.image.BufferedImage; import java.io.IOExcept…

阅读更多...

【数据仓库】BI看板DataEase入坑指南

【数据仓库】BI看板DataEase入坑指南

开头夸夸国产开源BI软件DataEase，支持常见各种报表，还支持图表联动和上下级钻取，超赞有木有！！！ 再来为什么说入坑，源码启动各种不服啊。本地用的maven3.5一直导入不了Java项目backend。后来看了…

阅读更多...

React-Native学习，RN的容器Flex-Box布局

React-Native学习，RN的容器Flex-Box布局

justify-content（在RN中属性名称为：justifyContent）在主轴上对齐方式 align-items（在RN中属性名称为：alignItems）在交叉轴上的对齐方式在React Native中，当没有设置容器的主轴方向时&#xf…

阅读更多...

觉非科技李东旻：智能驾驶向大模型的进化与感知决策新范式的诞生

觉非科技李东旻：智能驾驶向大模型的进化与感知决策新范式的诞生

由亿欧汽车主办“AI与新一代车载智能感知融合创新论坛”近日登陆2023世界人工智能大会（WAIC）。觉非科技CEO李东旻受邀发表了“智能驾驶向大模型的进化与感知决策新范式的诞生”主题演讲，从产业趋势结合技术发展特点以及在感知决策中的能力应用…

阅读更多...

【安卓12源码】WMS的作用及其启动流程

【安卓12源码】WMS的作用及其启动流程

一、WMS 的作用 WMS 在 Android 系统的地位，它作为中间层，连接了上层的 View 框架和下层的 SurfaceFingler。 WMS 主要职责窗口管理：负责启动、添加、删除窗口，管理窗口大小、层级，核心成员有：WindowCont…

阅读更多...

Java的Hibernate框架中集合类数据结构的映射编写教程

Java的Hibernate框架中集合类数据结构的映射编写教程

Java的Hibernate框架中集合类数据结构的映射编写教程一、集合映射 1.集合小介集合映射也是基本的映射，但在开发过程中不会经常用到，所以不需要深刻了解，只需要理解基本的使用方法即可，等在开发过程中遇到了这种问题时能够查询…

阅读更多...

elementui自定义loading图标

elementui自定义loading图标

效果图如下： 一、在assets下新建一个mycss.css文件夹（图片大小以及文字样式，可以根据自己的需求进行微调） .el-loading-spinner {/*这个是自己想设置的 gif 加载动图*/background-image: url(../gif2.gif); background-repeat: n…

阅读更多...

redis的分布式事务-redisson

redis的分布式事务-redisson

一 redisson 1.1 redisson分布式事务 Redisson分布式锁是一种基于redis实现的分布式锁，它利用redis的setnx命令实现分布式锁的互斥访问。同时还支持锁的自动续期功能，可以避免因为某个进程崩溃或者网络故障导致锁无法释放的情况。只要线程一加锁成功…

阅读更多...

推荐文章

最新文章