作者简介:
腾讯算法研究员。硕士毕业于中国科学院大学。在阿里和腾讯工作多年,拥有丰富的搜索和推荐算法经验。CSDN博客专家,原创文章100篇。发表专利15个,其中已授权6个。
系列文章,欢迎关注
精通推荐算法1:为什么需要推荐系统(系列文章,建议收藏)
精通推荐算法2:推荐系统分类(面试必备)
推荐算法架构6:数据样本(面试必备)
推荐算法架构7:特征工程(吊打面试官,史上最全!)
1 概述
当前各大平台基本都有自己的推荐系统,它已经深入到电商、社交、资讯、电影和音乐等各行各业。囊括了纯文本、图文、长短视频和直播等多种不同的内容介质,并产生了单列信息流、双列信息流和沉浸式等多种交互形态。另外,它可以使用在首页、垂直类目和相关推荐等场景。
2 业务领域分类
按所处业务领域,推荐系统有电商、内容和社交等方向。其中电商有综合电商、垂直电商、酒旅和外卖等不同领域,它们通常与支付有一定关联。内容有新闻、资讯、电影、短视频、问答和音乐等不同方向,它们满足人们日常获取信息的需求。社交则有熟人社交、陌生人社交、职场社交和各种兴趣社区等,它们是连接不同人的纽带。
不同业务领域的用户心智和使用习惯不同,导致推荐系统也会有些差别。电商处于消费链的末端,用户通常带有一定的实际需求。同时由于其通常需要付费,导致用户决策成本和转化成本较高。因此搜索系统在电商业务中同样十分重要,通常是与推荐系统并驾齐驱。另外,用户的复购行为在电商场景中很常见,甚至很多用户直接从历史订单中购买商品。最后,作为电商业务生产端的商家,其门槛通常较高,需要有营业执照等证件。
内容则处于消费链的上游,用户很多时候没有目的性,其决策成本通常也较低,因此更加依赖推荐系统。大多数时候,用户对浏览过的内容不会再有兴趣,故需要在推荐系统中做曝光过滤。另外,内容创作者比电商商家的门槛要低很多,其规模更大,因此也更容易良莠不齐。最后,对于新闻等内容场景,其实时性要求比较高,也对推荐系统提出了较大挑战。
3 内容介质分类
按内容介质,推荐系统包括了纯文本、图文、短视频、长视频和直播等多种不同形态。不同介质代表了不同的生产难度,其中纯文本最容易,而长视频和直播则较难。生产难度的高低,进一步导致内容规模和创作者数量的差异。例如影视综为核心的长视频平台,其内容供给数量明显少于短视频等其他平台。这反应在推荐系统上,便是内容底池的规模大小。
另外,不同介质给用户的信息密度和视听体验也不同。图片能带来较强的视觉冲击力,视频能让人身心更加放松,而直播则带来了更好的交互能力。这会对推荐系统中物品的点击率和转化率等有一定影响。
4 交互形态分类
按交互形态,推荐系统包括了单列、双列、多列和沉浸式等不同方式。不同交互形态,会带来物品信息量和曝光密度的差异。通常,多列形态下单个物品的展示信息最少,但曝光的物品数最多,而沉浸式则正好相反。这会对推荐系统中,精排等模块的数据样本有一定影响。
另外,不同交互形态下的用户注意力和用户体验也会不同。例如双列和多列形态下,用户如果没有点击,则可能是注意力被其他物品吸引了。相反沉浸式场景下,用户负反馈的置信度则要更高。
最后,沉浸式有一点特殊之处,其曝光和转化是一体的,不需要点击则可实现播放。而单列、双列和多列等方式下,通常需要在信息流页面点击感兴趣的物品,然后跳转到详情页观看,最后再回退到信息流页面浏览其他物品。它们需要经历曝光、点击和转化等步骤。这会导致推荐系统的建模方式有一定差异。如图1所示,为推荐系统在京东APP中的不同交互形态。
图1 京东APP的单列、双列、多列和沉浸式交互形态
5 应用场景分类
按应用场景,推荐系统可以包括首页、垂直类目页和相关推荐等不同场景。首页流量最大,通常是一个综合推荐场景,各种不同物品竞争其流量。垂直类目则通常只推荐对应类目下的物品,例如数码、男装和食品等。而相关推荐则通常需要推荐与当前物品有一定关联性的其他物品。
三者在建模方式下有一定区别。首页通常最复杂,需要考虑各种业务目标和规则策略。其推荐池通常最大,数据样本最丰富。垂直类目页可以单独建模,但为了维护方便,也可以基于多领域学习,与首页联合建模。相关推荐则需要以当前物品为核心,推荐与之相关的其他物品,通常相关性可以由强到弱。如图2所示,为推荐系统在京东APP中的不同应用场景。
图2 京东APP的首页推荐、垂直类目和相关推荐
6 总结
搜索、推荐和广告是绝大多数互联网公司的核心业务,其地位不言而喻。从事这个方向的工程师是十分幸运的。同时,搜索、推荐和广告三大方向一脉相承,其复用性很高,基本掌握一个方向,其他另外两个方向也能得心应手。本文是《精通推荐算法》系列文章的第一篇,后续会连载更多内容。包括召回、粗排、精排和重排的知识体系、当前重难点、如何优化,以及业界的经典模型等。干货多多,强烈建议关注和收藏。
系列文章,欢迎关注
精通推荐算法1:为什么需要推荐系统(系列文章,建议收藏)
精通推荐算法2:推荐系统分类(面试必备)
推荐算法架构1:召回
推荐算法架构2:粗排
推荐算法架构3:精排
推荐算法架构4:重排
推荐算法架构5:全链路专项优化
推荐算法架构6:数据样本(面试必备)
推荐算法架构7:特征工程(吊打面试官,史上最全!)