CSDN 个性化推荐的数据治理

目录

  • 1. 背景
  • 2. 数据治理
    • 2.1 从内容层面提升数据质量
    • 2.2 从用户层面提升数据质量
    • 2.3 增加特定数据的曝光
    • 2.4 保证数据的正确性与实效性
  • 3. 总结


相关阅读

  • CSDN 个性化推荐系统的设计和演进
  • 如何支持研发对CSDN个性化推荐系统重构

1. 背景

CSDN 的个性化推荐流在主站中是一个很重要的模块,在过去半年多的时间里,AI 小组通过人工智能等相关技术,在原有数据召回源的基础上,根据用户的反馈以及内部的讨论和分析,不断优化个性化推荐流的数据质量,以达到推荐用户更感兴趣内容,提升用户阅读体验的目的。
在这里插入图片描述

个性化推荐流的数据源类型主要包括以下五类:博客、社区云帖子、问答提问、Blink 动态、直播,其中博客的占比最高。

数据源的召回在包含全站数据的数据仓库中使用 SQL 语句实现,并将召回的数据保存到业务库中进行混排与各种逻辑处理。以下是所有涉及到的数据源:

数据源召回数据源类型
热门blink召回Blink 动态
新用户冷启动白名单推荐池Blink 动态
用户关注推荐池内容召回Blink 动态
原力计划博客召回博客
协同过滤召回博客
用户个性化标签召回博客
新用户冷启动白名单推荐池博客
热数据博客
历史上的今天召回池博客
用户关注推荐池内容召回博客
用户搜索历史召回源博客
用户关注的社区云帖子社区云帖子
等你来答问答提问
正在直播的白名单召回源直播
用户关注直播召回直播

2. 数据治理

基于以上提到的召回源,我们进一步加入了一系列的限制,并且调整了召回逻辑,实现数据的治理,具体如下:

2.1 从内容层面提升数据质量

  • 过滤掉质量分小于等于 20 的博客 (质量分查询请点这里)。
  • 过滤掉标题党文章。例如:

阿里程序员写了一个新手都写不出的低级bug,被骂惨了。
见过仙女蹦迪吗?一起用python做个小仙女代码蹦迪视频
mybatis 缓存的使用,看这篇就够了
鬼知道我看了几遍!Java常用集合类总结
为了帮粉丝完成毕业设计,我发现了一款私活神器!!
该买哪家二手手机呢?程序员爬取京东告诉你!
家长叫我别天天我在房间没事多看看新闻,我说我马上写个爬虫爬新闻看!!!
华为员工离职心声:菊厂15年退休,感恩,让我实现了财务自由!
java扫雷游戏,触雷时学姐哭着扑向了你!
我要偷偷的学Python,然后惊呆所有人(第二天)

  • 过滤掉封面图违规的文章。

  • 去掉长度较短的 Blink 动态,去掉「已注销」用户的 Blink 动态。

  • 过滤掉软文,即去掉包含广告的文章,例如:
    在这里插入图片描述

  • 原力计划 的博客质量分要大于等于 80 分。原力计划作为官方活动,须保证其文章的高质量。

  • 过滤掉 毕业设计 相关的文章。毕业设计之类的文章,对于用户的参考性不大,大多是挂羊头卖狗肉。对于即将毕业正在写毕业设计的用户,建议去权威学术知识库检索已发表的论文进行参考。

  • 课程设计 相关的博客进行降权。理由同上,并且更希望学生用户更好利用 CSDN 平台,自主完成课程设计,提升自身的硬实力。

2.2 从用户层面提升数据质量

  • 引入用户黑名单机制,过滤掉 培训个人/机构账号 的文章,过滤掉 测试账号 发布的测试数据。
  • 引入用户灰名单机制,让运营对某些不合规用户对应的博客进行降权。
  • 过滤掉博客发布频率过高的用户对应的文章,此处假设高质量的博客需要花时间打磨。
  • 过滤禁言用户对应的数据。

2.3 增加特定数据的曝光

  • 提升带有红包的社区云帖子、博客、Blink 动态的权重,增加该类数据的曝光量。

2.4 保证数据的正确性与实效性

  • 确保个性化推荐召回源数据样本得分为升序,以保证后端混排的正确性。
  • 召回的所有博客数据都包含 统一标签+标题标签,并且能正确提取出时下最新的技术标签,保证负反馈机制的正确性。以前的数据只有部分博客包含标签,且无法提取最新的技术标签 (例如:ChatGPT)。
  • 保证数据的实效性,以前的召回源中包含冷启动数据,而这些冷启动数据是运营精选的,并且再也没有更新过,在现在看来就是旧数据。在当前其他召回源数据充足的情况下,暂时先去掉这类冷启动数据的召回源,后续考虑使用自动化的方式来挑选冷启动数据。
  • 过滤掉直播类型的社区云帖子,保证实效性。直播具有很强的实效性,而推荐流的更新频率大多以小时为单位,无法保证实效性,会导致推荐流中的直播已经结束的情况。

3. 总结

经过不断地迭代,推荐流数据在质量、正确性、实效性等方面得到了一定提升,但数据治理从来都不是一劳永逸的工作,随着时间的推移需要不断迭代与优化。此外,后续会进一步优化用户画像的效果,做到推荐用户真正感兴趣的高质量数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/3178.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

比较两个突出的node.js框架:koa和express

目录 一、Koa 和 Express 的介绍 二、Koa 和 Express 的区别 1.异步编程方式不同 2.错误处理方式不同 三、Koa 和 Express 的优缺点 1.Express 的优点 2.Express 的缺点 3.Koa 的优点 4.Koa 的缺点 总结 接上文讲述了 koa框架,这边文章比较一下这两个突出…

ASIC 数字设计:概述和开发流程

概述 集成电路是由硅晶圆(wafer)切割出来的芯片(die)组成的。每个晶圆可以切割出数百个芯片。 ASIC是指针对特定应用而设计的集成电路(Application Specific Integrated Circuit),与通用的存储器…

git merge和git rebase的区别

本文来说下git merge和git rebase的区别 文章目录 分支合并解决冲突git rebase和git merge的区别本文小结 分支合并 git merge是用来合并两个分支的。比如:将 b 分支合并到当前分支。同样git rebase b,也是把 b 分支合并到当前分支。他们的 「原理」如下…

信号链噪声分析15

文章目录 概要整体架构流程技术名词解释技术细节小结 概要 提示:这里可以添加技术概要 模数转换器(ADC)将模拟量——现实世界中绝大部分现象的特征——转换为数字语言, 以便用于信息处理、计算、数据传输和控制系统。数模转换器(DAC)则用于将发送或存 储…

Java单例模式

Java单例模式 1、概念2、代码实现方案饿汉式实现:懒汉式实现:饿汉式PK懒汉式: 3、单例模式的特点及适用场景优点:缺点:适用场景: 4、关于单例模式的常见问题4.1 public static SingletonOne getlnstance(){}A.该方法为什么用静态的…

lesson6 ZIgbee网络特性抓包分析

目录 ZIgbee网络特性抓包分析 理论部分: 实验部分: 入网前相关数据帧(仅单个设备供电): 首先以路由器和协调器为例:(帧的类别从头部的Type可以看到,在四大帧类别中根据不同作用也…

Java POI (2)—— Excel文件的上传与导出(实例演示)

一、单文件的上传功能 这里是一个demo的流程图,下面按照这个流程图做了一个简单的实现,有部分判断没有加上,实际操作中,可以根据自己的需求进行增加或者修改。并且此处还是在接受文件传入后将文件进行了下载,保存到本地…

分类预测 | MATLAB实现GA-LSTM遗传算法优化长短期记忆网络的数据多输入分类预测

分类预测 | MATLAB实现GA-LSTM遗传算法优化长短期记忆网络的数据多输入分类预测 目录 分类预测 | MATLAB实现GA-LSTM遗传算法优化长短期记忆网络的数据多输入分类预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 MATLAB实现GA-LSTM遗传算法优化长短期记忆网络的数据多…

douyin23.9 deviceid和iid设备注册分析

使用23.9版本进行注册(版本多少 其实没有那么重要) 老生常谈,老规矩注册接口device_register不能少吧,然后要检测设备app_alert_check吧,之后要发app_log日志包吧。 当然除了只有这些接口肯定是不行啦,加密…

蓝牙资讯|未来几年物联网迅猛发展,蓝牙发挥重要作用

IDC预测,2023年全球物联网(IoT)支出将达到8057亿美元,比2022年增长10.6%。物联网生态系统的投资预计将在2026年超过1万亿美元,在2023-2027年的预测期内,复合年增长率(CAGR)为10.4%。 到2023年,物联网服务将成为最大的…

【Java EE】-博客系统二(前后端分离)

作者:学Java的冬瓜 博客主页:☀冬瓜的主页🌙 专栏:【JavaEE】 分享: 徘徊着的 在路上的 你要走吗 易碎的 骄傲着 那也曾是我的模样 ——《平凡之路》 主要内容:显示用户信息、上传头像、新增博客、删除博客、修改博客…

Java HelloWorld

一、java命令 目录 一、java命令 二、Java HelloWorld 1.单个java文件 2.单个包多java文件 3.多个包 三、jar包 1.生成jar包 2.引用jar包 三、IntelliJ IDEAMaven HelloWorld 四、IntelliJ IDEAMavenspringboot HelloWorld javac:将.java文件编译成.clas…