B 站评论系统架构设计难点

在这里插入图片描述

更多大厂面试内容可见 -> http://11come.cn

B 站评论系统架构设计难点

这里整理一下在哔哩哔哩技术公众号看到的 B 站评论系统的架构设计文章,自己在学习过程中,对其中感觉比较有帮助的点做一下整理,方便以后查阅,详细版可以点击上方原文链接查看(文中图片均来源于原文)

架构设计

图片来源于原文

在评论业务中,最为核心的功能是 发布类接口列表类接口 ,数据字段多、依赖服务多、调用关系复杂,因此容易造成系统腐化

接口解耦

这里在设计的时候,将整个业务数据的查询分为了两个步骤:服务编排、数据组装

举个例子:在批量查询评论发布人的粉丝勋章数据之后,将其转换、组装到各个评论卡片中

如果不采用这样的方式,而是在查询评论卡片时,再去查询该评论发布人的粉丝勋章数据,那么会导致【查询评论】和【查询发布人粉丝勋章数据】这两个接口耦合度过高的情况,一旦【查询粉丝勋章数据】接口出现了不可用,会导致【查询评论】功能也会不可用

因此先【查询粉丝勋章数据】,再将数据拼接到评论卡片中,降低两个接口的耦合度,将两个接口之间的强依赖关系变为弱依赖关系,并且可以针对两个接口做 不同的降级、限流、超时控制

基础服务 reply-service

图片来源于原文

评论基础服务层(reply-service)专注于评论功能的原子化实现,也是最小粒度的功能,如查询评论、删除评论等功能

该层的接口是需要被其他业务层进行大量调用与业务逻辑组合,因此该层的接口需要保证较高的 可用性和性能

因此会集成 多级缓存、热点探测、布隆过滤器 等性能优化手段

异步处理 reply-job

图片来源于原文

异步处理层 reply-job 主要作用就是为评论基础功能做一些架构上的补充

缓存更新

缓存更新经常采用的 缓存旁路模式(Cache Aside) ,即先读缓存,再读 DB,之后进行缓存的重建

存在的问题: 部分缓存数据重建代价较高,比如评论列表(评论列表是分页的,重建时会预加载,加载多页的数据),那么如果短时间内大量请求未命中,就会导致 DB 瞬时压力过大,造成 DB 抖动

解决方案: 采用消息队列,保证对单个评论列表,只重建一次缓存

reply-job 的另外一个作用:作为数据库 bin log 的消费者,执行缓存的更新操作

削峰/异步化处理

reply-job 还负责与 reply-interface 协同,为一些长耗时/高吞吐的调用进行 异步化/削峰 处理

比如:评论发布功能 ,在发布之前,基于安全/策略考量,会有很多前置调用逻辑,导致耗时很长

因此 reply-interface 在处理完一些必要校验逻辑之后,再通过 消息队列 送至 reply-job 进行异步处理,包括送审、写 DB、发通知等

这里需要保证单个评论区内的发布评论 串行 处理,如果并行处理可能会出现一些数据错乱的风险,因此为了保证串行处理就利用到了 消息队列的有序性

存储设计

数据库设计

评论功能主要是三张表:评论表+评论区表+评论内容表

因为评论内容的大字段,相对独立,很少修改,因此独立设计成一张表(评论内容表)

数据库选型:

刚开始使用 MySQL 分表来实现评论功能,但是很快达到存储瓶颈,从 2020 年起,逐步迁移到 TiDB,从而具备了水平扩容能力

缓存设计

缓存选用 Redis ,主要缓存的信息:

1、评论区的基础信息(redis string 类型,value 使用 JSON 序列化存入)

2、查询 xxx 的评论列表(redis sorted set 类型,member 为评论 id,score 对应 order by 字段)

3、查询 xxx 的评论基础信息(redis)

缓存的一致性依赖于 binlog 刷新,有以下几处关键细节:

1、binlog 投递到消息队列,需要保证单个评论区以及单个评论更新的 串行化 (分片 key 选择评论区)

2、数据库更新后,采用删除缓存而非直接更新的方式,避免并发写时的数据错乱

此时会存在大量写操作后, 读操作缓存命中率低的问题 ,利用 singleflight 进行控制,防止 缓存击穿

(singleflight 是一种编程模式,用来防止在高并发环境下对于同一资源的重复请求,尤其适用于处理缓存击穿问题。缓存击穿指的是当缓存失效的瞬间,由于并发请求同一数据,导致大量请求直接落到数据库上,从而可能引起数据库的性能问题)

可用性设计

写热点和读热点

上边有大量的评论区维度的串行操作,导致 发布评论 吞吐量较低,出现热点文章下发布大量评论,就会出现严重延迟

针对吞吐量低的问题,做出如下优化:

1、评论区评论计数的更新:在内存中先合并再更新,减少热点场景下的 SQL 执行次数,评论表的插入也改为批量插入 (合并是很常见的优化,对于一些实时性要求不强的场景,会将多条数据合并,比如达到几秒合并一次,或者达到多少条数据合并一次,之后通过一次 SQL 完成插入)

2、非数据库写操作的其他业务逻辑,将这些逻辑从【数据写入主线程】中剥离,交给其他线程并发执行

经过上述优化,热点评论区发布评论 TPS 提升了 10 倍以上

图片来源于原文

接下来说一下 读热点问题 中的典型特征:

1、由于大量接口都需要读取评论区基础信息,存在读放大(在读取数据时,需要关联的读取其他大量数据即为读放大),因此该操作是最先感知到读热点存在的

2、评论业务下游依赖较多,因此对下游来说也是读放大,很多下游依赖是体量相对小的业务单元,难以承载大流量

3、读热点集中在评论列表的第一页,以及热评

4、评论列表的业务数据模型也包含部分个性化信息

基于以上特征, 读热点探测 放在【读取评论区基础信息】阶段进行,探测到热点之后,在本地缓存中进行热点数据的读取

image-20240507221540605

热点探测 的实现基于单机的滑动窗口+LFU,那么如何定义、计算相应的热点条件阈值呢?

首先,我们进行系统容量设计,列出容量计算的数学公式,主要包括各接口QPS的关系、服务集群总QPS与节点数的关系、接口QPS与CPU/网络吞吐的关系等;然后,收集系统内部以及相应依赖方的一些的热点相关统计信息,通过前面列出的公式,计算出探测数据项的单机QPS热点阈值。最后通过热点压测,来验证相应的热点配置与代码实现是符合预期的。

扩展:LFU 和 LRU(Least Recently Used) 的区别:

LRU :LRU是另一种流行的缓存替换策略,它基于数据项的最近访问时间进行缓存管理,最近最少访问的数据项将被首先替换。这种策略假设最近使用过的数据将来很可能再次被使用。

LFU :与LRU基于时间的策略不同,LFU更关注数据项的访问频率。理论上,LFU能更好地识别并保留那些即使不是最近使用但访问频率高的长期热点数据。

冗余与降级

冗余与降级是保证可用性必不可少的手段

上边的评论基础服务集成了 多级缓存 ,那么在上一级缓存不可用时,要求可以降级至下一级缓存,保证功能的可用性

评论系统架构为同城读双活,数据库与缓存均是双机房独立部署的,均支持多副本,具备水平扩容的弹性。针对双机房架构下特有的副机房数据延迟故障,支持入口层切流/跨机房重试/应用层补偿,尽可能保证极端情况下用户无感。

在功能层面,我们做了重要级别划分,把相应的依赖划分为强依赖(如审核)、弱依赖(如粉丝勋章)。对于弱依赖,我们一方面在异常情况下坚决限流熔断,另一方面也通过超时控制、请求预过滤、优化调用编排甚至技术方案重构等方式持续优化提升非核心功能的可用性,为业务在评论区获得更好的曝光展现。

原文中还有一部分是关于 热评的设计 ,即对于热评的存储、热评的查询、热评的排序如何进行设计,这一部分较为复杂,如果感兴趣可以查看原文第 7 部分:热评设计

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/689626.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【CTF Web】XCTF GFSJ0478 cookie Writeup(HTTP协议+信息收集+Cookie)

cookie X老师告诉小宁他在cookie里放了些东西,小宁疑惑地想:‘这是夹心饼干的意思吗?’ 解法 按 F12,点击网络。 刷新页面。查看请求头中的 Cookie。 look-herecookie.php访问: http://61.147.171.105:53668/cookie.…

Qt之常用控件一

Widget常见属性及其作用 属性作用enabled 设置控件是否可使⽤. true 表⽰可⽤, false 表⽰禁⽤ geometry 位置和尺⼨. 包含 x, y, width, height 四个部分. 其中坐标是以⽗元素为参考进⾏设置的. windowTitle 设置 widget 标题 windowIcon 设置 widget 图标 windowOpa…

深入解析RedisSearch:全文搜索的新维度

码到三十五 : 个人主页 在当今的数据时代,信息的检索与快速定位变得尤为关键。Redis,作为一个高性能的内存数据库,已经在缓存和消息系统中占据了重要地位。然而,Redis并不直接支持复杂的搜索功能。为了填补这一空白&am…

ERA5数据的区别

ERA5 hourly data on single levels from 1940 to present 链接 ERA5是欧洲中期天气预报中心(ECMWF)的第五代全球气候和天气再分析产品,涵盖过去80年的数据。数据可从1940年开始获取,ERA5取代了ERA-Interim再分析产品。 再分析将全球范围内的模型数据与…

QueryPerformanceCounter实现高精度uS(微妙)延时

参考连接 C# 利用Kernel32的QueryPerformanceCounter封装的 高精度定时器Timer_kernel32.dll queryperformancecounter-CSDN博客https://blog.csdn.net/wuyuander/article/details/111831973 特此记录 anlog 2024年5月11日

TEINet: Towards an Efficient Architecture for Video Recognition 论文阅读

TEINet: Towards an Efficient Architecture for Video Recognition 论文阅读 Abstract1 Introduction2 Related Work3 Method3.1 Motion Enhanced Module3.2 Temporal Interaction Module3.3 TEINet 4 Experiments5 Conclusion阅读总结 文章信息; 原文链接:https:…

第四百九十八回

文章目录 1. 概念介绍2. 使用方法2.1 固定样式2.2 自定义样式 3. 示例代码4. 内容总结 我们在上一章回中介绍了"GetMaterialApp组件"相关的内容,本章回中将介绍使用get显示SnackBar.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍 我们在介…

【声呐仿真】学习记录2-运行ROV(带camera、sonar、dvl等传感器)例程

【声呐仿真】学习记录2-运行ROV(带camera、sonar、dvl等传感器)例程 前言第一阶段-学习Gazebo第二阶段-学习URDF、xacro第三阶段-寻找例程跑一个rexrov示例程序1.uuvsimulator quick_start2.能键盘控制的示例程序(失败)3.能键盘控…

oracle 9i 行头带有scn的表

oracle 9i 行头带有scn的表 conn scott/tiger drop table t1; drop table t2; create table t1(c varchar2(5)); create table t2(c varchar2(6)) ROWDEPENDENCIES; --t2表每行都有scn,会增加六个字节的开销 alter table t1 pctfree 0; alter table t2 pctfree 0; insert in…

工业机器人应用实践之玻璃涂胶(篇一)

工业机器人 工业机器人,即面向工业领域的机器人。工业机器人是广泛用于工业领域的多关节机械手或多自由度的机器装置,具有一定的自动性,可依靠自身的动力能源和控制能力实现各种工业加工制造功能。工业机器人被广泛应用于电子、物流、化工等…

nc生成临时凭证配置

nc生成临时凭证配置 要实现的功能: 审批时生成临时凭证弃审时删除临时凭证 前台配置 后台配置 BillReflectorServiceImpl.java package nc.pubimpl.jych.qtsq.voucher;import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; impo…

YOLOv5改进 | 注意力机制 | 用于移动端的高效坐标CA注意力机制

在深度学习目标检测领域,YOLOv5成为了备受关注的模型之一。本文给大家带来的是能用于移动端的高效坐标CA注意力机制。文章在介绍主要的原理后,将手把手教学如何进行模块的代码添加和修改,并将修改后的完整代码放在文章的最后,方便…