Kafka 为什么那么快?

有人说:他曾在一台配置较好的机子上对 Kafka 进行性能压测,压测结果是 Kafka 单个节点的极限处理能力接近每秒 2000万 条消息,吞吐量达到每秒 600MB。

那 Kafka 为什么这么快?如何做到这个高的性能?

本篇文章主要从这 3 个角度来分析:

  • 生产端

  • 服务端 Broker

  • 消费端

先来看下生产端发送消息,Kafka 做了哪些优化?

(1)生产端 Producer

先来回顾下 Producer 生产者发送消息的流程:

  1. 首先指定消息发送到哪个 Topic

  2. 选择一个 Topic 的分区 partitiion,默认是轮询来负载均衡。

    也可以指定一个分区 key,根据 key 的 hash 值来分发到指定的分区。

    也可以自定义 partition 来实现分区策略。

  3. 找到这个分区的 leader partition

  4. 与所在机器的 Broker 的 socket 建立通信。

  5. 发送 Kafka 自定义协议格式的请求(包含携带的消息、批量消息)。

将思绪集中在消息发送时候,可发现这两个华点:批量消息和自定义协议格式。

  1. 批量发送:减少了与服务端 Broker 处理请求的次数,从而提升总体的处理能力。

    调用 send() 方法时,不会立刻把消息发送出去,而是缓存起来,选择恰当时机把缓存里的消息划分成一批数据,按批次发送给服务端 Broker

  2. 自定义协议格式:序列化方式和压缩格式都能减少数据体积,从而节省网络资源消耗。

各种压缩算法对比:

  • 吞吐量方面:LZ4 > Snappy > zstd 和 GZIP

  • 压缩比方面:zstd > LZ4 > GZIP > Snappy

(2)服务端 Broker

Broker 的高性能主要从这 3 个方面体现:

  1. PageCache 缓存

  2. Kafka 的文件布局 以及 磁盘文件顺序写入

  3. 零拷贝 sendfile:加速消费流程

下面展开讲讲。

1)PageCache 加速消息读写

使用 PageCache 主要能带来如下好处:

  • 写入文件的时候:操作系统会先把数据写入到内存中的 PageCache,然后再一批一批地写到磁盘上,从而减少磁盘 IO 开销。

  • 读取文件的时候:也是从 PageCache 中来读取数据。

如果消息刚刚写入到服务端就会被消费,按照 LRU 的“优先清除最近最少使用的页”这种策略,读取的时候,对于这种刚刚写入的 PageCache,命中的几率会非常高。

2)Kafka 的文件布局 以及 磁盘文件顺序写入

文件布局如下图所示:

主要特征是:文件的组织方式是“topic + 分区”,每一个 topic 可以创建多个分区,每一个分区包含单独的文件夹。

Kafka 在分区级别实现文件顺序写:即多个文件同时写入,更能发挥磁盘 IO 的性能。

  • 相对比 RocketMQ RocketMQ 在消息写入时追求极致的顺序写,所有的消息不分主题一律顺序写入 commitlog 文件, topic 和 分区数量的增加不会影响写入顺序。

  • 弊端: Kafka 在消息写入时的 IO 性能,会随着 topic 、分区数量的增长先上升,后下降。

    所以使用 Kafka 时,要警惕 Topic 和 分区数量。

3)零拷贝 sendfile:加速消费流程

当不使用零拷贝技术读取数据时:

流程如下:

  1. 消费端 Consumer:向 Kafka Broker 请求拉取消息

  2. Kafka Broker 从 OS Cache 读取消息到 应用程序的内存空间:

    1. 若 OS Cache 中有消息,则直接读取

    2. 若 OS Cache 中无消息,则从磁盘里读取

  3. 再通过网卡,socket 将数据发送给 消费端Consumer

当使用零拷贝技术读取数据:

Kafka 使用零拷贝技术可以把这个复制次数减少一次,直接从 PageCache 中把数据复制到 Socket 缓冲区中。

  • 这样不用将数据复制到用户内存空间。

  • DMA 控制器直接完成数据复制,不需要 CPU 参与,速度更快。


 

(3)消费端 Consumer

消费者只从 Leader分区批量拉取消息。

为了提高消费速度,多个消费者并行消费比不可少。Kafka 允许创建消费组(唯一标识 group.id),在同一个消费组的消费者共同消费数据。

举个栗子:

  • 有两个 Kafka Broker,即有 2个机子

  • 有一个主题:TOPICA,有 3 个分区(0, 1, 2)

如上图,举例 4 中情况:

  1. group.id = 1,有一个消费者:这个消费者要处理所有数据,即 3 个分区的数据。

  2. group.id = 2,有两个消费者:consumer 1消费者需处理 2个分区的数据,consumer2 消费者需处理 1个分区的数据

  3. group.id = 3,有三个消费者:消费者数量与分区数量相等,刚好每个消费者处理一个分区

  4. group.id = 4,有四个消费者:消费者数量 > 分区数量,第四个消费者则会处于空闲状态

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/3259.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Restful风格笔记

Restful风格知识点 RestController注解 在类上添加RestController可以默认类中的所有方法都带有ResponseBody注解,可以省去一个个添加的麻烦。 RestController RequestMapping("/restful") //CrossOrigin(origins {"http://localhost:8080"…

Java基础——正则表达式

1 概述 正则表达式用于匹配规定格式的字符串。 除了上面的以外,还有一个符号就是括号,括号括起来的表示一个捕获组,一个捕获组可以作为一个重复单位来处理。 2 使用 2.1 判断是否匹配 String自带了一个可以使用正则表达式判断字符串是…

随着人工智能时代的到来,算力需求的成倍增长成为新的趋势

方向一:AI与算力相辅相成 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是新一轮科技革命和产业变革的重要驱动力量。…

Python爬取影评并进行情感分析和数据可视化

Python爬取影评并进行情感分析和数据可视化 文章目录 Python爬取影评并进行情感分析和数据可视化一、引言二、使用requestsBeautifulSoup进行影评的爬取1、分析界面元素2、编写代码 三、情感分析1、数据预处理2、情感分析3、数据可视化 一、引言 前几天出了《航海王&#xff1…

如何优雅地使用Low Code提高开发效率

2023年,低代码热度有,但是在企业内部核心场景的落地比例不高,推进进展也没有想象中快。就算是这样,低代码赛道也在“暗流涌动”。 数字化趋势下,很多企业想要以数字化的手段进行降本增效。很多企业希望以低代码的模式…

Innovus: dbGet 快速学习教程

dbGet是innovus/encounter工具自带的"database access command"命令中的一部分,它几乎可以用来获取设计相关的一切信息。 输入dbGet 按[Tab]键,能看到三个选项,分别是head / top /selected。这三个选项所代表的意义如下: head --…

win10笔记本电脑总是自动休眠解决办法

1、运行regedit,进入注册表编辑器; 2、在打开的注册表编辑器左侧定位到:计算机\HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Power\PowerSettings\238C9FA8-0AAD-41ED-83F4-97BE242C8F20\7bc4a2f9-d8fc-4469-b07b-33eb785aaca0&…

fastadmin给操作按钮添加权限菜单控制|新增权限控制菜单

1、在对应的控制器文件中,添加如下代码: $adminIds $this->getDataLimitAdminIds(); if (is_array($adminIds)) {if (!in_array($row[$this->dataLimitField], $adminIds)) {$this->error(__(You have no permission));} } 2、在对应的index…

Angular实现一个简单的带tabs选项卡切换的首页导航功能

Angular版本:16.1.1 项目结构: angular.json配置: {"$schema": "./node_modules/angular/cli/lib/config/schema.json","version": 1,"newProjectRoot": "projects","projects"…

微服务: sleuth和zipkin的用处与zipkin安装使用(下)

目录 0. 上篇传送门: 1. 前言简介 mq安装传送门: 微服务: 01-rabbitmq的应用场景及安装(docker) 1.1 Sleuth是一款分布式跟踪解决方案。 1.2 Zipkin是一个开源的分布式跟踪系统。 2. zipkin安装方式 2.1 windows下安装zipkin: 2.1.0 下载jar包位置 2.1.1 下载后,找…

生成 ocr key 字符集 alphabet 6698个字符

生成 ocr key 字符集 alphabet import pickle as pkl#----------- 生成 ocr key 字符集 alphabet alphabet_set set() # 数据集label infofiles_label [/home/jlb/下载/rec_data_lesson_demo/train.txt, /home/jlb/下载/rec_data_lesson_demo/val.txt]# ppocr中文key infofil…

OA办公系统如何通过审批流程提高效率

企业的发展与管理离不开信息化,很多企业的信息化都会选择从OA信息化开始。一个成熟先进的OA办公系统流程审批也是核心功能关注的功能之一,今天小编举例有18年平台经验的天翎低代码平台OA系统,给大家分享一下如果提升流程审批效率:…