Kafka 的性能优化之道

高性能设计的” 秘籍”

|475

2.2 高性能设计的” 道法”

2.2.1 计算上的” 道”

计算上的优化手段无外乎两种方式：1. 减少计算量 2. 加快单位时间的计算量

减少计算量：比如用索引来取代全局扫描、用同步代替异步、通过限流来减少请求处理量、采用更高效的数据结构和算法等。(举例：mysql 的 BTree，redis 的跳表等)
加快单位时间的计算量：可以利用 CPU 多核的特性，比如用多线程代替单线程、用集群代替单机等。(举例：多线程编程、分治计算等)

2.2.2 IO 上的” 道”

IO 上的优化手段也可以从两个方面来体现：1. 减少 IO 次数或者 IO 数据量 2. 加快 IO 速度

减少 IO 次数或者 IO 数据量：比如借助系统缓存或者外部缓存、通过零拷贝技术减少 IO 复制次数、批量读写、数据压缩等。
加快 IO 速度：比如用磁盘顺序写代替随机写、用 NIO 代替 BIO、用性能更好的 SSD 代替机械硬盘等

3 kafka 高性能设计

理解了高性能设计的手段和本质之后，我们再来看看 kafka 里面使用到的性能优化方法。 各类消息中间件的本质都是一个生产者 - 消费者模型，生产者发送消息给服务端进行暂存，消费者从服务端获取消息进行消费 。也就是说 kafka 分为三个部分：生产者 - 服务端 - 消费者，我们可以按照这三个来分别归纳一下其关于性能优化的手段，这些手段也会涵盖在我们之前梳理的脑图里面。

3.1 生产者的高性能设计

3.1.1 批量发送消息

之前在上面说过，高性能的” 道” 在于计算和 IO 上，咱们先来看看在 IO 上 kafka 是如何做设计的。

IO 上的优化
kafka 是一个消息中间件，数据的载体就是消息，如何将消息高效的进行传递和持久化是 kafka 高性能设计的一个重点。基于此分析 kafka 肯定是 IO 密集型应用，producer 需要通过网络 IO 将消息传递给 broker，broker 需要通过磁盘 IO 将消息持久化，consumer 需要通过网络 IO 将消息从 broker 上拉取消费。

网络 IO 上的优化：producer→broker 发送消息不是一条一条发送的，kafka 模式会有个 消息发送延迟机制 ，会将一批消息进行聚合，一口气打包发送给 broker，这样就成功减少了 IO 的次数。除了传输消息本身以外，还要传输非常多的网络协议本身的一些内容（称为 Overhead），所以将多条消息合并到一起传输，可有效减少网络传输的 Overhead，进而提高了传输效率。
磁盘 IO 上的优化：大家知道磁盘和内存的存储速度是不同的，在磁盘上操作的速度是远低于内存，但是在成本上内存是高于磁盘。kafka 是面向大数据量的消息中间件，也就是说需要将大批量的数据持久化，这些数据放在内存上也是不现实。那 kafka 是怎么在磁盘 IO 上进行优化的呢？在这里我先直接给出方法，具体细节在后文中解释（它是借助于一种磁盘顺序写的机制来提升写入速度）。

3.1.2 负载均衡

1.kafka 负载均衡设计

|425

Kafka 有主题（Topic）概念，他是承载真实数据的逻辑容器，主题之下还分为若干个分区，Kafka 消息组织方式实际上是三级结构：主题 - 分区 - 消息。主题下的每条消息只会在某一个分区中，而不会在多个分区中被保存多份。
Kafka 这样设计，使用分区的作用就是提供负载均衡的能力，对数据进行分区的主要目的就是为了实现系统的高伸缩性（Scalability）。不同的分区能够放在不同的节点的机器上，而数据的读写操作也都是针对分区这个粒度进行的，每个节点的机器都能独立地执行各自分区读写请求。我们还可以通过增加节点来提升整体系统的吞吐量。Kafka 的分区设计，还可以实现业务级别的消息顺序的问题。

2. 具体分区策略

所谓的分区策略是指决定生产者将消息发送到那个分区的算法。Kafka 提供了默认的分区策略是轮询，同时 kafka 也支持用户自己制定。
轮询策略：也称为 Round-robin 策略，即顺序分配。轮询的优点是有着优秀的负载均衡的表现。
随机策略：虽然也是追求负载均衡，但总体表现差于轮询。
消息键划分策略：还要一种是为每条消息配置一个 key，按消息的 key 来存。Kafka 允许为每条消息指定一个 key。一旦指定了 key ，那么会对 key 进行 hash 计算，将相同的 key 存入相同的分区中，而且每个分区下的消息都是有序的。key 的作用很大，可以是一个有着明确业务含义的字符串，也可以是用来表征消息的元数据。
其他的分区策略：基于地理位置的分区。可以从所有分区中找出那些 Leader 副本在某个地理位置所有分区，然后随机挑选一个进行消息发送。

3.1.3 异步发送

1. 线程模型

|500

之前已经说了 kafka 是选择批量发送消息来提升整体的 IO 性能，具体流程是 kafka 生产者使用批处理试图在内存中积累数据，主线程将多条消息通过一个 ProduceRequest 请求批量发送出去，发送的消息暂存在一个队列 (RecordAccumulator) 中，再由 sender 线程去获取一批数据或者不超过某个延迟时间内的数据发送给 broker 进行持久化。

优点:

可以提升 kafka 整体的吞吐量，减少网络 IO 的次数；
提高数据压缩效率 (一般压缩算法都是数据量越大越能接近预期的压缩效果)；

缺点:
数据发送有一定 延迟， 但是这个延迟可以由业务因素来自行设置。

3.1.4 高效序列化

1. 序列化的优势

Kafka 消息中的 Key 和 Value，都支持自定义类型，只需要提供相应的序列化和反序列化器即可。因此，用户可以根据实际情况选用快速且紧凑的序列化方式（比如 ProtoBuf、Avro）来减少实际的网络传输量以及磁盘存储量，进一步提高吞吐量。

2. 内置的序列化器

org.apache.kafka.common.serialization.StringSerializer；
org.apache.kafka.common.serialization.LongSerializer；
org.apache.kafka.common.serialization.IntegerSerializer；
org.apache.kafka.common.serialization.ShortSerializer；
org.apache.kafka.common.serialization.FloatSerializer；
org.apache.kafka.common.serialization.DoubleSerializer；
org.apache.kafka.common.serialization.BytesSerializer；
org.apache.kafka.common.serialization.ByteBufferSerializer；
org.apache.kafka.common.serialization.ByteArraySerializer；

3.1.5 消息压缩

1. 压缩的目的

压缩秉承了用时间换空间的经典 trade-off 思想，即用 CPU 的时间去换取磁盘空间或网络 I/O 传输量，Kafka 的压缩算法也是出于这种目的。并且通常是：数据量越大，压缩效果才会越好。
因为有了批量发送这个前期，从而使得 Kafka 的消息压缩机制能真正发挥出它的威力（压缩的本质取决于多消息的重复性）。对比压缩单条消息，同时对多条消息进行压缩，能大幅减少数据量，从而更大程度提高网络传输率。

2. 压缩的方法

想了解 kafka 消息压缩的设计，就需要先了解 kafka 消息的格式：

Kafka 的消息层次分为：消息集合（message set）和消息（message）；一个消息集合中包含若干条日志项（record item），而日志项才是真正封装消息的地方。
Kafka 底层的消息日志由一系列消息集合 - 日志项组成。Kafka 通常不会直接操作具体的一条条消息，他总是在消息集合这个层面上进行写入操作。
每条消息都含有自己的元数据信息，kafka 会将一批消息相同的元数据信息给提升到外层的消息集合里面，然后再对整个消息集合来进行压缩。批量消息在持久化到 Broker 中的磁盘时，仍然保持的是压缩状态，最终是在 Consumer 端做了解压缩操作。
压缩算法效率对比
Kafka 共支持四种主要的压缩类型：Gzip、Snappy、Lz4 和 Zstd，具体效率对比如下：

3.2 服务端高性能设计

3.2.1 Reactor 网络通信模型

用户线程 IO 模型
这里就不赘述

3.2.2 Kafka 的底层日志结构

暂时不需要设计底层结构，所以不进行深入了解
具体看从 Kafka 中学习高性能系统如何设计 | 京东云技术团队 - 知乎

3.2.3 mmap 的使用

常规的文件操作为了提高读写性能，使用了 Page Cache 机制，但是由于页缓存处在内核空间中，不能被用户进程直接寻址，所以读文件时还需要通过系统调用，将页缓存中的数据再次拷贝到用户空间中。

1）常规文件读写

|500

app 拿着 inode 查找读取文件
address_space 中存储了 inode 和该文件对应页面缓存的映射关系
页面缓存缺失，引发缺页异常
通过 inode 找到磁盘地址，将文件信息读取并填充到页面缓存
页面缓存处于内核态，无法直接被 app 读取到，因此要先拷贝到用户空间缓冲区，此处发生内核态和用户态的切换
tips：这一过程实际上发生了四次数据拷贝。首先通过系统调用将文件数据读入到内核态 Buffer（DMA 拷贝），然后应用程序将内存态 Buffer 数据读入到用户态 Buffer（CPU 拷贝），接着用户程序通过 Socket 发送数据时将用户态 Buffer 数据拷贝到内核态 Buffer（CPU 拷贝），最后通过 DMA 拷贝将数据拷贝到 NIC Buffer。同时，还伴随着四次上下文切换。

2）mmap 读写模式

调用内核函数 mmap ()，在页表 (类比虚拟内存 PTE) 中建立了文件地址和虚拟地址空间中用户空间的映射关系
读操作引发缺页异常，通过 inode 找到磁盘地址，将文件内容拷贝到用户空间，此处不涉及内核态和用户态的切换

tips：采用 mmap 后，它将磁盘文件与进程虚拟地址做了映射，并不会招致系统调用，以及额外的内存 copy 开销，从而提高了文件读取效率。具体到 Kafka 的源码层面，就是基于 JDK nio 包下的 MappedByteBuffer 的 map 函数，将磁盘文件映射到内存中。只有索引文件的读写才用到了 mmap。

3.2.4 消息存储 - 磁盘顺序写

对于我们常用的机械硬盘，其读取数据分 3 步：

寻道；
寻找扇区；
读取数据；
前两个，即寻找数据位置的过程为机械运动。我们常说硬盘比内存慢，主要原因是这两个过程在拖后腿。不过，硬盘比内存慢是绝对的吗？其实不然，如果我们能通过顺序读写减少寻找数据位置时读写磁头的移动距离，硬盘的速度还是相当可观的。一般来讲，IO 速度层面，内存顺序 IO > 磁盘顺序 IO > 内存随机 IO > 磁盘随机 IO。这里用一张网上的图来对比一下相关 IO 性能：

|450

Kafka 在顺序 IO 上的设计分两方面看：

LogSegment 创建时，一口气申请 LogSegment 最大 size 的磁盘空间，这样一个文件内部尽可能分布在一个连续的磁盘空间内；
.log 文件也好，.index 和.timeindex 也罢，在设计上都是只追加写入，不做更新操作，这样避免了随机 IO 的场景；

3.3 消费端的高性能设计

3.3.1 批量消费

生产者是批量发送消息，消息者也是批量拉取消息的，每次拉取一个消息 batch，从而大大减少了网络传输的 overhead。在这里 kafka 是通过 fetch.min.bytes 参数来控制每次拉取的数据大小。默认是 1 字节，表示只要 Kafka Broker 端积攒了 1 字节的数据，就可以返回给 Consumer 端，这实在是太小了。我们还是让 Broker 端一次性多返回点数据吧。
并且，在生产者高性能设计目录里面也说过，生产者其实在 Client 端对批量消息进行了压缩，这批消息持久化到 Broker 时，仍然保持的是压缩状态，最终在 Consumer 端再做解压缩操作。

3.3.2 零拷贝 - 磁盘消息文件的读取

1.zero-copy 定义

零拷贝并不是不需要拷贝，而是减少不必要的拷贝次数。通常是说在 IO 读写过程中。
零拷贝字面上的意思包括两个，“零” 和 “拷贝”：

“拷贝”：就是指数据从一个存储区域转移到另一个存储区域。
“零” ：表示次数为 0，它表示拷贝数据的次数为 0。

实际上，零拷贝是有广义和狭义之分，目前我们通常听到的零拷贝，包括上面这个定义减少不必要的拷贝次数都是广义上的零拷贝。其实了解到这点就足够了。
我们知道，减少不必要的拷贝次数，就是为了提高效率。那零拷贝之前，是怎样的呢？

2. 传统 IO 的流程

做服务端开发的小伙伴，文件下载功能应该实现过不少了吧。如果你实现的是一个 web 程序，前端请求过来，服务端的任务就是：将服务端主机磁盘中的文件从已连接的 socket 发出去。关键实现代码如下：

while((n = read(diskfd, buf, BUF_SIZE)) > 0)
    write(sockfd, buf , n);

传统的 IO 流程，包括 read 和 write 的过程。

read：把数据从磁盘读取到内核缓冲区，再拷贝到用户缓冲区
write：先把数据写入到 socket 缓冲区，最后写入网卡设备
流程图如下：

|500

用户应用进程调用 read 函数，向操作系统发起 IO 调用，上下文从用户态转为内核态（切换 1）
DMA 控制器把数据从磁盘中，读取到内核缓冲区。
CPU 把内核缓冲区数据，拷贝到用户应用缓冲区，上下文从内核态转为用户态（切换 2），read 函数返回
用户应用进程通过 write 函数，发起 IO 调用，上下文从用户态转为内核态（切换 3）
CPU 将用户缓冲区中的数据，拷贝到 socket 缓冲区
DMA 控制器把数据从 socket 缓冲区，拷贝到网卡设备，上下文从内核态切换回用户态（切换 4），write 函数返回

从流程图可以看出，传统 IO 的读写流程，包括了 4 次上下文切换（4 次用户态和内核态的切换），4 次数据拷贝（两次 CPU 拷贝以及两次的 DMA 拷贝 )，什么是 DMA 拷贝呢？我们一起来回顾下，零拷贝涉及的操作系统知识点。

3. 零拷贝相关知识点

1）内核空间和用户空间

操作系统为每个进程都分配了内存空间，一部分是用户空间，一部分是内核空间。内核空间是操作系统内核访问的区域，是受保护的内存空间，而用户空间是用户应用程序访问的内存区域。
以 32 位操作系统为例，它会为每一个进程都分配了 4G (2 的 32 次方) 的内存空间。

内核空间：主要提供进程调度、内存分配、连接硬件资源等功能
用户空间：提供给各个程序进程的空间，它不具有访问内核空间资源的权限，如果应用程序需要使用到内核空间的资源，则需要通过系统调用来完成。进程从用户空间切换到内核空间，完成相关操作后，再从内核空间切换回用户空间。

2）用户态 & 内核态

如果进程运行于内核空间，被称为进程的内核态
如果进程运行于用户空间，被称为进程的用户态。

3）上下文切换

cpu 上下文

CPU 寄存器，是 CPU 内置的容量小、但速度极快的内存。而程序计数器，则是用来存储 CPU 正在执行的指令位置、或者即将执行的下一条指令位置。它们都是 CPU 在运行任何任务前，必须的依赖环境，因此叫做 CPU 上下文。

cpu 上下文切换

它是指，先把前一个任务的 CPU 上下文（也就是 CPU 寄存器和程序计数器）保存起来，然后加载新任务的上下文到这些寄存器和程序计数器，最后再跳转到程序计数器所指的新位置，运行新任务。

一般我们说的上下文切换，就是指内核（操作系统的核心）在 CPU 上对进程或者线程进行切换。
进程从用户态到内核态的转变，需要通过系统调用来完成。系统调用的过程，会发生 CPU 上下文的切换。

4）DMA 技术

DMA，英文全称是 Direct Memory Access ，即直接内存访问。DMA 本质上是一块主板上独立的芯片，允许外设设备和内存存储器之间直接进行 IO 数据传输，其过程不需要 CPU 的参与。

我们一起来看下 IO 流程，DMA 帮忙做了什么事情。

|475

可以发现，DMA 做的事情很清晰啦，它主要就是帮忙 CPU 转发一下 IO 请求，以及拷贝数据。
之所以需要 DMA，主要就是效率，它帮忙 CPU 做事情，这时候，CPU 就可以闲下来去做别的事情，提高了 CPU 的利用效率。

4.kafka 消费的 zero-copy

1）实现原理

零拷贝并不是没有拷贝数据，而是减少用户态 / 内核态的切换次数以及 CPU 拷贝的次数。零拷贝实现有多种方式，分别是

mmap+write
sendfile

在服务端那里，我们已经知道了 kafka 索引文件使用的 mmap 来进行零拷贝优化的，现在告诉你 kafka 消费者在读取消息的时候使用的是 sendfile 来进行零拷贝优化。

linux 2.4 版本之后，对 sendfile 做了优化升级，引入 SG-DMA 技术，其实就是对 DMA 拷贝加入了 scatter/gather 操作，它可以直接从内核空间缓冲区中将数据读取到网卡。使用这个特点搞零拷贝，即还可以多省去一次 CPU 拷贝。

sendfile+DMA scatter/gather 实现的零拷贝流程如下：

|450

用户进程发起 sendfile 系统调用，上下文（切换 1）从用户态转向内核态。
DMA 控制器，把数据从硬盘中拷贝到内核缓冲区。
CPU 把内核缓冲区中的文件描述符信息（包括内核缓冲区的内存地址和偏移量）发送到 socket 缓冲区
DMA 控制器根据文件描述符信息，直接把数据从内核缓冲区拷贝到网卡
上下文（切换 2）从内核态切换回用户态，sendfile 调用返回。

可以发现，sendfile+DMA scatter/gather 实现的零拷贝，I/O 发生了 2 次用户空间与内核空间的上下文切换，以及 2 次数据拷贝。其中 2 次数据拷贝都是包 DMA 拷贝。这就是真正的零拷贝（Zero-copy) 技术，全程都没有通过 CPU 来搬运数据，所有的数据都是通过 DMA 来进行传输的。

2）底层实现

Kafka 数据传输通过 TransportLayer 来完成，其子类 PlaintextTransportLayer 通过 Java NIO 的 FileChannel 的 transferTo 和 transferFrom 方法实现零拷贝。底层就是 sendfile。消费者从 broker 读取数据，就是由此实现。

@Override
public long transferFrom(FileChannel fileChannel, long position, long count) throws IOException {
   return fileChannel.transferTo(position, count, socketChannel);
}

tips： transferTo 和 transferFrom 并不保证一定能使用零拷贝。实际上是否能使用零拷贝与操作系统相关，如果操作系统提供 sendfile 这样的零拷贝系统调用，则这两个方法会通过这样的系统调用充分利用零拷贝的优势，否则并不能通过这两个方法本身实现零拷贝。

参考

从 Kafka 中学习高性能系统如何设计 | 京东云技术团队 - 知乎

Yes365's Garden

Explorer

Recent Notes

wireshark 分析艺术

网络基础：MTU 和 MSS

windows 设置 mtu

Kafka 的性能优化之道

高性能设计的” 秘籍”

2.2 高性能设计的” 道法”

2.2.1 计算上的” 道”

2.2.2 IO 上的” 道”

3 kafka 高性能设计

3.1 生产者的高性能设计

3.1.1 批量发送消息

3.1.2 负载均衡

1.kafka 负载均衡设计

2. 具体分区策略

3.1.3 异步发送

1. 线程模型

3.1.4 高效序列化

1. 序列化的优势

2. 内置的序列化器

3.1.5 消息压缩

1. 压缩的目的

2. 压缩的方法

3.2 服务端高性能设计

3.2.1 Reactor 网络通信模型

3.2.2 Kafka 的底层日志结构

3.2.3 mmap 的使用

3.2.4 消息存储 - 磁盘顺序写

3.3 消费端的高性能设计

3.3.1 批量消费

3.3.2 零拷贝 - 磁盘消息文件的读取

1.zero-copy 定义

2. 传统 IO 的流程

3. 零拷贝相关知识点

1）内核空间和用户空间

2）用户态 & 内核态

3）上下文切换

4）DMA 技术

4.kafka 消费的 zero-copy

1）实现原理

2）底层实现

参考

Graph View

Table of Contents

Backlinks