#yyds干货盘点#【Alibaba中间件技术系列】「RocketMQ技术专题」让我们一同来看看RocketMQ和Kafka索引设计-摩杜云开发者社区

#yyds干货盘点#【Alibaba中间件技术系列】「RocketMQ技术专题」让我们一同来看看RocketMQ和Kafka索引设计

TEZNKK3IfmPf 2023年11月12日 38 0

RocketMQ 索引

文件索引，是存储设计的关键，一个好的索引，应该能够在最短的时间里，找到你想要的数据，同时，还能尽量少的使用内存或磁盘空间。但是这里说的索引并不是指MySQL或者NoSQL这些数据库索引，而是MQ中间件的索引。相对而言较为简单的MQ索引。我们可以通过研究MQ的索引，看看他们为何如此设计，我们又有哪些借鉴之处，并且也可以根据他们索引文件的设计模式，进行分析他们的性能问题，接下来我们借来分别说说RocketMQ和Kafka的索引设计原理，重点我们会介绍RocketMQ的设计。

RocketMQ

相比较Kafka的分区索引文件的设计方案，RocketMQ的数据文件属于混合存储，即，所有的topic数据都放在一个文件里，因此，读数据的时候，就无法做到连续读了，只能随机读。所以，RocketMQ推荐使用大内存，利用PageCache 预读机制把commitlog数据缓存起来，混合存储的好处则是能够承受万级别的队列数量。 kafka 64分区有些夸张，单机单磁盘1000分区还是没啥问题的，经验之谈最好别超过 2000， RocketMQ 提供基于MsgID搜索消息的方案，即，每条消息，都有一个唯一的 ID，

Message ID

ID由broker IP + Port + CommitLog Offset 组成，通过这两个参数，可快速定位到一条消息。注意，Kafka是没有这个功能的，但理论上，通过 Kafka 的 offset 也是可以找到具体的消息的。

另外 RocketMQ 有 2 种索引。

消息消费索引
Hash 查询索引

消息消费索引

消息消费索引，可以理解为，就是 topic 的索引数据，类似 kafka 的索引数据。如果没有这个，消费者基本就找不到消息了。这个索引里，存放着对应topic 、对应 queue 里的消息连续 offset 集合（不像 commitLog 是混合存储的）。

#yyds干货盘点#【Alibaba中间件技术系列】「RocketMQ技术专题」让我们一同来看看RocketMQ和Kafka索引设计

RocketMQ的存储层架构

#yyds干货盘点#【Alibaba中间件技术系列】「RocketMQ技术专题」让我们一同来看看RocketMQ和Kafka索引设计

RocketMQ 的运作流程图

#yyds干货盘点#【Alibaba中间件技术系列】「RocketMQ技术专题」让我们一同来看看RocketMQ和Kafka索引设计

RocketMQ 的存储设计图：

消息被不停的 append 到 commitlog，然后，再构建消费索引，如果没有这个索引，consumer 要在 commitlog 里消费消息，那可真是太难了。

#yyds干货盘点#【Alibaba中间件技术系列】「RocketMQ技术专题」让我们一同来看看RocketMQ和Kafka索引设计

每个consumerQueue文件里存放着 30w 个元素，每个元素 20 字节，8 字节 offset ，4 字节 size， 8 字节 tag hashcode，因此，每个文件也就 5.8MB 不到，很轻量。

#yyds干货盘点#【Alibaba中间件技术系列】「RocketMQ技术专题」让我们一同来看看RocketMQ和Kafka索引设计

Hash查询索引（我们可以称之为tag）

Hash查询索引，主要是根据 Key 来快速查询消息，属于一种附加功能。RocketMQ 采用了 Java HashMap 的思想，实现了 Hash 索引的存储。

如果这个 Map 有 500w 个 slot，每个 slot 的链表长度为 4. 如果我们使用一个 key 进行消息查找，他的过程是这样的：先 hash key 得到 hashCode，然后对 500w 取余，找到槽位，这个槽位大小是4个字节，保存了链表尾部的具体元素地址。
而这个链表元素的大小是 20 个字节，保存了 key 的 hash 值，commitlog offset，时间戳，还有他下一个链表节点的地址。
为什么在链表元素里保存了 hash 值呢？为了防止 hash 值不同，但是 hash 取模后的结果相同（也就是 hash 冲突），如果冲突了，就用 hash 值比对一下。
那如果 hash 值相同，key 内容不同呢？RocketMQ 的做法是放在客户端过滤。

简单介绍一下Kafka

Kafka 每个 topic 有多个 partition ，每个 partition 有多个 segment，每个 segment 里，存储了消息的相关文件：数据文件，索引文件。 Kafka 不像 RocketMQ，所有数据都存在一个文件里，Kafka 每个 topic 的文件都是隔离开的，而每个 topic 又可能会有很多的 partition（看你的配置），因此，如果你的topic非常多，或者你的partition非常多的话，顺序写就会变成随机写，性能会骤降。

Kafka 的索引文件和数据文件绑定在一起的。

与RocketMQ的消费索引类似，Kafka 里面是逻辑 offset 映射物理 offset ，并且采用了稀疏索引的方式。然后，我们看看他们的索引设计，如下图： [逻辑索引,偏移量]

逻辑索引，即这个 partition下的全局递增逻辑索引（当然，这个是相对偏移量，这里为了描述简单，就不区分了）
偏移量，表示这条消息的所在文件的物理 position。

我现在是一个消费者，订阅了这个 partition 的消息，那么我将从 0 号逻辑索引开始订阅，从.index 开始遍历，然后找到对应的物理文件position。 kafka 的这个 .index 文件和 RocketMQ 的 consumerQueue 索引很相似，直接遍历 .log 文件，从头开始消费。但如果，我不想从头开始消费呢？我想从第 18 条消息开始消费呢？因为没有 .index ，我只能慢慢遍历。一个 topic 设计一个递增的 offset，从 0 开始，每新增一条消息，加一。这是一个逻辑偏移量，我们让逻辑偏移量映射物理偏移量。消费者也从 0 开始消费，这样，就达到了某种默契。就算是第 18 条消息，我也能快速找到。

基于 partition 的分区原子计数器。使用 broker ID + 分区 ID + 计数器就可以标识一条唯一的消息。然后，用计数器映射偏移量 offset，简直就是完美。然后，为了达到搜索效率和空间消耗的平衡，边稠密索引为稀疏索引。

RocketMQ 和 Kafka 的索引设计相似之处：

RocketMQ 的 topic 和 kafka 的 topic 类似，RocketMQ 的 queue 和 kafka 的 partition 类似，都是为了 scale out。

RocketMQ 为每个 queue 设计了 consumerQueue 索引文件，每个文件大小固定 5.8MB；
Kafka 为每个 partition 设计了 segment （.index + .log）。

consumerQueue 索引文件和 segment 的 .index 本质是一样的，都是为了让 consumer 快速找到消息。

和 Kafka 的索引设计的最大不同

RocketMQ 是所有 topic 混合存储，目的是支持更多的topic，而 Kafka 的topic 是单独存储，好处是顺序读性能好，另外，根据分区做副本也比较好做。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： Spring Cloud建筑工地智慧平台源码，自主版权+实际应用案例下一篇： RocketMQ-术语详解（通俗易懂）

分享：

最后一次编辑于 2023年11月12日 0

暂无评论

推荐阅读

MySQL 索引条件下推 Index Condition Pushdown

TEZNKK3IfmPf 2024年03月29日 117 0 0 mysql 索引

解决pandas左上角的数据索引、替换

TEZNKK3IfmPf 2023年11月14日 30 0 0 pandas python 索引

mysql explain type 枚举

TEZNKK3IfmPf 2024年05月31日 32 0 0 数据库 mysql 索引

解决rocketmq客户端日志比较大的问题

TEZNKK3IfmPf 2023年11月14日 23 0 0 客户端日志 RocketMQ

MySQL 中的 distinct 和 group by 哪个效率更高？

TEZNKK3IfmPf 2024年04月19日 66 0 0 group 索引

索引 mysql

TEZNKK3IfmPf 2023年11月14日 28 0 0 mysql 索引

javascript-索引

TEZNKK3IfmPf 2023年11月14日 47 0 0 索引 javascript

RocketMQ使用

TEZNKK3IfmPf 2024年04月26日 32 0 0 java RocketMQ springcloud

精华推荐 | 【深入浅出RocketMQ原理及实战】「底层原理挖掘系列」透彻剖析贯穿RocketMQ的存储系统的实现原理和持久化机制

TEZNKK3IfmPf 2023年11月15日 25 0 0 RocketMQ 缓存偏移量

启动RocketMQ报错

TEZNKK3IfmPf 2024年04月26日 59 0 0 java RocketMQ SpringBoot

mysql的in查询分析

TEZNKK3IfmPf 2024年05月17日 48 0 0 查询 mysql 索引

面试：“索引背后的数据结构是什么样的？”，五分钟带你了解“B树，B+树”

TEZNKK3IfmPf 2024年03月30日 101 0 0 数据结构索引

c# 索引与迭代器简单示例

TEZNKK3IfmPf 19天前 27 0 0 设计模式索引

Mysql数据库创建索引

TEZNKK3IfmPf 2024年03月29日 58 0 0 mysql 索引

linux相关命令——启动jar,rocketmq

TEZNKK3IfmPf 2023年11月15日 32 0 0 linux RocketMQ

RocketMQ发送消息超时异常

TEZNKK3IfmPf 2024年04月26日 39 0 0 java RocketMQ

【RocketMQ入门到精通】— RocketMQ学习入门指南 | RocketMQ物理部署结构精讲

TEZNKK3IfmPf 2024年03月30日 78 0 0 客户端 RocketMQ

数据量大效率低如何优化（3）【elasticSearch的介绍及注意要点】

TEZNKK3IfmPf 2024年04月26日 41 0 0 数据索引

【RocketMQ入门到精通】— RocketMQ学习入门指南 | RocketMQ逻辑部署结构精讲

TEZNKK3IfmPf 2024年03月30日 62 0 0 RocketMQ

MySQL下count(*)、count(1)和count(字段)的查询效率比较

TEZNKK3IfmPf 2024年03月29日 59 0 0 索引

TEZNKK3IfmPf

作者其他文章更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

最新推荐更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

使用面向对象重构之-从过程式设计到面向对象

2024-06-14

nodejs部署神器pm2的使用体验

2024-06-14

java虚拟机启动过程解析

2024-06-14

mysql-忘记密码时重置操作

2024-06-14

Callable和runnable的区别

2024-06-14

python的粘包和分包

2024-06-14

tftp文件服务（udp端口：69）

2024-06-14

C语言反汇编 - 流程控制与循环结构

2024-06-14

python-列表包字典-根据字典的某一个键的值来进行排序

2024-06-14

使用面向对象重构之-使用接口抽象完成不同维度的扩展

2024-06-14