Elasticsearch 分片及其生命周期-摩杜云开发者社区

Elasticsearch 分片及其生命周期

TEZNKK3IfmPf 2023年11月14日 27 0

elasticsearch

1. 分片的内部原理

什么是 ES 的分片

ES 中最小的工作单元 / 是一个 Lucence 的 Index

一些问题：

为什么 ES 的搜索时近实时的（1 秒后被搜到）
ES 如何保证在断电时数据也不会丢失
为甚删除文档，并不会立刻释放空间

2. 倒排索引的不可变性

倒排索引采用 Immutable Design, 一旦生成，不可更改
不可变性，带来了的好处如下：

不许考虑并发写文件的问题，避免了锁机制带来的性能问题
一旦读入内核的文件系统缓存，便留在那里，只要文件系统存有足够的空间，大部分请求就会直接请求内存，不会命中磁盘，提高了很大的性能
缓存容易生成和维护 / 数据可以被压缩

不可变更性，带来了的挑战：如果需要让一个新的文档可以被搜索，需要重建整个索引

3. Lucence Index

在 Lucene 中，单个倒排索引文件被称为 Segment。Segment 是自包含的，不可变更的。多个 Segment 汇总在一起，称为 Lucene 的 Index，其对应的就是 ES 中的 Shard
当有新文档写入时，会生成新的 Segment, 查询时会同时查询所有的 Segment，并且对结果汇总。Luncene中有个文件，用来记录所有的 Segment 的信息，叫做 Commit Point
删除的文档信息，保存在”.del” 文件中

Elasticsearch 分片及其生命周期

4. 什么是refresh

将 Index buffer 写入 Segment 的过程叫做 Refresh。Refresh 不执行 fsync 操作
Refresh 频率：默认 1 秒发生一次，可通过 index.refresj_interval 配置。Refresh
后，数据就可以被搜索到了。这也就是为什么 ES 被称为近实时搜索
如果系统有大量的数据写入，那就会产生很多的 Segment
Index Buffer 被占满时，会触发 Refresh, 默认值是 JVM 的 10%

5. 什么是Transaction Log

Segment 写入磁盘的过程相对耗时，借助文件系统缓存，Refresh 时，先将 Segment 写入缓存以开放查询
为了保证数据不会丢失。所有在 Index 文档时，同时写 Transaction Log，高版本开始，ra 默认落盘。每个分片都有一个Transaction Log
当 ES Refresh 时，Index Buffer 被清空，Transaction Log 不会清空

Elasticsearch 分片及其生命周期

6. 什么是flush

ES Flush & Lucene Commit

调用 Refresh ，Index Buffer 清空并且 Refresh
调用 fsync, 将缓存中的 Segments 写入磁盘
清空（删除）Transaction Log
默认 30 分钟调用一次
Transaction Log 满（默认 512M）

7. 什么是merge

Segment 很多，需要定期被合并

减少 Segment/ 删除已经删除的文档

ES 和 Lucene 会自动进行 Merge 操作

POST my_index/_forcemerge

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： Linux系统挂载命令mount（U盘、移动硬盘、光盘）下一篇： python中定时任务sched库用法详解

分享：

最后一次编辑于 2023年11月14日 0

暂无评论

推荐阅读

postgres elasticsearch fdw 学习

TEZNKK3IfmPf 2023年11月14日 37 0 0 postgres fdw elasticsearch

ES分布式搜索-索引库操作

TEZNKK3IfmPf 2024年03月22日 56 0 0 分布式 elasticsearch 大数据

SpringData整合Elasticsearch----文档操作

TEZNKK3IfmPf 2023年11月14日 32 0 0 elasticsearch

es安装及使用

TEZNKK3IfmPf 2024年04月26日 37 0 0 搜索引擎 elasticsearch 大数据

K8s 简单集成 SkyWalking

TEZNKK3IfmPf 2023年11月14日 32 0 0 apache java kubernetes elasticsearch

使用postgres_fdw 串接elasticsearch fdw

TEZNKK3IfmPf 2023年11月14日 45 0 0 postgres fdw elasticsearch

elasticsearch报错：exceeds the [index.highlight.max_analyzed_offset] limit [1000000]

TEZNKK3IfmPf 2023年11月14日 38 0 0 elasticsearch 报错

elasticsearch查询操作（API方式）

TEZNKK3IfmPf 2024年04月26日 66 0 0 java 搜索引擎 elasticsearch

ElasticSearch - 基础概念，以及和 mysql 的对比

TEZNKK3IfmPf 2024年03月29日 108 0 0 elasticsearch 大数据

elasticsearch配置内存占用

TEZNKK3IfmPf 2023年11月14日 45 0 0 elasticsearch 内存

ElasticSearch - 基于 JavaRestClient 查询文档（match、精确、复合查询，以及排序、分页、高亮）

TEZNKK3IfmPf 2024年03月29日 49 0 0 elasticsearch 大数据

cube.js 支持 elasticsearch

TEZNKK3IfmPf 2023年11月14日 182 0 0 elasticsearch cube

【教你通透ELK】Elasticsearch 集群管理

I7JaHrFMuDsU 2024年04月26日 57 0 0 elasticsearch

ElasticSearch - 分布式搜索引擎底层实现——倒排索引

TEZNKK3IfmPf 2024年03月29日 38 0 0 elasticsearch

ElasticSearch - 在微服务项目中基于 RabbitMQ 实现 ES 和 MySQL 数据异步同步（考点）

TEZNKK3IfmPf 2024年03月30日 72 0 0 elasticsearch mysql

elasticsearch操作（语句方式）

TEZNKK3IfmPf 2024年04月26日 41 0 0 搜索引擎 elasticsearch 大数据

ElasticSearch - 基于 JavaRestClient 操作索引库和文档

TEZNKK3IfmPf 2024年03月29日 34 0 0 elasticsearch 大数据

Java ElasticSearch 操作

TEZNKK3IfmPf 2023年11月14日 89 0 0 java elasticsearch json

Docker搭建ES

TEZNKK3IfmPf 2023年11月14日 37 0 0 elasticsearch Docker

ElasticSearch开篇

TEZNKK3IfmPf 2023年11月14日 36 0 0 elasticsearch

TEZNKK3IfmPf

作者其他文章更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

最新推荐更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

使用面向对象重构之-从过程式设计到面向对象

2024-06-14

nodejs部署神器pm2的使用体验

2024-06-14

java虚拟机启动过程解析

2024-06-14

mysql-忘记密码时重置操作

2024-06-14

Callable和runnable的区别

2024-06-14

python的粘包和分包

2024-06-14

tftp文件服务（udp端口：69）

2024-06-14

C语言反汇编 - 流程控制与循环结构

2024-06-14

python-列表包字典-根据字典的某一个键的值来进行排序

2024-06-14

使用面向对象重构之-使用接口抽象完成不同维度的扩展

2024-06-14