Elasticsearch中数据是如何存储的?

存储 存储软件
使用Elasticsearch的时候,我们常常需要关注数据存储在Elasticsearch中的存储容量。下面,我们来了解一下Elasticsearch中的数据是如何存储。

 使用Elasticsearch的时候,我们常常需要关注数据存储在Elasticsearch中的存储容量。下面,我们来了解一下Elasticsearch中的数据是如何存储。

[[319021]]

一、Elasticsearch索引结构

Elasticsearch对外提供的是index的概念,可以类比为MySQL DB,用户查询是在index上完成的,每个index由若干个shard组成,以此来达到分布式可扩展的能力。比如下图是一个由10个shard组成的index。

 

Elasticsearch中数据是如何存储的?

 

shard是Elasticsearch数据存储的最小单位,index的存储容量为所有shard的存储容量之和。Elasticsearch集群的存储容量则为所有index存储容量之和。

一个shard就对应了一个lucene的library。对于一个shard,Elasticsearch增加了translog的功能,类似于HBase WAL,是数据写入过程中的中间数据,其余的数据都在lucene库中管理的。

所以,Elasticsearch索引使用的存储内容主要取决于lucene中的数据存储。

二、lucene数据存储

下面了解一下lucene的基本概念。

1. lucene基本概念

  • segment : lucene内部的数据是由一个个segment组成的,写入lucene的数据并不直接落盘,而是先写在内存中,经过了refresh间隔,lucene才将该时间段写入的全部数据refresh成一个segment,segment多了之后会进行merge成更大的segment。lucene查询时会遍历每个segment完成。由于lucene 写入的数据是在内存中完成,所以写入效率非常高。但是也存在丢失数据的风险,所以Elasticsearch基于此现象实现了translog,只有在segment数据落盘后,Elasticsearch才会删除对应的translog。
  • doc : doc表示lucene中的一条记录。
  • field :field表示记录中的字段概念,一个doc由若干个field组成。
  • term :term是lucene中索引的最小单位,某个field对应的内容如果是全文检索类型,会将内容进行分词,分词的结果就是由term组成的。如果是不分词的字段,那么该字段的内容就是一个term。
  • 倒排索引(inverted index): lucene索引的通用叫法,即实现了term到doc list的映射。

 

Elasticsearch中数据是如何存储的?

 

  • 正排数据:搜索引擎的通用叫法,即原始数据,可以理解为一个doc list。
  • doc values:Elasticsearch中的列式存储的名称,Elasticsearch除了存储原始数据、倒排索引,还存储了一份doc values,用作分析和排序。doc values 的存在是因为倒排索引只对某些操作是高效的。 倒排索引的优势在于查找包含某个项的文档,而对于从另外一个方向的相反操作并不高效,即:确定哪些项是否存在单个文档里,聚合需要这种次级的访问模式。

 

Elasticsearch中数据是如何存储的?

 

2. lucene文件内容

lucene包的文件是由很多segment文件组成的,segments_xxx文件记录了lucene包下面的segment文件数量。每个segment会包含如下的文件。

 

Elasticsearch中数据是如何存储的?

 

 

Elasticsearch中数据是如何存储的?

 

一份数据写入Elasticsearch 会产生多份数据用于不同查询方式,会比原数据占用更多磁盘空间。

对照上面的lucene文件表,进行简要归纳:

  • 存储原文_source的文件.fdt .fdm .fdx;
  • 存储倒排索引的文件.tim .tip .doc;
  • 用于聚合排序的列存文件.dvd .dvm;
  • 全文检索文件.pos .pay .nvd .nvm等;
  • 加载到内存中的文件有.fdx .tip .dvm;

其中.tip占用内存最大,而.fdt、.tim、.dvd文件占用磁盘最大。

责任编辑:武晓燕 来源: 今日头条
相关推荐

2023-01-12 15:25:51

Curve数据存储

2024-03-01 09:57:19

数据库检索项目

2017-11-27 08:17:38

存储数据位置

2017-11-01 14:29:38

2019-09-18 11:03:01

数据存储数据库

2018-05-09 10:40:15

云存储数据对象存储

2022-04-08 08:30:42

大数据网络

2021-12-21 09:35:59

CSV存储数据Python

2014-02-27 10:08:33

NoSQL

2013-07-25 14:17:17

2011-12-28 13:30:39

云计算云存储

2018-05-03 08:53:41

Redis存储对象

2021-07-20 09:33:46

数据应用程序开发

2012-08-28 09:29:41

虚拟化

2018-11-02 09:16:05

数据存储磁带

2013-09-10 09:04:41

云计算大数据存储

2022-11-28 19:55:33

亚马逊

2023-11-28 07:29:17

2011-08-11 14:35:47

SQL Server插入更新
点赞
收藏

51CTO技术栈公众号