首页 \ 教程 \ lucene

知识点

Lucene

Lucene：分词器和索引文件

Lucene学习笔记之七：lucene操作索引的几个常用方法

Lucene学习笔记之八：lucene创建索引的时候对文档加权

Lucene学习笔记之十：数字和日期索引

Lucene 4 和 Solr 4 学习笔记(2)

Lucene学习笔记之四：lucene入门实例

Lucene学习笔记之二：lucene是什么

Lucene学习笔记之十二：lucene几种搜索方式

Lucene学习笔记【2013-04-12更新】

Lucene学习笔记之十四：lucene模糊搜索

Lucene学习笔记之十三：lucene短语搜索

Lucene学习笔记之十五：基于QueryParser的搜索

Lucene学习笔记之五：域选项

Lucene学习笔记之三：全文搜索详解

Lucene学习笔记：一，全文检索的基本原理

Lucene学习笔记之六：lucene索引文件

2019-03-07 16:43|来源: 领悟书生

Lucene的索引过程，就是按照全文检索的基本过程，将倒排表写成此文件格式的过程。

Lucene的搜索过程，就是按照此文件格式将索引进去的信息读出来，然后计算每篇文档打分(score)的过程。

1. Lucene的索引结构是有层次结构的，主要分以下几个层次：

索引(Index)：

在Lucene中一个索引是放在一个文件夹中的。同一文件夹中的所有的文件构成一个Lucene索引（库）。

段(Segment)：

一个索引可以包含多个段，段与段之间是独立的，添加新文档可以生成新的段，不同的段可以合并。如上图，具有相同前缀文件的属同一个段，图中共两个段 "_0" 和 "_1"。segments.gen和segments_2是段的元数据文件，也即它们保存了段的属性信息。

文档(Document)：

文档是我们建索引的基本单位，不同的文档是保存在不同的段中的，一个段可以包含多篇文档。新添加的文档是单独保存在一个新生成的段中，随着段的合并，不同的文档合并到同一个段中。

域(Field)：

一篇文档包含不同类型的信息，可以分开索引，比如标题，时间，正文，作者等，都可以保存在不同的域里。不同域的索引方式可以不同，在真正解析域的存储的时候，我们会详细解读。

词(Term)：

词是索引的最小单位，是经过词法分析和语言处理后的字符串。

2. Lucene的索引结构中，即保存了正向信息，也保存了反向信息。

所谓正向信息：

a) 按层次保存了从索引，一直到词的包含关系：索引(Index) –> 段(segment) –> 文档(Document) –> 域(Field) –> 词(Term)

b) 也即此索引包含了那些段，每个段包含了那些文档，每个文档包含了那些域，每个域包含了那些词。

c)既然是层次结构，则每个层次都保存了本层次的信息以及下一层次的元信息，也即属性信息，比如一本介绍中国地理的书，应该首先介绍中国地理的概况，以及中国包含多少个省，每个省介绍本省的基本概况及包含多少个市，每个市介绍本市的基本概况及包含多少个县，每个县具体介绍每个县的具体情况。

d)如上图，包含正向信息的文件有：

segments_N保存了此索引包含多少个段，每个段包含多少篇文档。

XXX.fnm保存了此段包含了多少个域，每个域的名称及索引方式。

XXX.fdx，XXX.fdt保存了此段包含的所有文档，每篇文档包含了多少域，每个域保存了那些信息。

所谓反向信息：

a) 保存了词典到倒排表的映射：词(Term) –> 文档(Document)

b) 如上图，包含反向信息的文件有：

XXX.tis，XXX.tii保存了词典(TermDictionary)，也即此段包含的所有的词按字典顺序的排序。

XXX.frq保存了倒排表，也即包含每个词的文档ID列表。

XXX.prx保存了倒排表中每个词在包含此词的文档中的位置。

_0.fdt、_0.fdx à保存了此段包含的所有文档，每篇文档包含了多少域，每个域保存了那些信息，他们的不同之处是_0.fdt只是保存了Field.Store.YES的

_0.fnmà保存了此段包含了多少个域，每个域的名称及索引方式。

_0.frqà保存了倒排表，也即包含每个词的文档ID列表。

_0.nrmà存放平分信息

_0.prxà保存了倒排表中每个词在包含此词的文档中的位置(偏移量)

_0.tii、_0.tisà存了词典(Term Dictionary)，也即此段包含的所有的词按字典顺序的排序

segments_1à保存了此索引包含多少个段，每个段包含多少篇文档

本文链接：Lucene学习笔记之六：lucene索引文件，领悟书生学习笔记，转载请注明出处http://www.656463.com/article/436

知识点

相关文章

最近更新

Lucene学习笔记之六：lucene索引文件

相关问答

solr查看索引文件夹能想lucene那样呗luck打开查看吗？[2023-08-08]

lucene怎么用[2022-07-03]

查询Lucene索引文件(Querying a Lucene index file)[2021-08-05]

Zend Lucene的索引文件在哪里？(Where are the index files of Zend Lucene?)[2023-10-10]

lucene索引文件随机崩溃，需要重新索引(lucene index file randomly crash and need to reindex)[2021-11-21]

将字段存储在数据库或Lucene索引文件中(Store fields in database or in Lucene index file)[2021-07-10]

在Lucene中索引文件路径或URI(Indexing file paths or URIs in Lucene)[2023-08-17]

Lucene：如何索引文件名(Lucene: how to index file names)[2023-05-12]

如何从Lucene的IndexReader读取索引？(How to read indexes from IndexReader in Lucene?)[2023-06-14]

Lucene索引文件损坏(Lucene Index files getting Corrupted)[2022-05-20]

知识点

相关文章

最近更新

Lucene学习笔记之六：lucene索引文件

相关问答

solr查看索引文件夹能想lucene那样呗luck打开查看吗 ？[2023-08-08]

lucene怎么用[2022-07-03]

查询Lucene索引文件(Querying a Lucene index file)[2021-08-05]

Zend Lucene的索引文件在哪里？(Where are the index files of Zend Lucene?)[2023-10-10]

lucene索引文件随机崩溃，需要重新索引(lucene index file randomly crash and need to reindex)[2021-11-21]

将字段存储在数据库或Lucene索引文件中(Store fields in database or in Lucene index file)[2021-07-10]

在Lucene中索引文件路径或URI(Indexing file paths or URIs in Lucene)[2023-08-17]

Lucene：如何索引文件名(Lucene: how to index file names)[2023-05-12]

如何从Lucene的IndexReader读取索引？(How to read indexes from IndexReader in Lucene?)[2023-06-14]

Lucene索引文件损坏(Lucene Index files getting Corrupted)[2022-05-20]

solr查看索引文件夹能想lucene那样呗luck打开查看吗？[2023-08-08]