Lucene 4.0 发布

2019-03-27 01:14|来源: 网路

Apache项目近日发布了Lucene 4.0版本。
Apache Lucene是一个基于Java的、高性能的全文检索引擎,你可以利用它来为你的应用程序加入索引和检索功能。Lucene是目前最为流行的基于 Java 开源全文检索工具包。


Apache Lucene 4.0的主要特新包括:


  • 针对词(term)、文章列表、存储字段、词语向量(term vector)的索引格式可通过Codec API来实现定制。你可以从提供的实现中选择,也可以自定义索引格式。
  • 新的doc值,用于存储每个文档的类型值。
  • 现在当应用程序使用多线程进行索引时,IndexWriter同时flushes segments到磁盘,从而显著改善了性能。
  • 添加了新的索引统计。
  • 新的默认词典/index(BlockTree)索引共享前缀。
  • 索引词语不再局限于UTF-16字符,可以是编码为字节数组的任意二进制值,默认情况下,被编码为UTF-8。
  • 显著改善了搜索中使用过滤器的性能。
  • 基于文件系统的目录能够限制合并线程的IO速率,以减少合并和搜索中的IO争用。
  • 添加了一些备用的编解码器和组件。
  • FuzzyQuery速度比之前版本快了100-200倍。
  • 添加了一个新的拼写检查器DirectSpellChecker。
  • 提供了一个模块化的API,重组了之前分散在Lucene核心、发布版本和Solr中的组件,如Analyzers、Queries等。

From:Apache Lucene 4.0 released

 

下载地址:


 


 


转自:http://www.cnblogs.com/bluepoint2009/archive/2012/10/30/lucene-40-released

相关问答

更多
  • lucene 使用步骤[2022-10-07]

    lucene主要完成的是Indexing&Search功能,所以一般使用步骤: 建索引、优化索引 和搜索
  • lucene怎么用[2022-07-03]

    Lucene是一个全文检索系统框架,开源的。 用起来比较方便,去Lucene的官网上下一个包并导入到你的工程中就可以调用包里面的类了。 一般的书里面介绍的版本都是1.4.3或者稍微高级一点的,不过现在lucene3.0正式发布,一些函数调用方法已经改变了,你可以下载一个版本低一点的Lucene比较适合学习~ 当然你直接从3.0入手的话网上资料也是非常丰富的~
  • 这不是很简单的问题?把HTML目录设置成lucene的索引目录,再用程序读出HTML文件代码,再索引HTML文件内容
  • 看看这里: https://builds.apache.org//job/Lucene-Solr-Maven-trunk/lastSuccessfulBuild/artifact/maven_artifacts/ 从开发人员文档页面: http : //lucene.apache.org/java/docs/developer-resources.html Take a look here: https://builds.apache.org//job/Lucene-Solr-Maven-trunk/las ...
  • 你有没有看到javadocs ? 这些文档又指向您正在寻找的SpatialExample.java 。 我能做些什么来使他们更加明显? 如果您倾向于使用一对双打作为内部索引方法,那么使用PointVectorStrategy。 但是,如果您改为使用RecursivePrefixTreeStrategy,则会获得卓越的过滤器性能。 目前,PVS虽然具有更好的距离排序功能,但具有更好的可扩展性。 你可以使用它们各自的好处。 只要看看你的例子,我看到你没有使用SpatialStrategy.createIndex ...
  • Railo 4使用Lucene 2.4.1 - 你怎么知道? 您可以使用相同的方式告知Railo使用的所有第三方软件的版本:找到JAR文件(在lib / ext目录中),打开该存档(使用7-zip或等效文件),然后查看META-INF / MANIFEST。你可以在MF找到这样的内容: 规范 - 标题:Lucene搜索引擎:核心规范 - 版本:2.4.1规范 - 供应商:Apache软件基金会实施 - 标题:org.apache.lucene实现 - 版本:2.4.1 750176 - 2009-03-04 ...
  • Lucene已经重新构建,以前在核心模块中的一些类现在位于子模块中。 现在,您将在queryparser子模块中找到QueryParser 。 同样,许多有用的分析器,标记器和令牌过滤器已被移至分析子模块。 关于IndexWriter,不推荐使用最大字段长度选项,现在建议使用LimitTokenCountAnalyzer (在分析子模块中)包装分析器。 Lucene has been re-architectured, and some classes which used to be in the cor ...
  • 你可以在这里找到一个很好的修剪模块: http://issues.apache.org/jira/browse/LUCENE-1812 http://issues.apache.org/jira/browse/LUCENE-2632 ZP There is a good pruning module that you can find here: http://issues.apache.org/jira/browse/LUCENE-1812 http://issues.apache.org/jira/br ...
  • 添加文档后,您是否(重新)打开了索引? Lucene搜索仅返回索引打开搜索时存在的文档。 [编辑...] 使用IndexReader.Open()或IndexReader.doOpenIfChanged()再次打开索引。 doOpenIfChanged()的优点是,如果仍然可以使用旧的IndexReader实例(因为索引未更改),则返回null。 (如果我没记错的话, DirectoryReader.Open()只打开索引目录,因此如果只调用DirectoryReader.Open ,则更高级别的Lucen ...
  • 我敢打赌,你需要使用http://lucene.apache.org/core/4_0_0/core/org/apache/lucene/index/AtomicReader.html ,它有所有需要的方法。 另外看看这里 - http://lucene.apache.org/core/4_0_0/core/org/apache/lucene/index/IndexReader.html - 它解释了如何创建所需的读者。 My bet is that you need to use http://lucen ...