Nutla --- Lucene + Hadoop 分布式搜索运行框架

2019-03-28 14:04|来源: 网络

Nutla

http://code.google.com/p/nutla/

Katta

http://katta.sourceforge.net/

介绍:http://www.linuxidc.com/Linux/2012-02/53115.htm

参考资料:

http://www.linuxidc.com/Linux/2012-02/53110.htm

http://www.linuxidc.com/Linux/2012-02/53111.htm

http://www.linuxidc.com/Linux/2012-02/53112.htm

http://www.linuxidc.com/Linux/2012-02/53113.htm

http://www.linuxidc.com/Linux/2012-02/53114.htm

让Lucene能搜索HDFS下的索引:

  1.     public static void main(String[] args) throws IOException   
  2.     {  
  3.         Configuration conf = new Configuration();     
  4.         FileSystem fs = FileSystem.get(conf);  
  5.         FsDirectory dir=new FsDirectory(fs, new Path("nutindex/0/"), false, conf);  
  6.         IndexReader reader = IndexReader.open(dir);  
  7.         System.out.println(reader.numDocs());  
  8.         for(int i=0;i<reader.numDocs();i++)  
  9.         {  
  10.            System.out.println(reader.document(i).get("id"));  
  11.         }  
  12.         reader.close();  
  13.    }  

相关问答

更多
  • solr+hadoop(elasticsearch和solr类似,有hadoop模块,你也可以试试) 在不能满足需求的时候可以改底层的lucene
  • 您好,很高兴为您解答。 solr+hadoop好点 elasticsearch和solr类似,有hadoop模块,在不能满足需求的时候可以改底层的lucene 如若满意,请点击右侧【采纳答案】,如若还有问题,请点击【追问】 希望我的回答对您有所帮助,望采纳! ~ O(∩_∩)O~
  • 1、能搭好环境说明水平还不错。 2、下边应该分以下几步走: 一,依据示例程序,自己手写wordcount之类的示例程序,以此充分了解m/r和hdfs的简单原理。 二,针对某些知识点,如hadoop应用场景、hadoop的简单应用等,去百度一下搞定,这样的问题最关键、最需要做的。 三,深入阅读hadoop的源码,把框架的数据流或说工作流搞个大致清楚。 四,试着用hadoop解决一些实际问题和项目应用。 参考下吧。
  • lucene怎么用[2022-07-03]

    Lucene是一个全文检索系统框架,开源的。 用起来比较方便,去Lucene的官网上下一个包并导入到你的工程中就可以调用包里面的类了。 一般的书里面介绍的版本都是1.4.3或者稍微高级一点的,不过现在lucene3.0正式发布,一些函数调用方法已经改变了,你可以下载一个版本低一点的Lucene比较适合学习~ 当然你直接从3.0入手的话网上资料也是非常丰富的~
  • 若在windows的Eclipse工程中直接启动mapreduc程序,需要先把hadoop集群的配置目录下的xml都拷贝到src目录下,让程序自动读取集群的地址后去进行分布式运行(您也可以自己写java代码去设置job的configuration属性)。   若不拷贝,工程中bin目录没有完整的xml配置文件,则windows执行的mapreduce程序全部通过本机的jvm执行,作业名也是带有“local"字眼的作业,如 job_local2062122004_0001。 这不是真正的分布式运行mapred ...
  • 搭建的文本,很久了,现在更新的最新版本搭建更加简单,建议你去看看黑马里边的教程,免费的
  • hadoop集群指的是一群机器在一起提供一个hadoop的集群的服务。 hadoop分布式指的是hadoop支持任务分布式运行,因为有hadoop集群提供服务,所以hadoop将任务分发到集群的多台机器运行,所以叫做分布式。 一个是服务器架构,一个是任务运行架构。
  • 你有什么要求? 我估计有99%的人要求使用超级可扩展的Lucene,发现Solr(甚至开箱即用的Lucene)不仅满足了他们的需求。 如果您是少数人每秒有数千个查询超过PB级数据的人之一,LinkedIn会使用基于Lucene + Hadoop的解决方案( zoie )进行实时搜索。 我不确定你在哪里读到Hadoop“不适合实时系统” - 毫无疑问,某些系统的框架并不理想,但Hadoop上运行着大量的实时应用程序。 What are your requirements? I would estimate t ...
  • Lucene是一个倒置的全文索引。 这意味着它需要所有的文档,将它们分成单词,然后为每个单词生成一个索引。 由于索引是一个精确的字符串匹配,无序,它可以非常快。 假设, varchar字段上的SQL无序索引可能会很快,实际上我认为你会发现大型数据库可以在这种情况下很快地做一个简单的字符串相等查询。 Lucene不必优化事务处理。 当您添加文档时,它不需要确保查询立即查看。 并且不需要优化现有文档的更新。 但是,一天结束的时候,如果你真的想知道,你需要阅读源码。 毕竟,你引用的两件事都是开源的。 Lucene ...
  • 要知道您是以独立还是伪分布模式运行hadoop,请验证您的配置文件。 以下信息可能有帮助。 To know if you are running hadoop in Standalone or Pseudo distributed mode, verify your configuration files. Below information might help.