solr学习之(二)_在solr4.2中部署IKAnalyzer中文分词插件

2019-03-27 00:22|来源: 网路

 前几天弄过solr的中文分词插件,当时看了一个博客,一步步来,感觉挺简单的,就没在意,今天觉得应该一步一步把这个细节知识点都过一遍。

1、  下载IK Analyzer 2012FF_hf1.zip压缩包。

下载网址:http://code.google.com/p/ik-analyzer/downloads/list

2、  IK Analyzer 2012FF_hf1.zip解压,并把解压后的文件夹中的IKAnalyzer2012FF_u1.jar复制到D:\Tomcat6.0\webapps\solr\WEB-INF\lib目录下,也就是solr.war部署的地方。

3、  D:\Tomcat6.0\webapps\solr\WEB-INF目录下创建classes文件夹,并把IK Analyzer 2012FF_hf1.zip解压包中的IKAnalyzer.cfg.xmlstopword.dic复制到新创建的classes目录中。

4、  配置D:\solr\collection1\conf目录中的schema.xml配置文件。

加入如下配置项:

         
         
 
   
  1. <!-- IKAnalyzer 中文分词 --> 
  2.        <fieldType name="text" class="solr.TextField"> 
  3.               <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"> 
  4.               </analyzer>  
  5.        </fieldType> 

5、  启动Tomcat服务器,在浏览器中输入网址:

http://localhost:8983/solr/#/collection1/analysis

如下配置正常,则显示如下界面:

 

Field Value (Index)下面的文本框中输入中文:

IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。

然后在Analyse Fieldname / FieldType:右边的下拉框中选择“text”。点击“Analyse Values”则会显示分词的结果:

 

这样就把IKAnalyzer加入到solr4.2中去了。需要提示一下的是,solr4.2的分词方式与以前的版本有所不同,没有BaseTokenizerFactory接口了。的所以配置的方式也会有所不同。

 

 

 

 

 

本文出自 “每天进步一点点” 博客,请务必保留此出处http://sbp810050504.blog.51cto.com/2799422/1179312


转自:http://sbp810050504.blog.51cto.com/2799422/1179312

相关问答

更多
  • 分词器的工作是将一串的文本切成 tokens,这些 token 一般是文本的子集。分析器的处理对象时一个字段,分词器则是面对一串文本,分词器读取一串文本,然后将其切割成一堆的 token 对象。 字符串中的空格或连接符会被删除。字符将被添加或者替换,如映射别名,或者缩写替换缩写为正常格式。分词器可能会产生出与原字段值不一致的token,或者长度与原始文本不一致。这个在token元数据用于文本字段高亮搜索结果时需要注意。 <fieldType name="text" class="solr.Te ...
  • Solr 是一个可供企业使用的、基于 Lucene 的开箱即用的搜索服务器。对Lucene不熟?那么建议先看看下面两篇文档:   实战Lucene,第 1 部分: 初识 Lucene: http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/   用Lucene加速Web搜索应用程序的开发: http://www.ibm.com/developerworks/cn/web/wa-lucene2/   一、 solr介绍   solr是基于Lucene J ...
  • 1、首先在eclipse(散仙这里是4.2)里,新建一个动态的Web工程。 2、然后起一个项目名叫solrweb,如果第一次使用需要配置一下web容器,tomcat或jetty 3、点击new runtime配置tomcat容器,前提是你下载好的tomcat解压保存在某个盘符 4、然后配置tomcat的路径 5、然后finish,建完项目 6、删除WebContent下的所有内容,到解压后的solr的solr-4.10.0\example\webapps目录下,解压solr.war包,然后拷贝解压后所有的东 ...
  • Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。 用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。
  • 在eclipse中调试solr,便于我们更加的清晰的了解solr的运行原理,今天散仙,就详细的写一下如何eclipse部署solr(4.10.0版本)的web工程。 首先在eclipse(散仙这里是4.2)里,新建一个动态的Web工程, 然后起一个项目名叫solrweb,如果第一次使用需要配置一下web容器,tomcat或jetty 点击new runtime配置tomcat容器,前提是你下载好的tomcat解压保存在某个盘符下, 然后配置tomcat的路径 然后finish,建完后的项目结果如下所示: 接 ...
  • 我常用 IKAnalyzer 分词, 至于庖丁分词 应该大同小异,你可以借鉴下 第一步,将 IKAnalyzer jar 放到 solr lib 文件夹下 第二步, solr core 的 schema.xml 定义一个自定义 类型,使用 IKAnalyzer 来解析(index&query) 第三步,此时 字段 就可以使用这个类型了 然后,就是些 IK的精细化 配置, 比如 同义词,词典 扩充等等,
  • 这很容易: 1,将contrib \ analysis-extras \ lucene-libs \ lucene-analyzers-smartcn-xyzjar复制到server \ solr-webapp \ webapp \ WEB-INF \ lib 2,在schema.xml中添加follow内容 3,重新启动solr并输入solr ui,选择core的分析,测试它。 it's very easy : 1 , copy contrib\analysis-extras\lucene-libs\lu ...
  • Solr需要在Java EE应用程序服务器中运行。 您可以使用Jetty或Tomcat 。 Nginx将通过AJP或simliar充当代理,将所有RESTless请求转发给Solr。 我没有使用我的ajp与nginx,但我已经读过这个 。 基本上,您将同时运行所有Java EE应用程序服务器,Rails服务器,nginx,passenger和ajp代理。 您还可以设置代理通行证,这里有一个教程 。 探索不同的选项,看看哪一个是你的赌注。 Solr needs to run in a Java EE appl ...
  • 您可以安装插件,不包括其中的Solr库版本,然后明确包含更新版本。 此处的详细信息将在另一个插件的上下文中进行描述。 假设您已经拥有一个插件开发者帐户,那么下载插件源代码,升级库和发布新版本可能会更容易。 仅供参考,任何人都可以发布新的插件版本,而不仅仅是原始的插件作者。 你的Solr插件用户会为此感谢你。 You could install the plugin, excluding the version of the Solr library therein, then explicitly incl ...
  • 函数查询需要索引字段, score不是真实字段,因此您无法使用它。 但我喜欢femtoRgon的方法。 这是另一个版本 您可以将rint()/ product()与query()结合使用 q=rint(product(query({!v="author:alice"}) ,100))&defType=func&fl=*,score&sort=score desc, author desc 替代作者:alice与您的查询。 我不确定性能影响是什么,因为它运行子查询。 你必须检查一下。 Function Qu ...