知识点
相关文章
更多最近更新
更多solr学习之(二)_在solr4.2中部署IKAnalyzer中文分词插件
2019-03-27 00:22|来源: 网路
前几天弄过solr的中文分词插件,当时看了一个博客,一步步来,感觉挺简单的,就没在意,今天觉得应该一步一步把这个细节知识点都过一遍。
1、 下载IK Analyzer 2012FF_hf1.zip压缩包。
下载网址:http://code.google.com/p/ik-analyzer/downloads/list
2、 将IK Analyzer 2012FF_hf1.zip解压,并把解压后的文件夹中的IKAnalyzer2012FF_u1.jar复制到D:\Tomcat6.0\webapps\solr\WEB-INF\lib目录下,也就是solr.war部署的地方。
3、 在D:\Tomcat6.0\webapps\solr\WEB-INF目录下创建classes文件夹,并把IK Analyzer 2012FF_hf1.zip解压包中的IKAnalyzer.cfg.xml和stopword.dic复制到新创建的classes目录中。
4、 配置D:\solr\collection1\conf目录中的schema.xml配置文件。
加入如下配置项:
- <!-- IKAnalyzer 中文分词 -->
- <fieldType name="text" class="solr.TextField">
- <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer">
- </analyzer>
- </fieldType>
5、 启动Tomcat服务器,在浏览器中输入网址:
http://localhost:8983/solr/#/collection1/analysis
如下配置正常,则显示如下界面:
在Field Value (Index)下面的文本框中输入中文:
IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。
然后在Analyse Fieldname / FieldType:右边的下拉框中选择“text”。点击“Analyse Values”则会显示分词的结果:
这样就把IKAnalyzer加入到solr4.2中去了。需要提示一下的是,solr4.2的分词方式与以前的版本有所不同,没有BaseTokenizerFactory接口了。的所以配置的方式也会有所不同。
本文出自 “每天进步一点点” 博客,请务必保留此出处http://sbp810050504.blog.51cto.com/2799422/1179312
转自:http://sbp810050504.blog.51cto.com/2799422/1179312
相关问答
更多-
solr具体怎么处理分词[2022-02-14]
分词器的工作是将一串的文本切成 tokens,这些 token 一般是文本的子集。分析器的处理对象时一个字段,分词器则是面对一串文本,分词器读取一串文本,然后将其切割成一堆的 token 对象。 字符串中的空格或连接符会被删除。字符将被添加或者替换,如映射别名,或者缩写替换缩写为正常格式。分词器可能会产生出与原字段值不一致的token,或者长度与原始文本不一致。这个在token元数据用于文本字段高亮搜索结果时需要注意。 <fieldType name="text" class="solr.Te ... -
solr用qieqie庖丁加入中文分词问题[2021-12-08]
Solr 是一个可供企业使用的、基于 Lucene 的开箱即用的搜索服务器。对Lucene不熟?那么建议先看看下面两篇文档: 实战Lucene,第 1 部分: 初识 Lucene: http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/ 用Lucene加速Web搜索应用程序的开发: http://www.ibm.com/developerworks/cn/web/wa-lucene2/ 一、 solr介绍 solr是基于Lucene J ... -
如何在eclipse中部署solr的web工程[2023-12-18]
1、首先在eclipse(散仙这里是4.2)里,新建一个动态的Web工程。 2、然后起一个项目名叫solrweb,如果第一次使用需要配置一下web容器,tomcat或jetty 3、点击new runtime配置tomcat容器,前提是你下载好的tomcat解压保存在某个盘符 4、然后配置tomcat的路径 5、然后finish,建完项目 6、删除WebContent下的所有内容,到解压后的solr的solr-4.10.0\example\webapps目录下,解压solr.war包,然后拷贝解压后所有的东 ... -
solr的中文是什么意思[2022-03-20]
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。 用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。 -
如何在eclipse中部署solr的web工程[2023-10-24]
在eclipse中调试solr,便于我们更加的清晰的了解solr的运行原理,今天散仙,就详细的写一下如何eclipse部署solr(4.10.0版本)的web工程。 首先在eclipse(散仙这里是4.2)里,新建一个动态的Web工程, 然后起一个项目名叫solrweb,如果第一次使用需要配置一下web容器,tomcat或jetty 点击new runtime配置tomcat容器,前提是你下载好的tomcat解压保存在某个盘符下, 然后配置tomcat的路径 然后finish,建完后的项目结果如下所示: 接 ... -
请问能教教我solr4和庖丁分词整合么[2023-05-17]
我常用 IKAnalyzer 分词, 至于庖丁分词 应该大同小异,你可以借鉴下 第一步,将 IKAnalyzer jar 放到 solr lib 文件夹下 第二步, solr core 的 schema.xml 定义一个自定义 类型,使用 IKAnalyzer 来解析(index&query) 第三步,此时 字段 就可以使用这个类型了 然后,就是些 IK的精细化 配置, 比如 同义词,词典 扩充等等, -
这很容易: 1,将contrib \ analysis-extras \ lucene-libs \ lucene-analyzers-smartcn-xyzjar复制到server \ solr-webapp \ webapp \ WEB-INF \ lib 2,在schema.xml中添加follow内容 3,重新启动solr并输入solr ui,选择core的分析,测试它。 it's very easy : 1 , copy contrib\analysis-extras\lucene-libs\lu ...
-
部署Apache Solr(Deploying Apache Solr)[2022-03-01]
Solr需要在Java EE应用程序服务器中运行。 您可以使用Jetty或Tomcat 。 Nginx将通过AJP或simliar充当代理,将所有RESTless请求转发给Solr。 我没有使用我的ajp与nginx,但我已经读过这个 。 基本上,您将同时运行所有Java EE应用程序服务器,Rails服务器,nginx,passenger和ajp代理。 您还可以设置代理通行证,这里有一个教程 。 探索不同的选项,看看哪一个是你的赌注。 Solr needs to run in a Java EE appl ... -
您可以安装插件,不包括其中的Solr库版本,然后明确包含更新版本。 此处的详细信息将在另一个插件的上下文中进行描述。 假设您已经拥有一个插件开发者帐户,那么下载插件源代码,升级库和发布新版本可能会更容易。 仅供参考,任何人都可以发布新的插件版本,而不仅仅是原始的插件作者。 你的Solr插件用户会为此感谢你。 You could install the plugin, excluding the version of the Solr library therein, then explicitly incl ...
-
函数查询需要索引字段, score不是真实字段,因此您无法使用它。 但我喜欢femtoRgon的方法。 这是另一个版本 您可以将rint()/ product()与query()结合使用 q=rint(product(query({!v="author:alice"}) ,100))&defType=func&fl=*,score&sort=score desc, author desc 替代作者:alice与您的查询。 我不确定性能影响是什么,因为它运行子查询。 你必须检查一下。 Function Qu ...