首页 \ 教程 \ solr

知识点

Solr

solr4.3之配置中文分词smartcn

tomcat8 下配置solr4.9

Windows下面安装和配置Solr 4.9（三）支持中文分词器

荐 solr4.9在tomcat7下安装、配置

linux下配置tomcat7 + solr4.9

linux下配置tomcat7 + solr4.9（续）--- 多核索引的配置

Solr中文分词配置（2）

Solr4.9 部署到tomcat上

solr4.3之配置中文分词IK

Solr入门之（8）中文分词器配置

solr 4.9配置IKAnalyzer

Solr部署配置（二）中文分词设置

solr中文分词

solr4.9之配置中文分词smartcn

2019-03-27 01:17|来源: 网路

solr4.3默认的分词器是一元分词器，这个本来就是对英文进行分词的，英文大部分就是典型的根据空格进行分词，而中文如果按照这个规则，那么显然是要有很多的冗余词被分出来，一些没有用的虚词，数词，都会被分出来，影响效率不说，关键是分词效果不好，所以可以利用solr的同步发行包smartcn进行中文切词，smartcn的分词准确率不错，但就是不能自己定义新的词库，不过smartcn是跟solr同步的，所以不需要额外的下载，只需在solr的例子中拷贝进去即可，下面给出路径图和安装solr4.3的smartcn分词过程
无论安装那种分词器，大部分都有2个步骤，第一步是拷贝jar包到solr的lib中

Java代码

C:\桌面\solr-4.3.0\contrib\analysis-extras\lucene-libs
F:\eclipse10tomcat\webapps\solr\WEB-INF\lib
smartcn的同步发行包:lucene-analyzers-smartcn-4.3.0.jar

这个弄好之后，就需要在schemal.xml文件中，注册分词器了

Java代码

<fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
<!--
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
-->
<!-- in this example, we will only use synonyms at query time
<filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
-->
<filter class="solr.SmartChineseWordTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
<!--
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
-->
<filter class="solr.SmartChineseWordTokenFilterFactory"/>
</analyzer>
</fieldType>

最后在引用一下字段类型就可以了

Java代码

<field name="sma" type="text_smart" indexed="true" stored="true" multiValued="true"/>

访问http://localhost:8080/solr/#/collection1点击分词分析即可查看分词效果

转自：http://blog.csdn.net/u012027091/article/details/37931455

知识点

相关文章

最近更新

solr4.9之配置中文分词smartcn

相关问答

java编个中文分词的程序[2022-01-23]

java编一个中文分词的程序！[2022-01-08]

java中文分词系统[2022-06-24]

Java中文分词算法[2022-09-23]

请问solr suggest如何配置搜索中文建议[2022-10-06]

solr ik分词怎么能同时实现中英文数字同时分词[2023-03-30]

solr用qieqie庖丁加入中文分词问题[2021-12-08]

solr的中文是什么意思[2022-03-20]

lucene 中文分词？[2022-07-24]

什么语言用的人最多[2023-09-29]