<fieldType name="textComplex" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
      </analyzer>
    </fieldType>
    <fieldType name="textMaxWord" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
      </analyzer>
    </fieldType>
    <fieldType name="textSimple" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>
      </analyzer>
    </fieldType>

dicPath 指定词库位置（每个MMSegTokenizerFactory可以指定不同的目录，当是相对目录时，是相对 solr.home 的目录），dic要放在solr.home目录下，把mmseg4j-1.8.5\data下的文件全拷贝到dic目录，mode 指定分词模式（simple|complex|max-word，默认是max-word）。

如果不知道solr.home在哪里，可以打开项目

上图圈着的就看出来了，把dic字典文件放到该文件夹下，即我这里的dic目录是

E:\JAVA\MyEclipse 8.6\demo\multicore\core0\dic

4、测试，点击上图中看到的

输入测试，用我们前面定义的分词器textComplex

5、实战开发中，还要自定义field

在 solr的 schema.xml 中定义自己的 fields如：

<field name="my_title" type="textComplex" indexed="true" stored="true" multiValued="true"/>

<field name="my_content" type="textComplex" indexed="true" stored="true" multiValued="true"/>

6、在开发java文件中应用

doc.addField("my_title", "this is test,my doc sys goto sc ood");
doc.addField("my_content", "我爱中国，中国人民爱我，天安门广场");

转自：http://www.cnblogs.com/llz5023/archive/2012/05/23/2515431

知识点

相关文章

最近更新

给Solr添加自己的分词器，mmseg4j

相关问答

有关于IK分词器的在eclipse安装部署的问题[2023-04-07]

java ansj分词器怎么配置[2022-07-22]

solr 分词器配好了在java中怎么用[2022-02-09]

solr分词器搭建完成之后怎么办[2024-01-05]

solr什么是分词器[2021-09-20]

关于lucene中使用中文分词器的问题[2023-02-09]

目前哪些基于 Solr 的分词器比较完善[2022-06-21]

关于lucene中MultiFieldQueryParser.parse的使用[2021-12-15]

想要一个C#分词程序的源文件，是源文件，就是那个程序，不要分词器[2021-09-18]