ik分词

2019-03-27 01:12|来源: 网路

Ik中文分词的引入

ik版本号:IK Analyzer 2012FF_hf1

下载地址: http://code.google.com/p/ik-analyzer/downloads/list 解压

l IKAnalyzer2012FF_u1.jarIKAnalyzer.cfg.xmlstopword.dic

拷到E:\apache-tomcat-7.0.40\webapps\solr\WEB-INF\lib

l 修改E:\apache-tomcat-7.0.40\webapps\solr\solr_home\collection1\conf下的schema.xml 

<fieldType name="text_ik" class="solr.TextField">   

<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>   

</fieldType>注意放的位置,这个要放到</types>之前(注意事项:输入的这段是英文的。。。一般编码错误就是因为这里的输入有误)

l 重启tomcat, http://localhost:8080/solr 如图选择text_ik,刚才自定义的名字,在框中输入中文,点击Analyse Values即可看见分词结果。

 


转自:http://www.cnblogs.com/daifei/p/3447282

相关问答

更多
  • 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 从基于字符串匹配的分词方法,中文分词的实现思路如下: 1 提供一个词典 2 在字符串中正向扫描或者反向扫描匹配 将字符串中多个字符取出后进行词典匹配 这个是效率最低的方式 另外就是基于统计方式,记录字与字一同出现的频率,实现分词
  • ik分词器简单容易控制啊,反正我个人觉得ik不错
  • 你直接把这两个文件ctrl c 然后鼠标点击项目 再ctrl v 相当于拷贝到项目根目录 反正我是这样弄的 可以用
  • 这两天正好在玩lucene,没用庖丁 分词,主要是嫌它要配置环境,麻烦 下面是demo,记得要加lucene-core-2.3.2.jar和lucene-Analyzer.jar以及IKAnalyzer.jar这几个包,有问题call我 import java.io.Reader; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.StopFil ...
  • 可以看下这个Solr安装部署,里边包括安装、部署、添加中文分词等等
  • 安装IK分词器:https://github.com/medcl/elasticsearch-analysis-ik cd /usr/share/elasticsearch/plugins/ --也可以在/data目录下 git clone https://github.com/medcl/elasticsearch-analysis-ik --下载IK Analysis for elasticsearch cd elasticsearch-analysis-ik mvn clean             ...
  • StandardAnalyzer是可以用于中文分词,但它是一元分词,机械地将一个汉字做为一个词元来切分的,速度慢不说,语义也没有了,当然应该能保证查全率,呵呵. ChineseAnalyzer比它好一点,也相当于一元分词。 lucene的第三方分词包有很多,上面两个不建议使用。可以去了解: IK_CAnalyzer 庖丁解牛分词器 JE分词器
  • 现在tasting 过去tasted
  • write的现在分词[2022-08-19]

    write: [ rait ] v. 写 词形变化: 动词过去式:wrote 过去分词:written 现在分词:writing 例句与用法: 1. I've been writing for three hours. 我已经写了三个小时了。 2. I wish he would write more often. 我希望他来信更勤些。
  • skipping skipped