首页 \ 教程 \ solr

知识点

Solr

Lucene4：创建FastVectorHighlighter高亮查询

Lucene4：创建一个简单查询

关键词

Solr4：查询参数fq的用法（对结果进行过滤；两组关键词组合查询）

Solr4：利用Filter实现两组关键词组合查询

Solr/Lucene日志分析-查询热点词-脚本工具

Lucene查询语法

【微信开发学习笔记】01消息自动回复&关键词自动回复

solr 分页查询与高亮显示

Lucene4：运用中文分词器创建索引，给指定文本增加boost值

微信与微博竞争白热化疑微信屏蔽新浪微博关键词

IT新潮关键词汇整理

Lucene4：了解评分（explain）机制

Solr(二)创建索引和查询索引的基本应用

Lucene4：获取中文分词结果，根据文本计算boost

Lucene4：创建查询，并高亮查询关键词

2019-03-27 01:06|来源: 网路

1. 要求

环境：

　　Lucene 4.1版本/IKAnalyzer 2012 FF版本/mmseg4j 1.9版本
功能：
　　1).高亮查询演示

注意：

此篇文章开始，索引目录将不再使用示范目录，而是使用真实的数据。即LUCENE_INDEX_DIR = "C:\\lucene\\data"改到了LUCENE_INDEX_DIR = "C:\\solr\\news\\data\\index"。

2. 实现代码

package com.clzhang.sample.lucene;

import java.io.*;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.Fragmenter;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleSpanFragmenter;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.search.highlight.TokenSources;
import org.apache.lucene.util.Version;

import com.chenlb.mmseg4j.Dictionary;
import com.chenlb.mmseg4j.analysis.SimpleAnalyzer;
import com.chenlb.mmseg4j.analysis.ComplexAnalyzer;

import org.junit.Test;

/**
 * 环境：Lucene 4.1版本/IKAnalyzer 2012 FF版本/mmseg4j 1.9版本
 * 功能：
 * 1.高亮查询演示
 * @author Administrator
 *
 */
public class HighlightDemo {
    // mmseg4j字典路径
    private static final String MMSEG4J_DICT_PATH = "C:\\solr\\news\\conf";
    private static Dictionary dictionary = Dictionary.getInstance(MMSEG4J_DICT_PATH);
    
    // Lucene索引存放路径 
    private static final String LUCENE_INDEX_DIR = "C:\\solr\\news\\data\\index";

    @Test
    public void testHighlighting() throws Exception {
        // 独立测试Highlighting的代码
        String text = "台保钓人士拟起诉日当局 感谢大陆海监船驰援";
        TermQuery query = new TermQuery(new Term("title", "当局"));

        TokenStream tokenStream = new ComplexAnalyzer(dictionary).tokenStream(
                "title", new StringReader(text));
        QueryScorer scorer = new QueryScorer(query, "title");
        Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);
        Highlighter highlighter = new Highlighter(scorer);
        highlighter.setTextFragmenter(fragmenter);
        String hlText = highlighter.getBestFragment(tokenStream, text);
        
        System.out.println(hlText);
        System.out.println("--------------------------");
    }
    
    @Test
    public void doHighlightQuery() throws Exception {
        // 实例化IKAnalyzer分词器
//        Analyzer analyzer = new IKAnalyzer();
        
        // 实例化mmseg4j分词器
        Analyzer analyzer = new SimpleAnalyzer(dictionary);

        // 实例化搜索器
        Directory directory = FSDirectory.open(new File(LUCENE_INDEX_DIR));
        DirectoryReader reader = DirectoryReader.open(directory);
        IndexSearcher searcher = new IndexSearcher(reader);
        final String FIELD_NAME = "webTitle";
        String keyword = "记者";

        // 使用QueryParser查询分析器构造Query对象
        QueryParser qp = new QueryParser(Version.LUCENE_41, FIELD_NAME, analyzer);
        Query query = qp.parse(keyword);
        
        // 搜索相似度最高的5条记录
        TopDocs hits = searcher.search(query, 5);
        System.out.println("命中：" + hits.totalHits);

        // 高亮代码1
        QueryScorer scorer = new QueryScorer(query, FIELD_NAME);
        // 下面是指定高亮代码样式的代码
        SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter("<EM>", "</EM>"); 
        Highlighter highlighter = new Highlighter(simpleHtmlFormatter, scorer);
        highlighter.setTextFragmenter(
                       new SimpleSpanFragmenter(scorer));

        // 输出结果
        for (ScoreDoc scoreDoc : hits.scoreDocs) {
            Document doc = searcher.doc(scoreDoc.doc);
            String title = doc.get(FIELD_NAME);
            
            // 高亮代码2
            TokenStream stream = TokenSources.getAnyTokenStream(
                    searcher.getIndexReader(), scoreDoc.doc, FIELD_NAME, doc, analyzer);
            String fragment = highlighter.getBestFragment(stream, title);
            System.out.println(fragment);
        }
        reader.close();
        directory.close();

        System.out.println("--------------------------");
    }
}

输出：

台保钓人士拟起诉日当局 感谢大陆海监船驰援
--------------------------
命中：125
浙江杭州一男子涉嫌殴打记者被警方抓获
领导快看；记者曝光！
[视频]节前聚焦烟花爆竹安全居民楼内存花炮 记者举报无人监管 20130203
老夫看过记者关于肖某勒索的调查视频，可以说，“胁从犯罪”的证据极为明显——问题就在于，曾经处理方哦，算是结了案，再次处理，法理上有疑问
记者调查:重庆忠县一桩疑窦重生的受贿案(转载)
--------------------------

转自：http://www.cnblogs.com/nayitian/archive/2013/01/25/2876900

知识点

相关文章

最近更新

Lucene4：创建查询，并高亮查询关键词

1. 要求

2. 实现代码

输出：

相关问答

Mysql的高级查询[2023-01-24]

Lucene是什么？[2022-06-24]

Git提交消息中的Phabricator关键词(Phabricator Key Words in Git Commit Messages)[2022-02-23]

如何将关键词放入NLTK标记化？(How to put key-words in NLTK tokenize?)[2022-02-19]

查询HIVE中的关键词(Querying a Key word in HIVE)[2022-12-17]

Python中的关键词提取(Key word extraction in Python)[2023-12-16]

Lucene - 如何在查询中创建多个单词而不是OR(Lucene - how to make multiple words within query AND instead of OR together)[2022-12-16]

Zend_Search_Lucene范围查询错误(Zend_Search_Lucene range query error)[2023-08-21]

Seaborn Heatmap关键词(Seaborn Heatmap Key Words)[2022-10-02]

如何根据MySQL中的关键词过滤数据？(how to filter data according to key words in MySQL?)[2022-09-15]