首页 \ 教程 \ solr

知识点

Solr

Solr4：查询参数fq的用法（对结果进行过滤；两组关键词组合查询）

Lucene4：创建查询，并高亮查询关键词

关键词

IT新潮关键词汇整理

利用SOLR搭建企业搜索平台之六（solr查询参数说明）

Solr4：索引的复制

【微信开发学习笔记】01消息自动回复&关键词自动回复

Solr4：Hello World级别示范

mmseg4j-1.9 solr4 bug 处理

Solr4：加入中文分词IKAnalyzer2012 FF

Solr4：加入中文分词mmseg4j

微信与微博竞争白热化疑微信屏蔽新浪微博关键词

Solr4：Tomcat7下面配置Solr

solr4使用时常见异常及处理（转）

Solr4 集成 mmseg4j 需要修改的问题

Solr4：利用Filter实现两组关键词组合查询

2019-03-27 01:06|来源: 网路

本文参考：Lucene4.1：利用Filter实现两组关键词组合查询

1. 需求

根据客户名称，查询客户网络上面的负面信息。如客户名称为”盐城盐城市“，并自定义负面关键词“贪污受贿被曝曝光小三裸照”等，则是要求将包含这些负面关键词且包含客户名称的信息查询出来。注意事项：客户名称可定义多个（10个以内），负面关键词可以定义多个（300个以内）。

分析

如果只用一个参数q去定义查询，很可能查询字符串长度会溢出，查询q应该形如：

((盐城 OR 盐城市) AND 贪污) OR ((盐城 OR 盐城市) AND 受贿)......

所以本文采用Filter的形式来解决这一问题。

2. 解决步骤

步骤一：将所需要查询的客户名称、负面关键词加入到中文分词器词典文件中；（本文略）
         只有中文能够将这些关键词正确分词，其它各项操作才能顺利进行。
步骤二：用爬虫工具将网络上的信息抓取下来后，在创建Lucene索引的时候，将包含负面关键词的文档自定义分值（包含负面关键词越多，分值越高）；（说明略，可以参考：Lucene4.1：运用中文分词器创建索引，给指定文本增加boost值）
         这样可以保证查询时，包含负面关键词越多的文档，查询时排在越前面。
步骤三：按客户名称查询（如：盐城盐城市）；
         正常查询输入。
步骤四：查询时加入过滤器（Filter），过滤器的输入就是负面关键词列表；
         加入过滤器后，实现的查询结果类似于：((盐城 OR 盐城市) AND 贪污) OR ((盐城 OR 盐城市) AND 受贿)......
步骤五：自定义高亮结果。
         因为客户名称需要高亮，负面关键词也需要高亮，所以需要自定义高亮显示。

3. SlorJ实现代码

package com.clzhang.sample.solr;

import java.io.*;
import java.util.*;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleSpanFragmenter;
import org.apache.lucene.search.highlight.TokenSources;
import org.apache.lucene.util.Version;
import org.apache.solr.client.solrj.SolrQuery;
import org.apache.solr.client.solrj.impl.HttpSolrServer;
import org.apache.solr.client.solrj.response.QueryResponse;
import org.apache.solr.common.SolrDocumentList;
import org.apache.solr.common.SolrDocument;

import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import com.chenlb.mmseg4j.Dictionary;
import com.chenlb.mmseg4j.analysis.ComplexAnalyzer;

/**
 * 综合：按客户名称查询客户网络上面的负面信息
 * @author Administrator
 *
 */
public class SlorJHighlightTest {
    // mmseg4j字典路径
    private static final String MMSEG4J_DICT_PATH = "C:\\solr\\mm4jdic";
    private static Dictionary dictionary = Dictionary.getInstance(MMSEG4J_DICT_PATH);

    private HttpSolrServer server;
    private static final String DEFAULT_URL = "http://localhost:8080/solr/news";

    @Before
    public void init() {
        // 初始化Solr服务器句柄
        server = new HttpSolrServer(DEFAULT_URL);
        server.setMaxRetries(1); // defaults to 0. > 1 not recommended.
        server.setConnectionTimeout(5000); // 5 seconds to establish TCP
        server.setSoTimeout(1000); // socket read timeout
        server.setDefaultMaxConnectionsPerHost(100);
        server.setMaxTotalConnections(100);
        server.setFollowRedirects(false); // defaults to false
        server.setAllowCompression(true);
    }

    @After
    public void destory() {
        server = null;
        System.runFinalization();
        System.gc();
    }

    @Test
    public void queryCase() {
        // 步骤一：查询关键词
        String keyword = "(盐城 盐城市)";
        SolrQuery params = new SolrQuery("webTitle:" + keyword);
        params.set("start", 0);
        params.set("rows", 5);
        params.set("fl", "objectId,webTitle,webContent");
//        params.set("sort", "webTime desc");

        // 步骤二：负面关键词
        String negativeWord = "(贪污 受贿 被曝 曝光 小三 裸照)"; 
        params.addFilterQuery("webTitle:" + negativeWord);

        try {
            // 步骤三：需要高亮的关键词，默认等于查询关键词+负面关键词
            String hlKeywords = keyword + " " + negativeWord;
            
            // 查询
            QueryResponse response = server.query(params);
            Analyzer analyzer = new ComplexAnalyzer(dictionary);
            QueryScorer scorer = new QueryScorer(new QueryParser(
                    Version.LUCENE_41, null, analyzer).parse(hlKeywords), null);
            Highlighter highlighter = new Highlighter(scorer);
            highlighter.setTextFragmenter(new SimpleSpanFragmenter(scorer));

            // 输出
            SolrDocumentList list = response.getResults();
            System.out.println("返回：" + list.getNumFound() + "条记录\t耗时：" + response.getElapsedTime() + "毫秒");
            for (int i = 0; i < list.size(); i++) {
                SolrDocument doc = (SolrDocument)list.get(i);
                String objectId = doc.get("objectId").toString();
                String title = doc.get("webTitle").toString();
                String content = doc.get("webContent").toString();
                StringBuilder sbTitle = new StringBuilder();
                
                // 有高亮结果则用高亮结果；没有则用无高亮查询结果。
                // 仅对标题（webTitle）高亮，内容（webContent）忽略
                TokenStream streamContent = TokenSources.getTokenStream("", title, analyzer);
                String[] fragContent = highlighter.getBestFragments(streamContent, title, 5000);
                if(fragContent != null && fragContent.length > 0) {
                    for(String str: fragContent) {
                        sbTitle.append(str);
                    }
                }else {
                    sbTitle.append(title);
                }
                System.out.println(sbTitle.toString());
//                System.out.println(content);
            }
        } catch (Exception e) {
            e.printStackTrace();
        } 
    }
}

输出：

返回：13条记录耗时：94毫秒
[曝光台]实名举报江苏盐城市阜宁县吴滩镇派出所办案无能
盐城质监局长冯建东贪@污糜烂被曝光:包二奶、玩小姐 还找黑客删帖遭曝光
盐城质监局长冯建东“包二奶、招小姐、淫下属”丑行曝光
江苏盐城市中级人民法院是什么鸟人？居然造出一个贪污大犯赵作海
[爆猛料]盐城市亭湖农委下属单位领导贪污特种苗木补助款

转自：http://www.cnblogs.com/nayitian/archive/2013/02/20/2918938

知识点

相关文章

最近更新

Solr4：利用Filter实现两组关键词组合查询

1. 需求

2. 解决步骤

3. SlorJ实现代码

输出：

相关问答

请问能教教我solr4和庖丁分词整合么[2023-05-17]

按从大到小顺序输入两组整数,[2022-09-15]

solr4 - 索引中的错误节点(solr4 - Error Nodes in Index)[2022-02-10]

Elasticsearch查询用空格搜索两个单词组合(Elasticsearch query to search two word combination with space)[2023-04-13]

是否有可能通过一个查询获得两组数据(Is it possible to get two sets of data with one query)[2021-11-25]

alfresco 5和solr4在不同的linux盒子里(alfresco 5 and solr4 in different linux boxes)[2022-01-22]

是否有算法输出两组元素的所有可能组合？(Is there an algorithm to output all possible combinations of two sets of elements?)[2023-08-26]

查找分为两组的数字列表的每种可能组合(Finding every possible combination of a list of numbers divided in two sets)[2023-08-28]

使用removeDifferent（）和removeSame（）组合两组整数(combing two sets of integers using removeDifferent() and removeSame())[2022-05-25]

在Python中创建两组列表的所有组合(Create all combinations of two sets of lists in Python)[2023-02-10]