Lucene 3.5 提供深度分页支持 searchAfter方法 方法的应用

2019-03-27 01:00|来源: 网路

      最近Lucene项目管理委员会宣布Apache Lucene 3.5.0和Apache Solr 3.5.0已经可以使用。Lucene是一个高性能、支持全文搜索的文本搜索开发库。Solr是一个独立的搜索服务器,其核心使用了Lucene来做索引和搜索。

      Lucene 3.5其中一个最新的特征就是深度分页支持,在之前的版本是提供分页的方法,只能根据自己的应用场景去写分页的方法!在《lucene in action》一书中提现两种分页的方法:1、将首次搜索获得的多页搜索结果收集起来并保存在ScoreDocs和IndexSearcher实例中,并在用户换页浏览时展现这几页的结果。

     2、每次用户换页浏览时都重新进行查询操作。

按这两个方法是可以做出分页的,只是效果及性能影响大小而已!

     现在Lucene 3.5 加入IndexSearcher.searchAfter方法,它在特定的ScoreDoc之后会返回结果。你可以将上一页的最后一个document传递给searchAfter方法,以得到下一页的结果。

     实例如下:           

 

View Code
 1 @Override
2 public List<BlogsDO> searchBlogsList(String content,String bTypeId,String sDate,String eDate,Page page) throws IOException, ParseException {
3 List<BlogsDO> blogList=new ArrayList<BlogsDO>() ;
4 // TODO Auto-generated method stub
5 TokenStream tokenStream=null;
6 try{
7 analyzer = new IKAnalyzer();
8 //获取IndexSearcher 对象
9 IndexSearcher indexSearch =commonIndexWriter.getIndexSearcher();
10 QueryParser queryParser= commonIndexWriter.getQueryParser();
11 //搜索条件的结合
12 String str="";
13 if(StringUtils.isNotEmpty(content)){
14 str="title:"+content+" content:"+content;
15 }
16 if(StringUtils.isNotEmpty(bTypeId) && !bTypeId.equals("-1")){
17 if(StringUtils.isNotEmpty(str)){
18 str=str+" AND bTypeId:"+bTypeId;
19 }else{
20 str=str+" bTypeId:"+bTypeId;
21 }
22 }
23 if(StringUtils.isNotEmpty(sDate)){
24 if(StringUtils.isNotEmpty(str)){
25 str=str+" AND gmt_create:["+sDate+" TO "+eDate+"]";
26 }else{
27 str=str+" gmt_create:["+sDate+" TO "+eDate+"]";
28 }
29 }
30 //设置搜索条件
31 Query query=queryParser.parse(str);
32 //查询搜索引擎
33 TopDocs result = indexSearch.search(query, 10);
34 //上一页的最后一个document索引
35 int index=(page.getCurrentPage()-1)*page.getPerPageSize();
36 ScoreDoc scoreDoc=null;
37 //如果当前页是第一页面scoreDoc=null。
38 if(index>0){
39 //因为索引是从0开始所以要index-1
40 scoreDoc=result.scoreDocs[index-1];
41 }
42 //分页处理
43 TopDocs hits= indexSearch.searchAfter(scoreDoc, query, page.getPerPageSize());
44 //设置分页的总记录数
45 page.setCounts(hits.totalHits);
46 BlogsDO blog=null;
47 //循环hits.scoreDocs数据,并使用indexSearch.doc方法把Document还原,再拿出对应的字段的值
48 for (int i = 0; i < hits.scoreDocs.length; i++) {
49 ScoreDoc sdoc = hits.scoreDocs[i];
50 Document doc = indexSearch.doc(sdoc.doc);
51 blog=new BlogsDO();
52 String title=doc.get("title");
53 String mark=doc.get("content");
54 //加亮处理
55 SimpleHTMLFormatter simplehtml=new SimpleHTMLFormatter("<font color='red'>", "</font>");
56 Highlighter highlighter = new Highlighter(simplehtml,new QueryScorer(query));
57 if(title!=null){
58 tokenStream = analyzer.tokenStream("title",new StringReader(title));
59 String highLightText = highlighter.getBestFragment(tokenStream, title);
60 blog.setTitle(highLightText==null?title:highLightText);
61 }else{
62 blog.setTitle(title);
63 }
64 //加亮处理
65 if(mark!=null){
66 tokenStream = analyzer.tokenStream("content",new StringReader(mark));
67 String highLightText = highlighter.getBestFragment(tokenStream, mark);
68 blog.setContent(highLightText==null?mark:highLightText);
69 }else{
70 blog.setContent(mark);
71 }
72 blog.setBlogsId(Integer.valueOf(doc.get("blogsId")));
73 blog.setNickName(doc.get("nickName"));
74 blog.setbTypeId(doc.get("bTypeId"));
75 blog.setbTypeName(doc.get("bTypeName"));
76 blog.setRevDate(doc.get("gmt_create"));
77 SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMddHHmmss");
78 blog.setGmtCreate(sdf.parse(doc.get("gmt_create")));
79 blogList.add(blog);
80 }
81 indexSearch.close();
82 }catch (java.text.ParseException e) {
83 // TODO Auto-generated catch block
84 e.printStackTrace();
85 }catch (InvalidTokenOffsetsException e) {
86 // TODO Auto-generated catch block
87 e.printStackTrace();
88 }
89 return blogList;

 

 Lucene 3.5 在学习中,请多多指教!呵呵!



转自:http://www.cnblogs.com/yuanermen/archive/2012/02/09/2343993

相关问答

更多
  • 这是找出所有分好词的词频,能不能直接找出某个词的词频了
  • Directory directory = FSDirectory.open(new File(indexpath)); Analyzer analyzer = new IKAnalyzer(); IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_35, analyzer); iwc.setOpenMode(OpenMode.CREATE); //创建或覆盖 //或 iwc.setOpenMode(OpenMode.APPEND); / ...
  • 找到了解决方案。 订单很重要。 Directory directory = FSDirectory.open(FileUtils.toFile(new URL("file:lucene/indexes/"))); this.spellChecker = new SpellChecker(directory); IndexReader indexReader = IndexReader.open(directory, true); LuceneDictionary dictionary = new Lucen ...
  • 如果你想找到最大长度为3的连续令牌的大多数出现序列,问题可以看作是搜索最常见的N-gram,如问题中讨论的如何使用Lucene获取频繁出现的短语 在你的情况下,你可能不需要Solr,看到这个小代码 ,你只需计算每个生成的N-gram并保持那些出现的次数大于所需的阈值。 有效计算这些Ngrams的问题更加困难。 如果它们不是很多(例如,少于1~2M),您可以使用HashMap。 如果有更多的数量你可以尝试使用有趣的计数最小草图算法,有一个实现,但我个人从来没有使用过它,也不知道它有多好。 If you wan ...
  • 我不相信你可以创建一个scoredoc然后将它传递给searchAfter。 您需要使用先前搜索返回的ScoreDocs。 I don't believe you can create a scoredoc and then pass it to searchAfter. You need to use the ScoreDocs returned from a previous search.
  • 你怎么知道你的索引在RAM中? 你在使用Lucene's MMapDirectory吗? 另外,您是否使用readOnly=true打开IndexReader ? 顺便说一句,避免使用RAMDirectory因为它RAMDirectory GC带来沉重负担 。 How do you know that your index is in RAM? Are you using Lucene’s MMapDirectory? Also, are you opening IndexReader with readO ...
  • 我相信你在混合几个问题。 首先,要查看查询的词干版本以及其他有用信息,可以使用IndexSearcher的explain()方法。 请看我对这个问题的回答 。 用于获取片段的Lucene解决方案是荧光笔 。 另一种选择是FastVectorHighlighter 。 我相信你可以自定义两者来获得词干而不是完整词。 I believe you are mixing several questions. First, to see the stemmed version of your query, and o ...
  • AFAIK,Lucene从未随意定位。 这样做成本很高。 即使您更新现有文档,它也会删除文档并创建应用了更新的新文档。 删除的文档位于那里,但在bitset数据结构中标记为已删除。 每当合并发生或刷新发生时,它将从索引中删除。 这种方式lucene避免写入文件中的随机位置。 因此,如果需要编写,请始终附加到现有文件。 对于阅读,它需要寻找在搜索查找发布列表等时读取正确的数据块。 Answering my own question, as I figured it out: The documentation ...
  • 我们可以定制嵌入在Solr中的Lucene吗? 是的,你可以 。 但请记住这一点: Lucene和Solr提交者是全文搜索领域的一些最重要的专家。 他们在这个领域有多年的经验。 如果你认为你可以比他们做得更好,那么继续改变Solr以满足你的需求(它是Apache许可的,所以没有任何商业限制),如果你这样做,试着这样做,以便你以后可以贡献它回到项目,这样每个人都可以受益,项目也会向前发展。 对于绝大多数Solr用户而言,库存产品绰绰有余并满足所有需求。 换句话说,在进入更改代码之前,在邮件列表(stackov ...
  • IndexSearcher提供了一个带有ExecutorService的构造函数(在构造函数中按照示例用法中的链接)作为参数。 这可以用于终止搜索。 但请注意有关使用NIOFSDirectory 。 请参阅https://lucene.apache.org/core/6_0_0/core/org/apache/lucene/search/IndexSearcher.html 并https://issues.apache.org/jira/browse/LUCENE-2239 从JavaDocs和问题单中提取 ...