剖析solr实用性

2019-03-27 01:16|来源: 网路

我的使用经历

使用solr3.6版本,配合自己用lucene3.6建立的索引,搭建了一个搜索服务,前台通过http访问solr服务,获取由solr排序后的结果集。环境是linux ubuntu,servlet容器是tomcat。这个搜索服务是提供给php开发人员使用的。根据我现在对solr的理解和使用感受,我想说说solr这玩意儿的实用性。


我对solr的理解

solr包装了lucene之后,将整个搜索项目放入了Servlet容器里(jetty或者tomcat),变成一个web service。与lucene不同的是,solr把索引的定制,建立,更改,查询全部放入自己的配置文件里。从scheme.xml和solrconfig.xml两个配置文件,我认为就看到了solr可以做到的一切

具体说,scheme.xml里主要可以配置:分词工具,每个field类型采用的solr类,索引结构(field,STORE,ANALYZE),默认搜索域,默认与或规则。作为一名使用过lucene的开发者,在看到官方一些solr构建索引的方式之后,我果断放弃了solr来建索引。solr多种方式建立索引的方式,是为了适合不同的场景和使用需求,无论是读xml,csv文件数据,和数据库交互读数据还是http方式的json更新索引,都让我觉得不底层。当然,这是solr包装了lucene后的结果。我觉得这种形式比较方便做工具的整合,比如你用Nutch或者别的工具爬数据,然后分析整理后变成一个http url或者存成了csv文件,紧接着通过Solr自动去读取建立索引,最后再用solr这个web服务提供搜索服务。而至少对于我来说,我想做的是我自己更细致地来处理数据的建索引过程。借着solr与lucene的兼容性,我自己用lucene建索引并放入solr的路径里提供搜索。

再看solrconfig.xml,它可以配置:索引文件路径,solr的三种缓存(filterCache, queryResultCache, documentCache),索引更新及参数配置,索引查询时候的各种参数(默认字段,是否高亮,过滤字段,字段权重,打分公式等)。


的确,通过solr的这两个配置,一个搜索服务很可以简单搭建起来,但是我定义solr只是一个数据库层之上的东西,solr之上的代码如果仅仅通过solr的url传参方式得到搜索结果,只能是得到一个很通用的搜索结果集,无法个性化定制搜索。如果要更针对个性化的需求,在solr和前台之间还需要一层中间件,这层中间件应该需要做这些事:

1. 接受到前台传来的搜索词,对词进行个性化处理和赋权

2. 对搜索请求分发到不同索引文件和字段进行搜索(这里不是指分布式分发,只是逻辑上分发到不同索引块)

3. 从solr获得结果之后,再进行一些局部的排名和优化,甚至可以再过滤处理

我认为只要你自己可以写servlet,完全可以用lucene和servlet搭建一个比solr更具实用性和个性的搜索服务,而不像solr那么通用和高层(针对api的底层而言)。solrj提供了solr的java api,可以使用solr的api来类似lucene一样进行各种query的查询和处理,但是如果没有solrj呢?比如php,就只能通过solr的url做一些参数的拼凑,获得返回结果,实在有点太通用了。或者说,solr根本不是一个搜索引擎服务,否则是黑了“搜索引擎”这个词。它只是数据库之上的一层数据索引层,其他的东西你自己继续添加吧

其实就我看到的网上的一些solr资料,无非是一些solr安装啊,配置啊,结合数据库,结合nutch搭建了一个服务啊之类的,总结就是都很通用,技术性都不强,不能成为搜索引擎。只是一个基于数据库数据的一个打分ranking处理而已。


总结

solr的确配置方便,通过配置可以解决大部分问题,但是这东西太通用了,为什么感觉是给非码农用的?为什么我使用过lucene之后,就不想用它建索引,而宁可自己再写一个工程来做建索引这件事情?solr只是一个能放入servlet容器的东西而已?对非java的语言,除了改solr源码,你还能怎样定制自己的搜索?

(以上问题的解决方案我将在博客里更新,在《Apache solr 3.1 cookbook》里有一些进阶的使用方法)



转自:http://blog.csdn.net/zbf8441372/article/details/8493108

相关问答

更多
  • 实用性很强在东客站下面500左右有一家。
  • 递归的用途 1 所有的(裸)深度优先搜索算法 具体使用的例子有,几乎所有npc问题,人工智能推导。。。 2 树的相关算法 具体使用的例子有,代码的编译(语法树),字典(map)的搜索树实现(各种bst),搜索引擎字符串检索算法(利用trie)。。。 3 图的相关算法 例子,运输规划(最大流),游戏中的怪物ai(A*搜索) 。。。 4 分治法 例子,快速排序,归并排序。。。 5 动态规划(记忆化搜索) 例子太多不举了。。 6 并发算法 利用递归的许多算法都是良好的并发算法
  • JAVA能够开发桌面应用程序 也能开发移动设备的程序 更重要的是JAVA能开发安全性最高的WEB应用程序 而且能写一次程序在任意 平台运行 所以学JAVA是当软件开发人员最好的选择
  • 从Linux操作系统出现开始,使用Linux替代Windows的观点和期待就一直存在。经过多年的发展,Linux取得了长足的进步,在桌面计算机领域的占有率也有了一定的提高。然而,当下的Linux操作系统是否已经在实用性上达到目标了呢?Linux距离Windows还有多远的距离呢? 系统功能非常接近 对Linux持质疑态度的人们总是抱有一个论调,那就是在使用Linux系统之后,他们将无法完成在Windows平台上所进行的工作。 其实单纯从具备的功能来说,Linux并不比Windows逊色,无论是处理日常办公任 ...
  • java 属于高级程序设计语言,vfp属于数据库系统,后者在国内特别是在电脑应用初期网络还没有太普及时,中小型单位单机许多应用软件都是用它开发的。90年代的许多程序爱好都接触过它。java 和c、c+、c#一样,由于现在的网络特别是手机的普及,前者在跨平台方面较有一定的优势,如它的程序可以在电脑、手机、网站运行,不用做太多的设置及修改,而后者只有在win平台上用。vfp和mysql、access、Oracle,ms sql 一样,不过在网络应用,安全是第一位,大型数据库、均为商业化安全性好一些,mysql ...
  • 要看你用来干嘛,如果只是业余写写小程序,不涉及太深的话,建议选择VB。如果你打算靠这个吃饭的话建议选择C&C++或者Java。 从我自己的经验来看,应该难度是Java > C++ > C > VB。Delphi我没学过,是从Pascal发展过来的,应该和C差不多。 你似乎不是很明白,发展史是这样的:Basic -> VB(VisualBasic),Pascal -> Delphi,C -> C++ (Java应该是从C++发展过来的,语法也差不多)。 从最大长处来看,Java适合做跨平台程序;C适合与汇编搭 ...
  • 这样的文章很多 以linux的优势来说 1.开源,免费 2.安全的互联网平台 这个是相对win有优势的地方
  • Arduino。。。这个有很多了,现在使用最多的是Arduino UNO R3,Atmega328处理器,32KB存储,使用16u2USB转串口芯片,更稳定:不过某宝上二三十Arduino使用的是CH340的串口芯片,价格便宜;同时还有Arduino 2560,性能更强,使用Atmega 2560处理器,有更多输出端口及256KB空间,不过体积更大;以及Arduino mini和Arduino nano,体积小,用Atmega168处理器,性能相对羸弱。用在传感器方面首推Arduino UNO R3,某宝上 ...
  • 批处理,顾名思义,就是批量处理,把一件件复杂的事情变简单。 它是把多个DOS命令集合在一起执行,批量处理,几十秒钟就能完成的任务,要是你手动去做,就得花去几十分钟。。。 譬如,你的D盘有很多软件没卸载完毕,留下的空目录。 你要手动去删除的话,估计要花费一二十分钟吧。要是使用批处理,两分钟就能搞定了。 for /f "delims=" %%a in ('dir /s /b /ad d:') do (rd "%%a">nul 2>nul) 或者,你的某个文件夹里面有N多文本,N大于200。 你是做小说网站的,需 ...