Apache Solr 4.0 初试体验及LucidWorks介绍

2019-03-27 01:09|来源: 网路

  Apache Solr 4.0 发布一段时间了,最新的solr修改动作还是很大的,尤其从后台管理界面来看,体验和管理更加方便了。默认使用了multi-core模式,以及支持了对多个collection的管理、监控、优化。从内核来看,Solr 4也带来了很多新东西,如Solr Cloud、Realtime GET、NRT(Near-Real-Time Search)、Master/Slave扩展与ZooKeeper集成、Join查询等。

安装SOLR 4

1. 下载Solr4 http://lucene.apache.org/solr/

2. 解压缩,进入example文件夹下面

3. 启动Solr

java -jar start.jar

启动没有报错的话solr 已经安装完成可以使用了。打开浏览器,键入网址 http://localhost:8983/solr/ ,可以看到如下的solr界面:

APACHE SOLR4

新的solr管理admin管理界面主要有 Dashboard、日志、solr集合管理、线程管理以及系统信息,然后每一个collection会有单独的查询、检索等管理界面。

进入collection1(默认的一个collection),可以看到如下管理collection的菜单:

Solr4 Collection Management

SOLR以前的界面是非AJAX形式的,并且多个collection没有一个统一的UI接口,大家可以参考以前的SOLR系列中的截图,看看SOLR 4.0之前的样子。

SOLR 4 APIs
虽然Solr4的后台管理变化比较大,但API的url变化却不是很大,我们列举出来solr 4的API的url,以供大家参考。

/admin/file
/admin/logging
/admin/luke
/admin/mbeans
/admin/ping
/admin/plugins
/admin/properties
/admin/system
/admin/threads
/analysis/document
/analysis/field
/browse
/debug/dump
/elevate
/get
/query
/replication
/select
/spell
/terms
/tvrh
/update
/update/csv
/update/extract
/update/json

目前solr 4和drupal的集成还没有现成可用的模块,不过由于交互URL没有太多变化,相信对现有的API做一些修改就可以直接让drupal与solr4集成。

LucidWorks

最后我们介绍一下LucidWorks。LucidWorks是一款企业级的Solr的应用,包括SOLR的集成、各种数据的索引(文件、FTP、数据库、WEB-HTTP、Hadoop、亚马逊云等)、索引的管理、服务器的监控等等。之前叫LucidImagination,重命名后叫LucidWorks。

以下两张截图可以看看LucidWorks的大概工作流程。

LucidWorks Dashboard

Lucidworks Dashborad

 

LucidWorks索引数据源管理

Lucidworks Datasouce

 

一个小细节:以前笔者在测试LucidImagination (LucidWorksd前身)的时候,发现使用的SOLR4以及新版本的admin UI,但是刚刚在测试最新版本的时候,发现用的是旧版本的Admin UI,beta版本的solr4,这点比较奇怪。

LucidWorks Big Data

LucidWorks Big Data 是一个集成的搜索服务,提供大数据海量数据的管理、检索、查询服务,主要涵盖以下组件:

Product Brief Description Version
LucidWorks Provides search and discovery capabilities, plus connectors to common data sources 2.1 plus plugins – Solr 4.0-SNAPSHOT
Apache Hadoop Provides Distributed storage and general purpose distributed computation 1.0.2
Apache Mahout Scalable Machine Learning 0.6
Apache HBase Provides distributed storage for fast lookups based on Hadoop. Used to store metrics, user info and history, time series data 0.92
Apache ZooKeeper Provides distributed synchronization, configuration, etc. 3.4.3
Apache Pig Provides high-level language for manipulating large data sets for analytics and ETL 0.9.2
Apache Kafka Provides distributed pub-sub mechanism for real time distributed data sharing and for aggregating logs into HDFS 0.7.0 (incubating)
Apache Oozie Distributed Workflow coordination 3.2.0-SNAPSHOT for compatibility with Hadoop 1.0.2
Restlet REST API capabilities 2.1-rc3
Behemoth Hadoop based document processing workflow Trunk

LucidWorks Product Suite

Lucidworks Suite

 

参考站点

转自:http://www.drupal001.com/2012/10/solr-4-0-lucidworks/


转自:http://www.cnblogs.com/ibook360/archive/2012/12/29/2839115

相关问答

更多
  • 你有没有机会升级以前的Solr发行版? 在这种情况下,您可能会有旧文件,例如来自分发中war文件的解压缩webapp目录。 您可能需要删除它们,从命令行运行Solr一次,然后重试。 Did you by any chance upgrade from previous Solr distribution? In which case, you may have old files lying around, such as unpacked webapp directory that comes from ...
  • 看起来像打包器(Bitnami)没有包含该库,即使他们让Solr配置为使用该库。 你可以要求他们解决它。 或者您可以自己部署它。 以下是在Tomcat上部署Solr的方法。 它同样易于在Windows上安装; 它从Windows服务开始。 安装后,要启用富文档支持,请将contrib/extraction/lib/的内容复制到目录,并将sharedLib中的solr.xml指向该目录。 如果您使用过该指南,您将理解这些新术语:-) Looks like the packager (Bitnami) did ...
  • Solr需要在Java EE应用程序服务器中运行。 您可以使用Jetty或Tomcat 。 Nginx将通过AJP或simliar充当代理,将所有RESTless请求转发给Solr。 我没有使用我的ajp与nginx,但我已经读过这个 。 基本上,您将同时运行所有Java EE应用程序服务器,Rails服务器,nginx,passenger和ajp代理。 您还可以设置代理通行证,这里有一个教程 。 探索不同的选项,看看哪一个是你的赌注。 Solr needs to run in a Java EE appl ...
  • 使用solr 4.0, BaseTokenFilterFactory现在是org.apache.lucene.analysis.util.TokenFilterFactory ,所以你可以检查一下 。 With solr 4.0 the BaseTokenFilterFactory is now org.apache.lucene.analysis.util.TokenFilterFactory, so you can check on this.
  • 找到答案: 阅读更多文档 :页 由于langid被配置为更新请求处理器链,因此它需要被选中(它不是自动的)。 所以,这工作: curl "http://localhost:8983/solr/update/extract?literal.id=test&commit=true&update.chain=langid" -F "myfile=@test.xml" Found the answer: read more docs :p Since langid is configured as an upda ...
  • 除了新功能之外,Solr 3.6和Solr 4.0之间是否有任何重大差异? 我发现这个问题很奇怪,至少可以说。 错误修复和新功能是发布的全部内容! 您可以在此处查看 Solr版本的完整更新日志。 不要忘记Solr和Lucene是一致发布的,所以你还需要在两个项目中寻找相关的变化。 我可以安全地使用我在Solr 4.0中的现有查询(在Solr 3.6中工作的查询)吗? 查询应该没问题,但索引 - 可能不是。 引用另一篇SO帖子中的 javanna: 索引格式已更改,但Solr将负责升级索引。 一旦用旧索引启动 ...
  • 在这里找到它: http : //alvinalexander.com/java/jdbc-connection-string-mysql-postgresql-sqlserver (参见页面底部) 在我必须使用的连接字符串中变成了@而不是@ ://现在它可以工作:) Found it here: http://alvinalexander.com/java/jdbc-connection-string-mysql-postgresql-sqlserver (see bottom of page) Turn ...
  • SOLR-1967问题已有近2年的历史,您使用的罐子并不适用于Solr 4.x. 实际上, QueryResponseWriter接口已移至org.apache.solr.response包。 你有两个选择: 试图让它与Solr 3.x一起工作(不确定它是否可以开箱即用3.5) 尝试在Solr主干中集成附加到补丁的源代码,以适应和修复您找到的错误 The SOLR-1967 issue is almost 2 years old and the jar you're using is not meant t ...
  • 他们今天刚刚宣布您现在可以将群集自定义应用于正在运行的群集 。 请参阅Solr群集自定义页面。 仍不建议手动在正在运行的集群上安装内容(而不是使用集群自定义脚本)。 首先,当需要关闭一个节点进行维护时,新节点将在没有安装自定义软件的情况下重新启动。 其次,群集自定义脚本与Azure通信,支持在打开支持案例时对群集所做的更改。 They just announced today that you can now apply cluster customizations to a running cluster ...
  • 如果您使用jetty设置从示例目录运行Solr,它应该按原样运行而不进行任何更改。 但是, 对于多核设置,您需要将jar复制到lib目录中 。 如果检查示例文件夹中的solrconfig,它包括solr单元和提取库的jar。 solrconfig.xml - 取消注释此行以包含所有lib jar - 将jar从这些文件夹复制到多核lib文件夹。 这些罐子用于提取。 (Apache pdfbox,poi,fontbox等)