solr 分布式(复制)配置

2019-03-27 01:02|来源: 网路

solr 分布式其实是分发,这概念像Mysql的复制。所有的索引的改变都在主服务器里,所有的查询都在从服务里。从服务器不断地(定时)从主服务器拉内容,以保持数据一致。

先描述下我的环境:
solr-master(192.168.1.181), solr-slave(192.168.1.155), jdke1.6.0_06, tomcat-5.5.26, solr-1.2 
tomcat_home在 /home/chenlb/tomcat-5.5.26
solr_home在 /home/chenlb/solr-home
solr解压后的目录 /home/chenlb/solr-1.2.0
最好两机可以ssh无密码交互,ssh无密码登录请看: http://www.blogjava.net/chenlb/archive/2008/07/03/212293.html

http://chenlb.javaeye.com/blog/211809



    solr的分发是用rsync的。
    快照与分发过程:

1.snapshooter 命令在主服务器产生快照。一般在commit和optimize之后被solr调用。

2.snappuller 命令在从服务器运行,所做的事是从主服务器拉最新的快照。 用rsync的daemon模式来运行可以获得更好的性能与更底的CPU利用率。

3.snapinstaller 命令在从服务器运行,当从服务器从主服务器拉完快照后才执行。它会通知本地Solr服务器打开一个新的index reader,然后预热这个新index reader的缓存,此时有请求,原来的index reader继续为这此请求服务。一但预热完成,Solr 启用新的index reader,旧的被消亡。

    Solr 的Distribution(分发) 在Scripts文件里记录。在solr_home/conf/scripts.conf文件里。

我现在这样配置:

user = chenlb
solr_hostname
= localhost
solr_port
= 8080
rsyncd_port
= 18080
data_dir
=/ home / chenlb / solr - home / data
webapp_name
= solr
master_host
= 192.168 . 1.181
master_data_dir
=/ home / chenlb / solr - home / data
master_status_dir
=/ home / chenlb / solr - home / logs


上面的配置两机都一样。

1.安装好solr后启动它们,怎样在tomcat安装solr请看:http://www.blogjava.net/chenlb/archive/2008/03/25/188459.html

http://chenlb.javaeye.com/blog/196489

[chenlb@solr - master  ~ ]$ . / tomcat - 5.5 . 26 / bin / startup.sh


启用且启动rsync

[chenlb@solr - master  ~ ]$ . / solr - home / bin / rsyncd - enable  - u chenlb  - v
[chenlb@solr-master ~]$ ./solr-home/bin/rsyncd-start -u chenlb -v

 

[chenlb@solr - slave  ~ ]$ . / tomcat - 5.5 . 26 / bin / startup.sh


2.solr-master
先修改post.sh

[chenlb@solr - master  ~ ]$ cd solr - 1.2 .0 / example / exampledocs /
[chenlb@solr
- master exampledocs]$ vi post.sh
[chenlb@solr
- master exampledocs]$
# 把http://localhost:8389/solr/update改下面的
http: // localhost: 8080 / solr / update


提交数据

[chenlb@solr - master exampledocs]$ . / post.sh  * .xml


产生快照

[chenlb@solr - master  ~ ]$ . / solr - home / bin / snapshooter  - u chenlb  - v


说明:由于<listener event="postCommit" class="solr.RunExecutableListener">...</listener>没有设置成功(出现 java.io.IOException: Cannot run program "snapshooter" (in directory "solr/bin"): java.io.IOException: error=2, No such file or directory,现在还没解决),可以只能手动生成快照(当然也可以cron)

3.solr-slave
启用快照下拉

[chenlb@solr - slave  ~ ]$ . / solr - home / bin / snappuller - enable  - u chenlb  - v


拉快照

[chenlb@solr - slave  ~ ]$ . / solr - home / bin / snappuller  - u chenlb  - v


安装

[chenlb@solr - slave  ~ ]$ . / solr - home / bin / snapinstaller  - u chenlb  - v



现在可以在solr-slave里看结果了:
http://192.168.1.155:8080/solr/select?q=solr
http://192.168.1.181:8080/solr/select?q=solr

看结果是否一样。


转自:http://www.cnblogs.com/wycg1984/archive/2009/09/16/1567630

相关问答

更多
  • tomcat配置数据源solr使用数据源 1、tomcat中配置数据源(注:需要拷贝jdbc相关jar包到tomcat中。tomcat6.x/lib目录下,注意tomcat6.0以下的版本在tomcat5.x/common/lib/目录下) 在server.xml文件,找到“Engine-> Host -> Context”,在其下面配置主要针对某一项目的数据源使用。 在context.xml文件,找到“Context”,在其下面配置可以让所有项目使用。 在Context下面配置数据源如下: 数据源相关参数 ...
  • 1) 它首先启动一个嵌入式的Zookeeper服务器,作为集群状态信息的管理者, 2) 将自己这个节点注册到/node_states/目录下 3) 同时将自己注册到/live_nodes/目录下 4)创建/overseer_elect/leader,为后续Overseer节点的选举做准备,新建一个Overseer, 5) 更新/clusterstate.json目录下json格式的集群状态信息 6) 本机从Zookeeper中更新集群状态信息,维持与Zookeeper上的集群信息一致 7)上传本地配置文件到 ...
  • tomcat配置数据源solr使用数据源 1、tomcat中配置数据源(注:需要拷贝jdbc相关jar包到tomcat中。tomcat6.x/lib目录下,注意tomcat6.0以下的版本在tomcat5.x/common/lib/目录下) 在server.xml文件,找到“Engine-> Host -> Context”,在其下面配置主要针对某一项目的数据源使用。 在context.xml文件,找到“Context”,在其下面配置可以让所有项目使用。 在Context下面配置数据源如下: & ...
  • Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http GSolret操作提出查找请求,并得到XML格式的返回结果
  • 虽然我在这里遇到了一个老问题,但我迟到了一点。 答案是Solr Cloud在内部处理复制。 Solr Cloud wiki页面详细解释了这一点。 如果你设置了numShards = 2并添加更多的服务器(这样你总共有四个),分片将被复制到新的服务器 - 确保你的分片位于多个节点上。 直接回答你的问题; SolrCloud为你做了复制设置和逻辑,你应该让它做它自己的事情,而不是在混合中引入“手动”设置复制。 SolrCloud的重点在于隐藏复制和共享逻辑,允许您在可用时简单添加更多服务器。 当然,您可以创建逻 ...
  • 在Solr 4.7中添加了一个类MiniSolrCloudCluster,它实际上在本地“部署”(如果你只想要ram或在temp目录上)一个完整的solr集群,包括zookeeper,shards和所有东西,供你的测试使用。 你可以在这里找到jira: https : //issues.apache.org/jira/browse/SOLR-5865 我已经成功地使用它来对solr分布式组件进行测试,以Solr测试为例,如下所示: private static MiniSolrCloudCluste ...
  • 假设您的分片是: “localhost:8983 / solr”和“localhost:7574 / solr” 您可以使用solrj执行分布式搜索,例如: String shards = "localhost:8983/solr,localhost:7574/solr"; StringBuffer request = new StringBuffer(); request.append("&q=" + query); request.append("&shards=" + shards); SolrPar ...
  • 简单的解决方案是配置请求处理程序以使用不变量来运行分布式查询。 即使spark-solr试图在查询时间内改变它,该变量也会强制distrib参数具有true值。 通过在solrconfig.xml中的请求处理程序条目的定义下添加以下几行可以引入不变量: true 虽然引入不变量将会解决问题,但我认为这是一种彻底的解决方案。 这是因为解决方案涉及隐藏一个行为,在该行为中,您将参数值重载。 ...
  • 总之,没有。 Solr Distributed Search的工作方式是传入一个shards参数,该参数列出了运行查询的分片。 您查询的Solr分片然后将相同的查询传递给分片列表中列出的所有solr分片,等待结果然后合并它们。 它无法向每个分片传递不同的查询。 我通过这里的文档阅读: https : //wiki.apache.org/solr/DistributedSearch 您可以编写自定义代码来执行此操作,但这对您的用例来说似乎有些过分。 我只想在所有核心上运行相同的查询。 In short, no ...
  • uniqueKey是必需的。 因为它可能会使SolrCloud中的路由和文档替换失败。 如果在云模式下使用solr,请在架构中启用uniqueKey。 uniqueKey is required. as it will likely make routing in SolrCloud and document replacement in general fail. Enable your uniqueKey in schema, if you are using solr in cloud mode.