首页 \ 教程 \ solr

知识点

Solr

solr原理

solr1.4 replication分发知识

Solr总结

利用 Replication Handler 备份索引

solr学习（1）

Solr安装（1）

solr研究

Solr配置

[solr]solr的安装

solr 笔记

solr与lucene

基于Solr的LBS(地理位置搜索）实现原理

solr相关文章

solr学习笔记-linux下配置solr

全文检索引擎Solr系列—–全文检索基本原理

solr replication原理探究

2019-03-27 00:22|来源: 网路

无论是垂直搜索，还是通用搜索引擎，对外提供搜索服务其压力都比较大，经常有垂直电商在做活动的时候服务器宕机。对面访问压力比较大的情况，一般的应对方法就是【集群】+【负载均衡】。Solr提供了两种解决方案来对应访问压力。其一是Replication，其一是SolrCloud。

Replication采用了master/slave 模式，用读写分离的思想来提高对外服务能力。但本质上还是单兵作战。Master/slave模式在数据库领域应用广泛，像MySQL，Redis等主流的数据库都实现这一功能。Replication的另一个功能就是数据备份。

SolrCloud采用Zookeeper作为配置中心，对索引数据进行分片(shard)，实现了真正的分布式搜索。像Hadoop,HBase,Storm等分布式系统都是建立在Zookeeper基础之上的。

个人认为二者没有谁优谁劣，应用场景不同而已。

本文主要探究Replication的实现原理。

1. Replication的配置

Replication在solrconfig.xml中默认是关闭的，要打开很简单。对于Replication，首先需要确定Solr服务的角色。Solr服务的角色有三种[master],[slave],[repeater]。这三种角色的配置如下：

Master配置：

Slave配置：

Repeater配置：

Repeater就是一个solr服务器既是master，又是slave。为什么需要Repeater角色呢？我们试想，如果一个master服务器同时带上10个slave甚至100个slave，会出现什么情况？Master很容易就被累死了。就算不累死，网络带宽也会很容易被占用干净。假如我们需要4台的集群，但是每个master又只能带2台slave，通过repeater就很容易实现。

2. replication的工作原理

通过配置我们知道replication的功能是通过ReplicationHandler来实现的。通过以ReplicationHandler为切入口，应该能很容易地追溯到replication的运行过程。

2.1 slave端的运行过程

Solr在启动的过程中会通过ReplicationHandler.inform()方法，按照slave的配置启动一个定时任务，定时向master端发起同步请求。任务的代码如下：

private void startExecutorService() {
    Runnable task = new Runnable() {
      @Override
      public void run() {
        if (pollDisabled.get()) {
          LOG.info("Poll disabled");
          return;
        }
        try {
          executorStartTime = System.currentTimeMillis();
          replicationHandler.doFetch(null, false);
        } catch (Exception e) {
          LOG.error("Exception in fetching index", e);
        }
      }
    };
    executorService = Executors.newSingleThreadScheduledExecutor(
        new DefaultSolrThreadFactory("snapPuller"));
    long initialDelay = pollInterval - (System.currentTimeMillis() % pollInterval);
    executorService.scheduleAtFixedRate(task, initialDelay, pollInterval, TimeUnit.MILLISECONDS);
    LOG.info("Poll Scheduled at an interval of " + pollInterval + "ms");
  }

定时任务的时间间隔是

slave端对master而言是透明的。换句话说，master与slave之间的通信是无状态的http连接。Slave端通过发送不同的command从Server端取得数据,即在数据同步的过程中，slave端是占主导作用的。这也是为什么最好先从slave端入手。

一次replicate操作关键步骤如下：

当然还会有细节的处理，比如系统缓存同步、数据校验，日志记录等等……处理全过程都是以SnapPuller.fetchLatestIndex()方法为主线进行的，如果跟踪源码，则重点关注该方法。

2.2 master端的运行过程

由于master端是被动的(即master接收slave端传递过来的命令，然后依照命令执行)，所以master端的工作过程相对比较简单。值得注意的是，通过master端可以更好的理解solr索引更新的过程。

1.CMD_INDEX_VERSION 命令

通过该命令可以得到索引的latestVersion和latestGeneration。其中lastestVersion其实就是索引的更新时间点，而latestGeneration就是存储在SegmentInfos中的generation信息。通过这两个信息的对比，就可以判断出slave端的索引是否需要更新。

2. CMD_GET_FILE_LIST命令

通过该命令可以得到需要同步的索引文件信息。

3. CMD_GET_FILE 命令

通过该命令可以下载文件。该命令执行次数由文件大小和CMD_GET_FILE_LIST得到的文件数量决定。下载文件每次最多下载1M，如果文件大于1M，则分多次下载。数据正确性的校验由Adler32 算法来完成。关于Adler32算法，这里不细说。关于详细代码，可以参看DirectoryFileStream.write()方法。

综上，一次replication操作在master端的运行过程就是执行这三种命令的过程。

本文出自 “每天进步一点点” 博客，请务必保留此出处http://sbp810050504.blog.51cto.com/2799422/1423199

转自：http://sbp810050504.blog.51cto.com/2799422/1423199

知识点

相关文章

最近更新

solr replication原理探究

1. Replication的配置

2. replication的工作原理

2.1 slave端的运行过程

2.2 master端的运行过程

相关问答

solr实现原理，为什么用solr[2023-12-25]

在分布式Solr配置中复制(Replication in distributed Solr config)[2022-11-14]

两个独立的Solr服务器的双向复制(Two-directional replication of two separate Solr servers)[2021-11-06]

在自定义时启动solr复制(Starting solr replication at custom time)[2022-02-09]

Solr在复制期间重新解释字段(Solr reinterprets field during replication)[2023-07-02]

solr healthcheck为> 0个文件(solr healthcheck for >0 documents)[2023-12-24]

如何拦截Solr中的文档(How To intercept Document in Solr)[2024-02-02]

使用Solr配置solrnet(Configure solrnet with Solr)[2022-06-21]

Solr Replication和Solr Cloud有什么区别？(What is the difference between Solr Replication and Solr Cloud?)[2022-08-11]

从solr 4.10.3复制到solr 5.3(Replication from solr 4.10.3 to solr 5.3)[2020-02-15]