知识点
相关文章
更多最近更新
更多荐 安装nutch2+Hbase+Slor4
2019-03-27 01:21|来源: 网路
介绍
Nutch 网络爬虫
Hbase 分布式存储系统
Solr搜索服务器
版本说明
由于Nutch\Hbase\Solr他们都各自做在自己的版本修改,所以配置他们三者有不同的方法.这里也是参考网络文档做了他们最新版本的配置 Nutch版本(2.2.1) apache-nutch-2.2.1-src.tar.gz;由于改版本的Nutch默认的Hbase版本是0.90.4 所以这里就使用的hbase-0.90.4.tar.gz ;同时Nutch默认的Solr版本是3.4.0版本,但由于Solr4与三的版本变化比较大,所以这里我使用的是当前最新的4版本solr-4.4.0.tgz。
apache-nutch-2.2.1-src.tar.gz
hbase-0.90.4.tar.gz
solr-4.4.0.tgz
下载
Nutch 首页http://nutch.apache.org/ 下载地址apache-nutch-2.2.1-src.tar.gz
Nutch 首页http://hbase.apache.org/ 下载地址hbase-0.90.4.tar.gz
Solr 首页http://lucene.apache.org/solr/ 下载地址 solr-4.4.0.tgz
安装JDK
参考: Linux安装JDK安装Hbase
单机版的HBase
由于Hbase是一个分布式的数据库,所以我们经常与Hadoop联系起来一起用。可以参考(Hbase入门——安装),但我们在开放中其实未必有条件使用。使用这里就可以不于hadoop一起使用,使用这里就直接安装单击版的Hbase。来在官方的安装和使用http://hbase.apache.org/book/quickstart.html。
解压hbase-0.90.4.tar.gz
先拷贝文件到/usr/local/目录下
$ tar xfz hbase-0.90.4.tar.gz $ chmod -R 777 hbase-0.90.4
编辑 conf/hbase-site.xml
在<configuration></configuration> 中添加如下内容。其实这里也可以不做修改,如果不做修改,就会把数据存放到tmp临时目录中,重启就没有数据。如果做简单的测试就不用麻烦去配置文件。<property> <name>hbase.rootdir</name> <value>file:////usr/local/hbase-0.90.4/hbase</value> </property> <property> <name>hbase.zookeeper.property.dataDir</name> <value>/usr/local/hbase-0.90.4/zookeeper</value> </property>
启动Hbase
$./cp hbase-0.90.4 $ bin/start-hbase.sh
查看Logs日志,如果不报错就证明启动成功。
安装Nutch
在安装Nutch与Hbase结合前,可以先参考官方文档https://wiki.apache.org/nutch/Nutch2Tutorial
网上有很多Nutch与Mysql结合的实力,但Nutch与Hbase结合的很少,这里也是参考官方文档做了相应操作。
解压apache-nutch-2.2.1-src.tar.gz
$ tar -zxvf apache-nutch-2.2.1-src.tar.gz $ mv apache-nutch-2.2.1-src nutch-2 $ chmod -R 777 nutch-2
修改conf/ nutch-site.xml
<property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value> <description>Default class for storing data</description> </property>
修改ivy/ivy.xml
取消注释
<dependency org="org.apache.gora" name="gora-hbase" rev="0.3" conf="*->default" />
配置conf/gora.properties
添加
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
安装ANT
由于nutch是基于ant安装的,使用首先要先安装ANT。安装可以参考 linux安装ant安装Nutch
Nutch的安装需要基于网络,由于原文件中还有很多jar没有包含,所以修要运行ant来自动下载$ cd nutch-2 $ ant这里需要等待一段时间,这里会在nutch-2下生成runtime目录 (180M左右) ,其实就是最后的二进制目录。
在配置nutch-2/runtime/local/conf/nutch-site.xml
在添加如下配置信息
在添加如下配置信息<property> <name>http.agent.name</name> <value>Your Nutch Spider</value> </property> <property> <name>http.accept.language</name> <value>ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3</value> <description>Value of the “Accept-Language” request header field. This allows selecting non-English language as default one to retrieve. It is a useful setting for search engines build for certain national group. </description> </property> <property> <name>parser.character.encoding.default</name> <value>utf-8</value> <description>The character encoding to fall back to when no other information is available</description> </property>
配置抓取网址
可以参考 https://wiki.apache.org/nutch/NutchTutorial$ cd runtime/local $ mkdir -p urls $ cd urls $ vi seed.txt在seed.txt添加
http://nutch.apache.org/
运行Nutch
$ /bin/nutch inject urls $ /bin/nutch readdb如果不报错证明已成功安装
在Hbase测试
在运行
hbase shell list就可以查看到webpage表,证明已经成功创建。
安装Solr
这里使用的是Solr4解压solr-4.4.0.tar.gz
拷贝到/usr/local目录
$ tar -zxvf solr-4.4.0.tar.gz $ mv solr-4.4.0 solr-4 $ chmod -R 777 solr-4
替换schema.xml文件
这里下载 http://nlp.solutions.asia/wp-content/uploads/2012/08/schema.xml(schema.xml )
把下载的schema.xml文件替换掉 /usr/local/solr-4/example/solr/collection1/conf/schema.xml(这里正时solr4与nutch格式)
运行Solr
java -jar start.jar通过浏览器访问 http://127.0.0.1:8983/solr 就可以参考相应的信息
运行Nutch提交
在nutch-2/runtime/local/bin/下面执行nutch的全部抓取过程:
inject>generate>fetch>parse>updatedb之后,可以执行solrindex的操作,用法如下:
bin/nutch inject urls bin/nutch generate -topN 3bin/nutch fetch -all bin/nutch parse -all bin/nutch updatedb
bin/nutch solrindex http://127.0.0.1:8983/solr/ -reindex
参考文档:
http://blog.chinaunix.net/uid-8345138-id-3350686.html
http://nlp.solutions.asia/?p=180#tab-3
https://wiki.apache.org/nutch/Nutch2Tutorial
http://abloz.com/hbase/book.html(Hbase中文手册)
转自:http://my.oschina.net/mynote/blog/152845
相关问答
更多-
少儿编程的培训机构有很多,为什么身边的同事、朋友推 荐的都是核桃编程?[2022-03-11]
上课后感觉不怎么样,前面就是几十块钱进去后面就是各种推销年课,价格又高,还打电话骚扰 -
#渭南师范学院#在渭师院学的教育学,出来想去教育培训机构,大家有什么好的能不能推[2023-06-28]
生理学和心理学了解运用如何?去什么地方不重要,重要的是能够运用到您的专业,来奠定你的职业方向!从事教学工作还是教务管理工作。 -
贵阳室内设计培训哪里设计的最好,[2022-04-06]
你去贵阳艺龙居室内设计学校啊,哪里就包就业,而且在哪学过的学员都很厉害,在装修行列中都很出名,还有小班教学,白天工作,晚上也可以来学,这是我的回答,希望能帮助你。 -
网页设计培训学校怎么选??帮忙 推 荐个教学好的学校[2023-12-02]
现在学这个的人挺多的,建议你去交大热工学习,哪个学校挺好的,办学时间也最长了 -
金华省考面试培训班,想报个班,及荐下?[2023-02-26]
我建议选择培训班的时候一定要选择业内口碑最好的机构,这样才能顺利通过公务员考试。随着现在公务员考试的持续升温,选择好的培训机构尤为重要,汇金大厦14楼的中青不错哦有空可以去看看 -
谁荐个基于redis秒杀系统的源码,推荐的都有分[2022-02-18]
秒杀系统,是典型的短时大量突发访问类问题。对这类问题,有三种优化性能的思路: 写入内存而不是写入硬盘、异步处理而不是同步处理、分布式处理 用上这三招,不论秒杀时负载多大,都能轻松应对。更好的是,Redis能够满足上述 -
HBase Nutch错误[Ljava.lang.StackTraceElement(HBase Nutch error [Ljava.lang.StackTraceElement)[2023-05-14]
此问题“连接被拒绝”仅仅是因为您的区域服务器未正常运行 This problem "Connection refused" is simply because your region server is not running properly -
Nutch 2.2.1 + hBase(Nutch 2.2.1 + hBase)[2022-07-22]
解决了。 您必须向库中添加正确版本的gora-hbase。 山 - HBase的-0.3.jar Solved. You must add correct version of gora-hbase to you libraries. gora-hbase-0.3.jar