Nutch 1-build

2019-03-27 01:11|来源: 网路

1. install software

Cygwin,  jdk, ant, nutch

 

 

2. configure

  • environment variable 

JAVA_HOME = C:\PROGRA~1\Java\jdk1.7.0_45

ANT_HOME =  C:\PROGRA~1\Ant\apache-ant-1.9.3

PATH = ...

 

  • copy source file

copy apache-nutch-2.2.1-src folder into home of Cygwin

  • build

enter home/apache-nutch-2.2.1-src then build

ant

It takes about half an hour to download dependency.

 

3. test

Stan@Stan-PC ~/nutch/runtime/local
$ ls
bin  conf  lib  plugins  test

Stan@Stan-PC ~/nutch/runtime/local
$ bin/nutch
Usage: nutch COMMAND
where COMMAND is one of:
 inject         inject new urls into the database
 hostinject     creates or updates an existing host table from a text file
 generate       generate new batches to fetch from crawl db
 fetch          fetch URLs marked during generate
 parse          parse URLs marked during fetch
 updatedb       update web table after parsing
 updatehostdb   update host table after parsing
 readdb         read/dump records from page database
 readhostdb     display entries from the hostDB
 elasticindex   run the elasticsearch indexer
 solrindex      run the solr indexer on parsed batches
 solrdedup      remove duplicates from solr
 parsechecker   check the parser for a given url
 indexchecker   check the indexing filters for a given url
 plugin         load a plugin and run one of its classes main()
 nutchserver    run a (local) Nutch server on a user defined port
 junit          runs the given JUnit test
 or
 CLASSNAME      run the class named CLASSNAME
Most commands print help when invoked w/o parameters.

Stan@Stan-PC ~/nutch/runtime/local

 

continue...


转自:http://www.cnblogs.com/harrysun/p/3516783

相关问答

更多
  • 有一本书比较好 叫做lucene+nutch搜索引擎开发 nutch本身就是用java写的开源项目 如果想用就是修改其源代码来做应用 我也在学 目前理解是这样的
  • 我可以解决这个问题。 将文件从本地文件系统复制到HDFS目标文件系统时,它曾经是这样的:bin / hadoop dfs -put~ / nutch / urls urls。 但它应该是“bin / hadoop dfs -put~ / nutch / urls / * urls”,这里urls / *将允许子目录。 I could solve this issue. when copying files from local file system to HDFS destination filesyst ...
  • 确保你已经从源码构建Nutch,即不要使用只能在本地模式下工作的二进制版本。 一旦你编译完毕 蚂蚁干净的运行 转到运行时/ deploy / bin并像往常一样运行脚本。 注意,您需要在重新编译之前修改conf文件。 Make sure you have built Nutch from source i.e. don't use the binary release which works only in local mode. Once you've compile with ant clean run ...
  • 我没有使用Nutch和ES 1.5 / 1.6 / 1.7但是在indexer-elastic插件使用的API之间不应该有重大变化。 我刚刚按照https://github.com/apache/nutch/blob/master/src/plugin/indexer-elastic/howto_upgrade_es.txt中的说明进行操作并构建/测试( ant test )Nutch 1.11和ES 1.7.2没有任何麻烦。 这意味着,代码构建正常,但我还没有测试将实际数据索引到Elasticsearch ...
  • 我找到了解决这个问题的方法。 这是由于番石榴依赖的版本兼容性。 Hadoop使用guava-11.0.2.jar作为依赖。 但是nutch中的弹性索引器插件需要18.0版本的番石榴。 这就是为什么它试图在分布式hadoop中运行时抛出异常。 所以我们只需要在hadoop库中将guava版本更新到18.0(可以在$ HADOOP_HOME / share / hadoop / common / libs /中找到 )。 I have found solution for this issue. This is ...
  • 事实上,Nutch并不关心下面的数据库,Nutch通过Gora与爬行数据库一起工作。 因此,如果Gora支持数据库(MySQL,HBase,Cassandra),Nutch可以抓取并将内容放入数据库。 请检查gora和mysql版本以修复您的错误。 您可以按照以下指南操作: http : //www.solutions.asia/2013/06/installing-nutch-22-with-mysql-to.html 。 希望这可以帮助, Le Quoc Do In fact, Nutch doesn' ...
  • 确保您在nutch弹性依赖项和本地服务器中运行相同的版本。 如果它们不相同,那么不要浪费你的时间,并使用http协议从nutch而不是Java api直接推送到elastic。 Make sure you are running the same versions in nutch elastic dependency and your local server. If they are not the same, then do not waste your time, and use the http ...
  • regex-urlfilter阻止具有查询字符串参数的URL: 跳过包含某些字符的URL作为可能的查询等。 - [*?@ =] 修改该文件,以便对带有查询字符串参数的URL进行爬网: 跳过包含某些字符的URL作为可能的查询等。 - [* @!] Nutch可能缺乏对Ajax页面爬行的支持。 看到这个 您可以查看https://issues.apache.org/jira/browse/NUTCH-1323 The regex-urlfilter blocks urls that have querystri ...
  • 这取决于数据的结构。 我假设你主要抓取HTML页面。 通常,您可以使用XPath来抓取页面的某些部分,例如“// div [@ class ='books'] / a / text()” 如果大部分文本都是非结构化的(没有结构化的HTML模式可以抓取),那么您将不得不使用正则表达式或信息提取。 如果你很幸运,你可以使用正则表达式做一些/大部分。 对于一些更复杂的结构,您需要使用信息提取/命名实体识别。 您必须训练一个IE工具,例如斯坦福大学的CoreNLP,以识别书籍标题并在文档中注释它们。 还可以查看BR ...
  • 似乎是文件写入权限问题,请尝试使用sudo运行命令或者给予文件夹写入权限。 心连心。 Seems an file write permission issue, either try running command with sudo Or give the folder write permission. hth.