Nutch2.1 + MySQL + Solr4.5

2019-03-27 01:07|来源: 网路

参考文章:

【注意版本的选择】O(∩_∩)O哈哈~

1. http://cosmo1987.iteye.com/blog/1826971

    http://nlp.solutions.asia/?p=180

2. solr的schema.xml文件的修改参考 http://nlp.solutions.asia/wp-content/uploads/2012/08/schema.xml,报错信息中缺少什么   就添加该字段。

 

收获一点:

  出错之后,不要着急,看下logs/hadoop.log上面是什么错误?或者solr的服务器端是什么错误?


转自:http://www.cnblogs.com/lovers/articles/3353088

相关问答

更多
  • 恩,这个我没有集成过,但是我想在不操作数据库的基础上,是不需要修改application.xml和struts.xml这些配置文件的,只需要把爬行的xml文件配置到web.xml里面就可以了,定时爬取的话就在application.xml里面配置quartz任务。 希望能够帮到你
  • Nutch是构建网络爬虫和搜索引擎的框架。 Nutch可以完成从收集网页到建立倒排索引的整个过程。 它也可以将这些索引推送到Solr。 Solr主要是一个搜索引擎,支持分面搜索和许多其他简洁的功能。 但Solr不提取数据,你必须提供它。 因此,也许你必须要问的第一件事是在你是否有可用的索引数据(在XML中,在CMS或数据库中)。 在这种情况下,您应该只使用Solr并为其提供数据。 另一方面,如果你不得不从网络上获取数据,你可能更愿意使用Nutch。 Nutch is a framework to build ...
  • 创建自己的java类来管理Nutch循环。 它应该类似于org.apache.nutch.crawl.Crawl,但您必须通过调用Mysql连接器来替换对索引器的调用。 或者您可以在每个周期中调用您的Mysql连接器,具体取决于您是要在爬网结束时还是在发生时更新Mysql。 Create your own java class that manage the Nutch cycle. It should be similar to org.apache.nutch.crawl.Crawl but you w ...
  • 这些DB服务器的用途不同,它在很大程度上取决于您的应用程序(以及您存储的数据类型)是否应该仅使用Solr或MySQL。 MySQL可以很好地存储具有大量关系和表格的数据(彼此相关的表格)。 Solr很适合文本搜索(正如你所说:快速索引),如果你没有很多“相关数据”,你确实可以将这些数据存储在相同的文档中。 有些人确实只使用Solr来存储他们的数据库...但我仍然认为RDBM可以很好地用于某些类型的数据。 例如:如果您想允许快速搜索系统用户并存储他们的完整个人资料,以及一些信息详细信息......最好使用So ...
  • 使用cygwin,这是一个很好的指南,可以将它们组合在一起: http://amac4.blogspot.com/2013/07/setting-up-solr-with-apache-tomcat-be.html Use cygwin, heres an excellent guide to set them up together: http://amac4.blogspot.com/2013/07/setting-up-solr-with-apache-tomcat-be.html
  • 是的,堆栈跟踪清楚地表明MySQL查询中存在用于创建表的语法。 引起:java.io.IOException:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException:您的SQL语法中有错误; 检查与您的MySQL服务器版本对应的手册,以便在'-depth_webpage(id VARCHAR(767)PRIMARY KEY,标题BLOB,text VARCHAR(32000),sta'在第1行附近使用正确的语法 请确保查询在MySQL workbe ...
  • 上述错误是由于我安装的服务器上的分区空间不足造成的。 当我尝试运行nutch generate命令时,检查共享内存文件空间不足时的答案 The above errors are due to insufficient space on the partition on the server where i have installed . check the answer at Insufficient space for shared memory file when i try to run nutch ...
  • 我错过了MySQL的内容字段,即LongBlob并存储图像。 I missed the content field in MySQL which is LongBlob and stores the image.
  • 在目前阶段,Nutch只负责抓取网页,这意味着访问网页,提取内容,找到更多链接并重复这个过程(我正在跳过很多复杂的东西,但希望你能得到这个想法) 。 爬网过程的最后一步是将数据存储在后端(ES / Solr是1.x分支上支持的数据存储)。 因此,在这个步骤中,Solr开始发挥作用,在Nutch完成其工作之后,您需要将数据存储在某处以便能够在其上执行查询:这是Solr作业。 前段时间Nutch包含了编写倒排索引的能力(正如问题中所解释的那样),但是决定(也是前一段时间)是弃用这个以支持使用Solr / ES( ...