nucth2.0 导入eclipse中

2019-03-27 01:13|来源: 网路

参照官网给的指导,RunNutchInEclipse 过程比较麻烦,也总是不能成功,而官网上给推荐的Build Nutch 2.0 in Eclipse 由于需要FQ,懒得没看。

为了能将nutch2.0 成功导入eclipse,前段时间我简单看了一下nutch的ant编译过程,简单分析了一下build.xml脚本,大致了解了一下整个ant编译过程,进而了解了在此过程中各个工作的依赖关系:
nucth2.0 导入eclipse中 - Lendfating - Lendfating
同时简单看了一下runtime/local/bin/nutch脚本,大致了解了一下执行时的调用过程。
nutch的主要源代码在src/java里面,而这些源文件需要依赖src/pulgin下面的代码生成的一些插件和ivy标记的一些jar包资源。
这些plugin文件的编译打包过程是在nutch的核心代码(src/java下的代码)编译之前进行的,并作为core部分的依赖项,而这部分的内容我不需要修改,所以,为了方便自己,我可以直接使用这部分的编译结果,而不必管它这些plugin的源代码,所以,在下面的过程中没有导入plugin的源代码,而是直接使用了这些代码的编译结果。
 
简单描述一下过程,以后会逐渐完善。
 
第一步:新建普通Java工程 

第二步:将Nutch源码(路径是:Nutch根目录下“src/java/”下所有的文件)拷贝到java工程中的src目录下。 

第三步:将Nutch运行依赖包加到class path中去。依赖包可以在Nutch根目录下runtime/local/lib文件夹中找到, 切记不可全选,请排除apache-nutch-2.1.jar ,否则当运行的时候,会首先去apache-nutch-2.1.jar中寻找配置文件。可能会报http.agent.name异常。(直接当依赖jars包导入工程即可)

第四步:将runtime/local/下的conf和plugins文件夹拷贝到java工程中去。此时,文件结构大致如下所示: 

nucth2.0 导入eclipse中 - Lendfating - Lendfating  

第五步:右键工程-》Properties-》Build Path-》选择Libraries-》点击Add Class Folder-》选择conf文件夹-》点击确定 

第六步:右键Crawl.java文件-》Run As-》Run Configurations-》切换到Arguments选项卡-》加入运行参数,我的是官方例子中的参数,既: 
Java代码   收藏代码
  1. urls -solr http://localhost:8080/solr/ -depth 3 -topN 5  


因为我在早先配置好了solr,所以我的参数中带有solr的地址,大伙儿可以自行配置所需参数。 

最后附带两个链接,以后可能用得着,备份一下:


转自:http://www.cnblogs.com/chenying99/articles/3139613

相关问答

更多