Nutch搜索引擎系列

2019-03-27 00:49|来源: 网路

下面是Nutch搜索系列目录,希望对研究Nutch的同学有所帮助。

  目录安排:

  1Nutch搜索引擎(第1期)_ Nutch简介及安装[下载]

  2)Nutch搜索引擎(第2期)_ Solr简介及安装[下载]

  3)Nutch搜索引擎(第3期)_ Nutch简单应用

  4)Nutch搜索引擎(第4期)_ Eclipse开发配置

 

1)Nutch1.2二次开发详细攻略

  (1)Windows平台下Cygwin环境的搭建

  地址:http://www.cnblogs.com/streamhope/archive/2011/07/27/2118397.html

  (2)Windows平台下Nutch1.2的搭建

  地址:http://www.cnblogs.com/streamhope/archive/2011/07/27/2118408.html

  (3)Nutch1.2二次开发(关于界面修改)

  地址:http://www.cnblogs.com/streamhope/archive/2011/07/27/2118564.html

  (4)Nutch1.2二次开发(关于中文分词)

  地址:http://www.cnblogs.com/streamhope/archive/2011/07/28/2119345.html

2) Nutch 1.3 学习笔记

  (1) Nutch 1.3 学习笔记(一)——简介及安装

  地址:http://blog.csdn.net/amuseme_lu/article/details/6710172

  (2)Nutch 1.3 学习笔记(二)——命令详解

  地址:http://blog.csdn.net/amuseme_lu/article/details/6710221

  (3)Nutch 1.3 学习笔记(三)——Inject

  地址:http://blog.csdn.net/amuseme_lu/article/details/6713386

  (4)Nutch 1.3 学习笔记(四)——CrawlDB Reader

  地址:http://blog.csdn.net/amuseme_lu/article/details/6716693

  (5)Nutch 1.3 学习笔记(五)——Generate

  地址:http://blog.csdn.net/amuseme_lu/article/details/6720079

  (6)Nutch 1.3 学习笔记(六)——SegmentReader

  地址:http://blog.csdn.net/amuseme_lu/article/details/6723788

  (7)Nutch 1.3 学习笔记(七)——Fetcher

  地址:http://blog.csdn.net/amuseme_lu/article/details/6724734

  (8)Nutch 1.3 学习笔记(八)——FetchThread

  地址:http://blog.csdn.net/amuseme_lu/article/details/6725561

  (9)Nutch 1.3 学习笔记(九)——ParseSegment

  地址:http://blog.csdn.net/amuseme_lu/article/details/6727516

  (10)Nutch 1.3 学习笔记(十)—— Updatedb

  地址:http://blog.csdn.net/amuseme_lu/article/details/6727703

  (11)Nutch 1.3 学习笔记(十一)——LinkDb

  地址:http://blog.csdn.net/amuseme_lu/article/details/6730756

  (12)Nutch 1.3 学习笔记(十二)——SolrIndexer

  地址:http://blog.csdn.net/amuseme_lu/article/details/6741321

  (13)Nutch 1.3 学习笔记(十三)——插件机制简单介绍

  地址:http://blog.csdn.net/amuseme_lu/article/details/6776555

  (14)Nutch 1.3 学习笔记(十四)——插件扩展

  地址:http://blog.csdn.net/amuseme_lu/article/details/6780244

  (15)Nutch 1.3 学习笔记(十五)——插件机制分析

  地址:http://blog.csdn.net/amuseme_lu/article/details/6786261

  (16)Nutch 1.3 学习笔记(十六)——页面评分机制 OPIC

  地址:http://blog.csdn.net/amuseme_lu/article/details/6793472

  (17)Nutch 1.3 学习笔记(十七)——页面评分机制 LinkRank 介绍

  地址:http://blog.csdn.net/amuseme_lu/article/details/6793481

  (18)Nutch 1.3 学习笔记(十八)——Nutch 2.0 的主要变化

  地址:http://blog.csdn.net/amuseme_lu/article/details/6793653

3)Nutch与起点R3集成之笔记

  (1)Nutch与起点R3集成之笔记(一)

  地址:http://my.oschina.net/sprint/blog/28549

  (2)Nutch与起点R3集成之笔记(二)

  地址:http://my.oschina.net/sprint/blog/28717

  (3)Nutch与起点R3集成之笔记(三)

  地址:http://my.oschina.net/sprint/blog/28746

  (4)Nutch与起点R3集成之笔记(四)

  地址:http://my.oschina.net/sprint/blog/29258

4)Nutch研究系列

  (1)Nutch安装

  地址:http://www.cnblogs.com/kwklover/articles/445916.html

  (2)剖析Nutch爬虫(一)

  地址:http://www.cnblogs.com/kwklover/articles/445917.html

  (3)剖析Nutch爬虫(二)

  地址:http://www.cnblogs.com/kwklover/articles/445924.html

  (4)剖析Nutch爬虫(三)

  地址:http://www.cnblogs.com/kwklover/articles/445925.html

  (5)Nutch爬虫工作流程及文件格式详细分析

  地址:http://www.cnblogs.com/kwklover/articles/445926.html

  (6)Nutch爬虫实验运行及抓取数据分析(一)

  地址:http://www.cnblogs.com/kwklover/articles/445927.html

  (7)Nutch爬虫实验运行及抓取数据分析(二)

  地址:http://www.cnblogs.com/kwklover/articles/445928.html


转自:http://www.cnblogs.com/AloneSword/p/3750574

相关问答

更多
  • 建议把log4j的级别设置为debug,看更详细的爬行过程。 我怀疑你把网页放到本地,自己制作的index.html去爬行数据时,href="....",链接位置是相对地址,而非绝对地址,而且你的url地址在本地爬行,应该是file://...协议。这些原因导致最终爬行页面地址凭借错误。
  • 很好,很强大,和和谐
  • 全文搜索 MATCH() 函数 全文索引在 MySQL 中是一个 FULLTEXT 类型索引。FULLTEXT 索引用于 MyISAM 表,可以在 CREATE TABLE 时或之后使用 ALTER TABLE 或 CREATE INDEX 在 CHAR、VARCHAR 或 TEXT 列上创建。对于大的数据库,将数据装载到一个没有 FULLTEXT 索引的表中,然后再使用 ALTER TABLE (或 CREATE INDEX) 创建索引,这将是非常快的。将数据装载到一个已经有 FULLTEXT 索引的表中 ...
  • 首先要弄清楚是自己的站内检索,还是对网络的检索?如果仅仅检索自己本站里面的东西很简单,在apache上把lucene下载下来,里面有个很好的例子,再去找找相关资料就行了,如果想对中文分词做好点,去看看庖丁分词法.
  • 1、首先,到域名查询中心,比如万网、新网或者能查询域名所有者的地方去查询域名的注册信息,是否以前被注册过(就是我们常用的Whois查询)。如果域名曾经被注册过,我们就需要关心一下这个域名是否有过不良记录。 2、通过在Google中(site:域名),看下是否有记录,然后查看下反向链接,利用(link:域名)或者(domain:域名)可以到一些提供查询反向连接的网站去查询或者自己到搜索引擎利用命令查询。如果存在反向连接,而没有该站点被搜索引擎收录,那么这个域名很有可能被K过了,也就是存在不良记录。 3、直接输 ...
  • 这方面的书还是比较多的,我所看过的有《搜索引擎技术》、《个性化搜索引擎原理与技术》、《搜索引擎原理、实践与应用》。此外还有很多基于开源软件如Lucene、nutch的开发搜索引擎的书籍,其中也介绍了不少关于原理方面的东西,而且更加面向应用。
  • 全文搜索 MATCH() 函数 全文索引在 MySQL 中是一个 FULLTEXT 类型索引。FULLTEXT 索引用于 MyISAM 表,可以在 CREATE TABLE 时或之后使用 ALTER TABLE 或 CREATE INDEX 在 CHAR、VARCHAR 或 TEXT 列上创建。对于大的数据库,将数据装载到一个没有 FULLTEXT 索引的表中,然后再使用 ALTER TABLE (或 CREATE INDEX) 创建索引,这将是非常快的。将数据装载到一个已经有 FULLTEXT 索引的表中 ...
  • lucene的效率没有问题,你可以100W条记录的索引放在一台机器上,用nutch分开检索的算法,或者用hadoop存储索引,自己写一个indexsearcher,但是需要注意各个机器上的结果是本地最优不是全局最优的结果,如果想全局最优的结果还得采用全局频率计数(Nutch现在有没有我不清楚),或者放开各个机器返回结果的数量,从算法理论的角度上最大可能的获得最优解。100W记录的响应我测试过,应该可以满足要求。等你遇到什么问题,可以再联系,lucene后面的基准测试你也可以看看。 老吴
  • 完全没有必要,没有牵涉到硬件与低层。用C++反而影响开发进程。 支持原创!!
  • Lucene系列中没有任何项目可以本地处理PDF,但是您可以使用实用程序并写出关于如何推出自己的示例。 正如托尼上面所说,Lucene几乎可以做任何你需要的事情,但是你的时间会有很多开销。 数以千计的文件实际上并不是那么多,所以你或许可以用更轻的替代品逃脱。 也就是说,我仍然会建议您看看Solr--它比Lucene更容易设置,支持备份,复制等,以及一个非常适合您的用例的漂亮JSON接口: http: //wiki.apache.org/solr/SolJSON None of the projects in ...