基于Hadoop平台的数据分析方案的设计应用 PDF

2019-03-28 14:04|来源: 网络

互联网高速发展,信息量不断膨胀,各种大型搜索引擎的访问量迅速增加,与此同时这些大型系统都记录下了海量的用户访问和查询日志,挖掘出日志中蕴藏的信息来改进搜索引擎性能、提升服务质量是非常有价值的,然而传统的日志分析和数据统计方法受到单机内外存、CPU 资源有限的限制,在进行海量日志数据的分析时运到了瓶颈。Hadoop 作为著名开源组织Apache 旗下专注于分布式存储和计算的开源项目,越来越收到重视,现在广泛应用于网页搜索、日志分析、广告计算、数据挖掘等领域。

本文以国内著名搜索引擎的用户查询日志为数据源,介绍了Hadoop 在文本处理及数据分析中的应用,使用的数据为搜索引擎用户查询日志。并根据实验结果提出Hadoop 在数据分析中的应用设计方法。

文献[1]提出利用Map/Reduce 进行文本分析的方法,包括文本倒排索引和图论相关的应用;文献[3]提出对用户搜索日志进行分类的理论方法,但未给出具体的数据分析操作和效率;文献[4]提出了对用户查询进行相关性分析的理论方法,并对某搜索引擎的某20 个热点查询词进行实际数据分析,但欠缺对大数据量的实验分析和验证;因此本文在前面的研究成果之上,在Hadoop 分布式计算平台上对超过G 级的搜索日志数据进行数据分析,并提出在该平台上进行分布式程序设计的部分具有普适性的方法。

免费下载地址在 http://linux.linuxidc.com/

用户名与密码都是www.linuxidc.com

具体下载目录在 /2012年资料/2月/4日/基于Hadoop平台的数据分析方案的设计应用 PDF/

相关问答

更多
  • 《谁说菜鸟不会数据分析》这套书籍值得入门者去学习的,但是为了尊重版权,我就只发给你简本吧,简本也涵盖了主体内容,你觉得需要可以再去购买实体书籍。 入门篇: 工具篇: SPSS篇:
  • 设计模式C++pdf CSDN 下载频道 设计模式C++pdf 资源大小: MB 资源类型: pdf文档 发布人: kevin_nolan 等级:2 发布日期: 2007-10-20 09:32 Tag: C++ 设计模式 资源分: 0 下载人数: 488 C++设计模式pdf - 免费高速下载- 共享资料 2009年8月2日 C++设计模式pdf,c++设计模式pdf最大的中文在线资料分享站点 修改资料名称及说明 名称: 说明: 20多钟C++的gof设计模式。想要成为C++高手就看看吧 C++设计模式p ...
  • 文件名:[深入浅出数据分析(中文版)].(Michael Milton).李芳.扫描版.pdf 文件大小: 35.89M 文件名:谁说菜鸟不会数据分析入门篇.pdf 文件大小:63.68M 文件名:谁说菜鸟不会数据分析工具篇-简版电子书.pdf 文件大小:5.71M 这三本书我都有哦,但是文件太大了〒_〒我手机党不发的哦……
  • http://bbs.ebookee.net/thread-11158-1-1.html [标题] 谁说菜鸟不会数据分析( 入门篇) [作者] 张文霖 等 [豆瓣评分] 7.9 [内容简介] 张文霖、刘夏璐、狄松编着的《谁说菜鸟不会数据分析(入门篇升级版)》是一本有趣的数据分析书! 本书基于通用的Excel工具,加上必知必会的数据分析概念,以小说般通俗易懂的方式讲解。 本书基于职场三人行来构建内容,完全按照数据分析工作的完整流程来讲解。全书共8章,依次讲解数据分析必知必会知识、确定数据分析的结构化思维、数据 ...
  • 你在找什么听起来很像Orbeon Forms的PDF模板功能。 使用Form Runner,您可以将自己的按钮添加到窗体中,并且这些按钮可以拥有自己的标签和“逻辑”。 后者是在一个过程中定义的,这是一系列的行动 。 其中一项操作是send() ,顾名思义,它将与表单相关的一些信息“发送”给您提供的服务。 您可以通过使用send(content = "pdf" )配置该操作,以发送通过“填充”PDF模板生成的PDF,其中包含用户在表单中输入的数据。 您可以在send()操作的文档中找到更多关于此的信息 。 W ...
  • 我无法用当前的实现解决关闭MemoryStream的问题,所以我不得不完全重构。 相反,我使用本文所述的PdfFileEditor.Concatenate()方法。 我的实施如下: public byte[] GetPrintContent(List models) { PdfFileEditor pdfEditor = new PdfFileEditor(); MemoryStream ...
  • 抱歉,上面的链接失败了。 最后,我们发现将PDF作为包装在JSON中的二进制数据发送不起作用。 该服务的创建者发现他们的框架正在轻微地操纵二进制数据并转换一些字符。 他们最终切换到Base 64编码,效果很好。 Sorry the above link failed. In the end we found that sending the PDF as binary data wrapped in JSON did not work very well. The creators of the servi ...
  • 从您的伪代码示例中,我们了解您要替换包含图像的对象的流。 有几个例子说明如何做到这一点。 例如,在SpecialID示例中,我们创建了一个PDF,我们使用特殊ID标记特定图像。 在ResizeImage示例中,我们基于该特殊ID跟踪该图像,并替换流: object = reader.getPdfObject(i); if (object == null || !object.isStream()) continue; stream = (PRStream)object; if (value.equa ...
  • 你可以在这里阅读关于PHP的PDF库: http : //php.net/manual/book.pdf.php PHP还推荐了这些替代方法: http://www.fpdf.org/ http://www.tecnick.com/public/code/cp_dpage.php?aiocp_dp=tcpdf http://php.net/manual/book.haru.php After a bit more digging, I was able to use Zend PDF within the ...
  • 我会说你的代码存在缺陷,不仅仅是一点点,而是很大的时间。 您正在检查是否可以读取文件,如果不是,则重新开始写入同一文件的过程(至少两次)。 在某些时候,您将最终尝试写入同一文件的多个进程,从而导致奇怪的行为。 我会重构printApp方法以返回它创建的Process 。 然后在该进程上调用waitFor 。 如果它返回0并且没有被中断则成功完成并且您应该能够下载该文件。 @RequestMapping(value="/dwn.htm",method=RequestMethod.GET) public voi ...