Hadoop HDFS开发参考 PDF

2019-03-28 14:14|来源: 网络

Hadoop包括HDFS和MapReduce两部分,HDFS是一个可扩展的分布式文件系统,MapReduce是分布式计算模型。目前我们主要考虑HDFS分布式文件系统的开发和使用。

1. 开发环境配置

HDFS的开发环境可以在Windows上或Linux环境。可以基于eclipse开发,也可以直接使用jdk。Windows环境可以正常编译程序,但如果要在远程服务器上运行和测试程序,需要配置ssh和用户,比较麻烦。因此一般建议在Linux环境运行和测试。

1.1. eclipse开发环境配置

1.1.1.MapReduce Tools for Eclipse插件

IBM有一款MapReduce Tools for Eclipse插件,可以在Eclipse上创建MapReduce应用程序。该插件支持以下功能:

 以JAR文件方式打包和部署一个Java项目到一个Hadoop服务器(本地和远程)

 可以查看Hadoop服务器、Hadoop分布式文件系统(DFS)和当前任务状态的分离视图

 方便基于MapReduce框架的类开发的向导

 该插件可以运行在Windows、Linux或任何可以运行Eclipse的操作系统上。

该插件支持的环境:

 Eclipse 3.2.2+

 Java™ 1.5

 Hadoop 0.7.2 +

Hadoop HDFS开发参考 PDF版 下载

免费下载地址在 http://linux.linuxidc.com/

用户名与密码都是www.linuxidc.com

具体下载目录在 /2012年资料/1月/1日/Hadoop HDFS开发参考/

相关问答

更多
  • hadoop和hbase问题[2022-03-08]

    Hadoop 是一个能够对大量数据进行分布式处理的软件框架。 HBase是一个分布式的、面向列的开源数据库。 HBase在Hadoop之上提供了类似于Bigtable的能力。 HBase是Apache的Hadoop项目的子项目。 HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。 另一个不同的是HBase基于列的而不是基于行的模式。
  • hadoop hdfs目录[2022-03-28]

    移动目录的命令很简单啊,跟Linux shell的命令差不多: hdfs dfs -mv 被移动的目录A 目标目录B 直接移动就行,不知道能否解决你的问题。
  • 你指的是在hdfs中使用hadoop fs -rm删除文件吗? 这样是没有任何影响的。如果你认为hdfs和普通文件系统一样,也是可以使用linux的ls命令查看到文件列表的话,那你的理解就错了,所以不存在什么在某个disk下直接rm掉hdfs的文件这种事。如果你指的是rm掉hadoop的配置文件或者一些指定目录,如data目录,tmp目录等,那么你影响的是整个hadoop集群,当然也有可能没有影响,具体看你删掉什么文件了
  • hadoop hdfs的问题[2021-10-30]

    最下面那张图里环境变量设置的那一行多了一个$符号 export JAVA_HOME=/usr/java/jdk1.6.0_35
  • 关于是否使用ES映射器附件插件或Apache Tika的问题。 我建议你使用mapper插件,因为它与Elasticsearch很好地集成,可以为你节省大量的开销索引并将元信息添加到你正在索引的文档中。 据我所知,ES-Hadoop不公开流(实时)API。 我正在使用ES-Hadoop和Apache Spark,并且必须使用Apache Kafka自己为Elasticsearch实现一些流数据。 希望有所帮助。 Regarding your question about whether using ES m ...
  • 默认情况下,Hadoop将使用本地模式。 您可能需要在$HADOOP_HOME/conf/core-site.xml中将fs.default.name设置为hdfs://localhost.localdomain:8020/ 。 为此,请将其添加到core-site.xml : fs.default.name hdfs://localhost.localdomain:8020/ Accumulo ...
  • 实现自己的DFS接口并使其与hadoop一起使用相对简单。 您所需要的只是文件和目录的文件系统概念与您的存储之间的某种逻辑映射。 在NoSQL的情况下(如果我假设KeyValue),您应该决定如何表示目录。 您可以执行一些特殊节点,也可以将路径放入密钥。 另一个决策点 - 决定您是否关心数据位置 关于文档,我认为s3n DFS实现的来源最好从一开始。 我认为关闭的例子是由DataStax完成的Cassandra上的Hadoop http://www.datastax.com/ 另一个例子(我们稍后做的事情) ...
  • Apache Spark独立于Hadoop。 Spark允许您使用不同的数据源(包括HDFS),并且能够在独立群集中运行,或者使用现有的资源管理框架(例如,YARN,Mesos)。 因此,如果您只对Spark感兴趣,则无需安装Hadoop。 Apache Spark is independent from Hadoop. Spark allows you to use different sources of data (incl. HDFS) and is capable of running eithe ...
  • 绝对可能。 不要认为Hadoop是一个可安装的程序,它只是由一群在集群内不同节点上运行的java进程组成。 如果你使用hadoop tar ball,你可以只运行NameNode和DataNodes进程,如果你只想要HDFS。 如果您使用其他hadoop发行版(例如HDP),我认为HDFS和mapreduce来自不同的rpm软件包,但安装两个rpm软件包都有害。 如果您只需要HDFS,请再次运行NameNode和DataNodes。 Absolutely possible. Don't think Hado ...
  • Mappers从InputFormat的实现中读取输入数据。 大多数实现都来自FileInputFormat ,后者从本地计算机或HDFS读取数据。 (默认情况下,数据从HDFS读取,mapreduce作业的结果也存储在HDFS中。)当您希望从备用数据源读取数据而不是HDFS时,可以编写自定义InputFormat 。 TableInputFormat将直接从HBase读取数据记录, DBInputFormat将访问关系数据库中的数据。 您还可以想象一个系统,在特定端口上通过网络将数据流式传输到每台计算机; ...