分布式文件系统Hadoop

2019-03-28 13:42|来源: 网络

官方文档地址 http:// Hadoop.apache.org/common/docs/r1.0.3/

下载到:jdk-6u26-linux-x64.bin and hadoop-1.0.3.tar.gz

它有三种模式:

Local (Standalone) Mode       #本地节点

Pseudo-Distributed Mode      #伪分布式

Fully-Distributed Mode          #全分布式 

首先用单节点做一种伪分布式的架构

 
   
  1. chmod +x jdk-6u26-linux-x64.bin  
  2. ./jdk-6u26-linux-x64.bin  
  3. mv jdk1.6.0_26/ /usr/local/jdk  
  4. vim .bash_profile  
  5. PATH=$PATH:$HOME/bin:/usr/local/jdk/bin  
  6.   
  7. source .bash_profile  

 
   
  1. useradd yejk 
  2. passwd yejk
  3. cd /home/yejk
  4. vim .bash_profile  
  5. PATH=$PATH:$HOME/bin:/usr/local/jdk/bin  
  6.   
  7. source .bash_profile 
  8. cp hadoop-1.0.3.tar.gz /home/yejk/ 
  9. su - yejk 
  10. tar zxf hadoop-1.0.3.tar.gz 
  11. cd hadoop-1.0.3 
  12. 修改一些配置文件
     
  13. vim conf/hadoop-env.sh 
  14. # The java implementation to use.  Required. 
  15. export JAVA_HOME=/usr/local/jdk 
 
   
  1. vim conf/core-site.xml: 
  2. <configuration> 
  3.      <property> 
  4.          <name>fs.default.name</name> 
  5.          <value>hdfs://localhost:9000</value> 
  6.      </property> 
  7. </configuration> 
  8.  
  9. vim conf/hdfs-site.xml: 
  10. <configuration> 
  11.      <property> 
  12.          <name>dfs.replication</name> 
  13.          <value>1</value> 
  14.      </property> 
  15. </configuration> 
  16.  
  17. vim conf/mapred-site.xml: 
  18. <configuration> 
  19.      <property> 
  20.          <name>mapred.job.tracker</name> 
  21.          <value>localhost:9001</value> 
  22.      </property> 
  23. </configuration> 

建立ssh无密码访问www.linuxidc.com

 
   
  1. ssh-keygen #一路回车 
  2. ssh-copy-id -i ~/.ssh/id_rsa.pub localhost 

格式化一个新的dfs文件系统:

 
   
  1. bin/hadoop namenode -format 
  2. *************** 
  3. 2/06/03 07:04:49 INFO common.Storage: Storage directory /tmp/hadoop-yejk/dfs/name has been successfully formatted. 
  4. ***************** 

www.linuxidc.com 启动hadoop:

 
   
  1. bin/start-all.sh  

NameNode : http://localhost:50070/

JobTracker :http://localhost:50030/ 

在文件系统中新建一个目录

 
   
  1. bin/hadoop fs -mkdir test 

相关问答

更多
  • 1、能搭好环境说明水平还不错。 2、下边应该分以下几步走: 一,依据示例程序,自己手写wordcount之类的示例程序,以此充分了解m/r和hdfs的简单原理。 二,针对某些知识点,如hadoop应用场景、hadoop的简单应用等,去百度一下搞定,这样的问题最关键、最需要做的。 三,深入阅读hadoop的源码,把框架的数据流或说工作流搞个大致清楚。 四,试着用hadoop解决一些实际问题和项目应用。 参考下吧。
  • 分布式软件系统(Distributed Software Systems)是支持分布式处理的软件系统,是在由通信网络互联的多处理机体系结构上执行任务的系统。它包括分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。 分布式操作系统负责管理分布式处理系统资源和控制分布式程序运行。它和集中式操作系统的区别在于资源管理、进程通信和系统结构等方面。 分布式程序设计语言用于编写运行于分布式计算机系统上的分布式程序。一个分布式程序由若干个可以独立执行的程序模块组成,它们分布于一个 ...
  • 常见的分布式文件系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。 GFS(Google File System) -------------------------------------- Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系统。。尽管Google公布了该系统的一些技术细节,但Google并没有将该系统的软件部分作为 ...
  • 搭建的文本,很久了,现在更新的最新版本搭建更加简单,建议你去看看黑马里边的教程,免费的
  • hadoop集群指的是一群机器在一起提供一个hadoop的集群的服务。 hadoop分布式指的是hadoop支持任务分布式运行,因为有hadoop集群提供服务,所以hadoop将任务分发到集群的多台机器运行,所以叫做分布式。 一个是服务器架构,一个是任务运行架构。
  • 原因: 你访问的是本地文件系统而非hdfs , 因为Configuration默认的是在core-default.xml中的属性fs.default.name默认值是file:///,表示本地文件系统。在我们new Configuration();时会默认加载core-default.xml文件,所以根据这个文件的fs.default.name值使用了本地文件系统。 解决方法: 一般安装hadoop时都是修改core-site.xml文件,这个文件设置的属性值一般使用来覆盖core-default.xml这 ...
  • 一、DFS为何物? DFS 即微软分布式文件系统的简称,系统管理员可以利用它来有效的整合网络资源,并把这些资源以单一的层次结构呈现给网络用户。管理员利用它可以把资源发布成一 个树形结构,这样大大简化了为用户进行资源配置和对资源管理的工作量。我们可以在不同的机器上调整和移动文件,这不会影响到用户的访问。 二、为什么要使用DES? 1、DFS使用了现有网络中的Share权限,管理员不必进行新的配置 2、通过一个DFS树形结构用户就可以访问多个网络资源,而不用再把远程驱动器映射到本地共享资源中。 3、DFS可以配 ...
  • 分布式系统(distributed system)是建立在网络之上的软件系统。正是因为软件的特性,所以分布式系统具有高度的内聚性和透明性。因此,网络和分布式系统之间的区别更多的在于高层软件(特别是操作系统),而不是硬件。内聚性是指每一个数据库分布节点高度自治,有本地的数据库管理系统。透明性是指每一个数据库分布节点对用户的应用来说都是透明的,看不出是本地还是远程。在分布式数据库系统中,用户感觉不到数据是分布的,即用户不须知道关系是否分割、有无复本、数据存于哪个站点以及事务在哪个站点上执行等。 故名思义,分布式 ...
  • 这个很简单啊,你在写路径的时候必须是绝对路径 所有前面肯定有"/home"的啊, 所以你在使用路径前先拼接个workDir Path workDir = h.getWorkingDirectory();// h是你得到的hdfs文件系统的句柄