Hadoop文件系统之HDFS体系结构

2018-5-14 14:17| 发布者: admin| 查看: 338| 评论: 0

摘要: HDFS是Hadoop最常用的分布式文件系统,与其他分布式系统不同,HDFS是高度容错的,并且使用低成本硬件设计,为了存储巨大的数据,文件以冗余的方式存储在多个机器中,以在发生故障时避免系统可能的数据丢失,HDFS还可 ...

  HDFS是Hadoop最常用的分布式文件系统,与其他分布式系统不同,HDFS是高度容错的,并且使用低成本硬件设计,为了存储巨大的数据,文件以冗余的方式存储在多个机器中,以在发生故障时避免系统可能的数据丢失,HDFS还可使应用程序用于并行处理。


HDFS体系结构


  HDFS采用主从结构模型,遵循主从架构,一个HDFS集群由一个NameNode和若干个DataNode组成的,NameNode作为主服务器,管理文件系统命名空间和客户端对文件的访问操作;DataNode管理存储的数据。


  1. Namenode


  Namenode是一个可以在商用硬件上运行的软件,可以充当主服务器,可以执行管理文件系统命名空间、调整客户端对文件的访问以及执行文件系统操作等任务。


  2. Datanode


  对于集群中的每个节点都会有一个Datanode,这些节点管理其系统的数据存储,Datanode可以根据客户端请求对文件系统执行读写操作,还可根据Namenode的指令执行诸如块创建、删除和复制的操作。


  3. Block


  在HDFS文件中,用户数据文件被分成一个或多个段或存储在各个数据节中,这些文件段称为块,默认块大小为64MB,可以根据需要更改HDFS配置来增加。


  Hadoop采用HDFS可以实现以下功能:


  1. 故障检测和恢复 :由于HDFS包括大量的商品硬件,组件的故障频繁。因此,HDFS应该具有快速和自动故障检测和恢复的机制;


  2. 巨大的数据集 :HDFS应该每个集群有数百个节点来管理具有巨大数据集的应用程序;


  3. 硬件数据 :当在数据附近进行计算时,可以有效地完成所请求的任务。特别是在涉及巨大数据集的情况下,它减少了网络流量并增加了吞吐量。


  HDFS是Hadoop的重要组成部分,HDFS和MR共同组成Hadoop分布式系统体系结构的核心,HDFS在集群上实现了分布式文件系统,MR在集群上实现了分布式计算和任务处理。HDFS在MR任务处理过程中提供了文件操作和存储等支持,MR在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成分布式集群的主要任务。


  免责声明:内容和图片源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。


鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论(0)

Powered by Discuz! X3.2  © 2001-2013 Comsenz Inc.