您现在的位置是: 首页 > 初识HDFS(分布式文件系统)


初识HDFS(分布式文件系统)

纯真年代 2018-09-15 15:52:41 0 303人围观

直达车:Apache Hadoop 2.9.1 – HDFS Architecture

HDFS的设计目标  直达车
  1. 非常巨大的分布式文件系统
  2. 运行在普通廉价的硬件上
  3. 易扩展、为用户提供性能不错的文件服务
  • · · · · · ·
HDFS架构  直达车



HDFS 采用 master/slave 架构,1个Master(NameNode/NN) 带多个 Slaves(DdataNode/DN)

1个文件会被长拆分成多个Block(默认大小128M)

NameNode的职责

  1. 负责客户端的请求响应
  2. 负责元数据(文件名称、副本系数、Block存放的DataNode的地址)的管理

DataNode的职责

  1. 存储用户的文件对应的数据块(Block)
  2. 要定期向NameNode发送心跳信息,汇报本身以及其所有的Block的信息,健康状况等

架构例子

    A typical deployment has a dedicated machine that runs only the NameNode software. (典型的架构,选择一台机器仅仅作为NameNode)
    Each of the other machines in the cluster runs one instance of the DataNode software. (其他的机器每一个都运行一个DataNode)
    The architecture does not preclude running multiple DataNodes on the same machine(也不排除一个机器运行多个DataNode)
    But in a real deployment that is rarely the case. (但是生产环境上不这么干)

建议:NN和DN是部署在不同的节点上的

HDFS的副本机制  直达车

    HDFS将一个文件进行切分成多个快,以多副本的形式进行存储,为了容错,块的大小和副本因子(replication factor)都是可以进行配置的




例图

    文件名:part-0,r副本系数为2,blockIds是1,3;我们看 blockId1在机器1,3上都存储了(两副本),blockId3在机器5,7上存储了(两副本)
    文件名:part-1,同上

HDFS的副本存放策略


例图

    一个文件会被拆分成多个Block,每个Block又会被存放多份(默认3份)。
    默认第一个副本会存放在同client的机器的节点上,第二个会存放在非第一个副本的机架上的节点上,第三个存放在第二个副本机架上的不同节点。
    当副本的数量大于我们的机器数,它会随机挑选了。

HDFS文件读写流程

    1)hdfs去写流程,中间出现了异常怎么办,有兴趣去看一下 直达车

HDFS优缺点

    1)优点

        数据冗余、硬件容错

        处理流失的数据访问

        适合存储大文件

        可构建在廉价的机器上

    2)缺点

        低延迟的数据访问,不行

        小文件存储,不适合


说明:整理于网络
本人学习大数据的课程全来源慕课网(
Michael  PK老师),我是初学者,老师讲得很好,作为学生价格可能有点难,像我一样,忍忍就好了哈哈
本文章作为个人笔记,也供大家监督

上一篇: HDFS上手体验

下一篇: 初识Hadoop

全部评论