第一周，总体概述， Hadoop , 想到鸿蒙的未来，还想大干一场

2021-04-20 21:12:05

2019-8-2 大数据班正式开课，整天讲解大数据的软件构成和概念

Hadoop , 想到鸿蒙的未来，我还想大干一场

HDFS:

Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。

Hadoop 最核心的模块包括Hadoop Common、HDFS与MapReduce。

HDFS是Hadoop分布式文件系统（Hadoop Distributed File System）的缩写，

为分布式计算存储提供了底层支持。

采用Java语言开发，可以部署在多种普通的廉价机器上，以集群处理数量积达到大型主机处理性能。

HDFS 架构原理HDFS采用master/slave架构。

一个HDFS集群包含一个单独的NameNode和多个DataNode。

NameNode作为master服务，它负责管理文件系统的命名空间和客户端对文件的访问。

NameNode会保存文件系统的具体信息，包括文件信息、文件被分割成具体block块的信息、以及每一个block块归属的DataNode的信息。

HDFS通过NameNode对用户提供了一个单一的命名空间。

DataNode作为slave服务，在集群中可以存在多个。

通常每一个DataNode都对应于一个物理节点。

DataNode负责管理节点上它们拥有的存储，它将存储划分为多个block块，管理block块信息，同时周期性的将其所有的block块信息发送给NameNode。

HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。

Namenode是一个中心服务器，负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。

集群中的Datanode一般是一个节点一个，负责管理它所在节点上的存储。

HDFS暴露了文件系统的名字空间，用户能够以文件的形式在上面存储数据。

从内部看，一个文件其实被分成一个或多个数据块，这些块存储在一组Datanode上。

Namenode执行文件系统的名字空间操作，比如打开、关闭、重命名文件或目录。

它也负责确定数据块到具体Datanode节点的映射。

Datanode负责处理文件系统客户端的读写请求。

在Namenode的统一调度下进行数据块的创建、删除和复制。

下图为HDFS系统架构图，主要有三个角色，Client、NameNode、DataNode。

深圳塑胶模具厂,深圳市模具厂,深圳模具厂,深圳模具,深圳塑胶模具

文件写入时：Client向NameNode发起文件写入的请求。

NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。

Client将文件划分为多个block块，并根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

当文件读取：Client向NameNode发起文件读取的请求。

NameNode返回文件存储的block块信息、及其block块所在DataNode的信息。

Client读取文件信息。

HDFS 数据备份HDFS被设计成一个可以在大集群中、跨机器、可靠的存储海量数据的框架。

它将所有文件存储成block块组成的序列，除了最后一个block块，所有的block块大小都是一样的。

文件的所有block块都会因为容错而被复制。

每个文件的block块大小和容错复制份数都是可配置的。

容错复制份数可以在文件创建时配置，后期也可以修改。

HDFS中的文件默认规则是write one（一次写、多次读）的，并且严格要求在任何时候只有一个writer。NameNode负责管理block块的复制，它周期性地接收集群中所有DataNode的心跳数据包和Blockreport。心跳包表示DataNode正常工作，Blockreport描述了该DataNode上所有的block组成的列表。

---------------------

作者：Resines

来源：CSDN

原文：https://blog.csdn.net/genglei1022/article/details/89646714

MapReduce:

YARN:

标签: 鸿蒙

第一周， 总体概述， Hadoop , 想到鸿蒙的未来，还想大干一场

新闻

为您推荐

第一周，总体概述， Hadoop , 想到鸿蒙的未来，还想大干一场