带你认识HDFS和如何创建3个节点HDFS集群

大数据
在本文中,大数据专家将为您介绍如何使用HDFS以及如何利用HDFS创建HDFS集群节点。我们将从HDFS、Zookeeper、Hbase和OpenTSDB上的系列博客开始,了解如何利用这些服务设置OpenTSDB集群。在本文中,我们将探究HDFS。

 在本文中,大数据专家将为您介绍如何使用HDFS以及如何利用HDFS创建HDFS集群节点。

[[278040]]

我们将从HDFS、Zookeeper、Hbase和OpenTSDB上的系列博客开始,了解如何利用这些服务设置OpenTSDB集群。在本文中,我们将探究HDFS。

HDFS

Hadoop分布式文件系统(HDFS)是一种基于Java的分布式文件系统,它具有容错性、可伸缩性和易扩展性等优点,它可在商用硬件上运行,也可以在低成本的硬件上进行部署。HDFS是一个分布式存储的Hadoop应用程序,它提供了更易访问数据的接口。

架构

HDFS架构包含一个NameNode、DataNode和备用NameNode。

HDFS具有主/从架构。

 

带你认识HDFS和如何创建3个节点HDFS集群(附代码&案例)

 

NameNode:HDFS集群包含单个NameNode(主服务器),它管理文件系统命名空间并控制客户端对文件的访问权限。它维护和管理文件系统元数据;例如由哪些块构成文件,以及存储这些块的数据节点。

DataNode:可以有多个DataNode,通常是集群中每个节点有一个DataNode,它负责管理运行节点的存储访问。HDFS中的DataNode存储实际数据,可以添加更多的DataNode来增加可用空间。

备用NameNode :备用NameNode服务并非真正的备用NameNode,尽管名称是称为备用NameNode。具体来说,它并不为NameNode提供高可用性(HA)。

为什么需要备用NameNode?

  • 备用NameNode记录文件系统的修改痕迹,追加到本机文件系统文件的后面,作为修改日志。
  • 启动备用NameNode时,它会从映像文件fsimage中读取HDFS状态,然后启用“编辑日志文件”对它进行编辑。
  • 然后将新的HDFS状态写入fsimage,并使用“空编辑文件”启动正常操作。
  • 由于NameNode只在启动时合并fsimage和编辑文件,所以在繁忙的集群中,随着时间的推移,“编辑日志文件”会变得非常大。
  • 大“编辑日志文件”的另一个副作用是:在下次重新启动NameNode时,需要花费更长的时间。
  • 备用NameNode定期合并fsimage和“编辑日志文件”,并将“编辑日志文件”的大小保持在限定范围内。
  • 备用NameNode通常在与主NameNode不同的计算机上运行,因为它的内存要求与主NameNode的相同。

关键特征

容错:为了防止机器故障,可跨多个DataNode复制容错数据,复制因子的默认值是3(如果有3个DataNode,每个块至少存储在三台计算机上)。

可伸缩性- DataNode之间可实现直接数据传输,所以读/写次数应与DataNode的数量相匹配。

空间-需要更多的磁盘空间?只需添加更多DataNodes和再平衡。

行业标准-其他分布式应用程序均构建在HDFS之上(HBASE,Map-Reduction)。

HDFS是用来处理大数据集的,它具有write-once-read-many(一次写-多次读)的语义,不适合低延迟访问。

数据结构

  • 写入HDFS的每个文件被分割为64MB或128MB大小的数据块。
  • 每个块存储在一个或多个节点上。
  • 块的每个副本均称为副本。

分块安置策略

  • 第一副本放在本地节点上。
  • 第二副本放在不同的机架上。
  • 第三副本与第二副本放置在同一机架中。

设置HDFS集群

要创建HDFS集群,会用到Docker。

步骤

创建一个Docker群网络。

 

带你认识HDFS和如何创建3个节点HDFS集群(附代码&案例)

 

NameNode

在VM1中为NameNode创建环境变量文件(namenode_env)。

 

带你认识HDFS和如何创建3个节点HDFS集群(附代码&案例)

 

在VM1上创建NameNode:

 

带你认识HDFS和如何创建3个节点HDFS集群(附代码&案例)

 

在所有3个VM中为DataNode创建环境变量文件(datanode_env)。

 

带你认识HDFS和如何创建3个节点HDFS集群(附代码&案例)

 

在VM1上创建DataNode1:

 

带你认识HDFS和如何创建3个节点HDFS集群(附代码&案例)

 

在VM2上创建DataNode 2:

 

带你认识HDFS和如何创建3个节点HDFS集群(附代码&案例)

 

在VM 3上创建DataNode 3。

 

带你认识HDFS和如何创建3个节点HDFS集群(附代码&案例)

 

在所有vms中,通过执行docker ps检查所有容器是否已启动并正常运行。

一旦所有容器均已启动并运行,请转到VM1,打开浏览器,打开http://localhost:50070/dfshealth.html#tab-datanode.将会看到如下输出:

 

带你认识HDFS和如何创建3个节点HDFS集群(附代码&案例)

 

HDFS CLI

 

带你认识HDFS和如何创建3个节点HDFS集群(附代码&案例)

 

在本文中,我们研究了HDFS以及如何创建3个节点HDFS集群。在下一篇文章中,我们将关注Zookeeper,并创建一个Zookeeper集群。

原文标题:

An Introduction to HDFS

原文链接:

https://dzone.com/articles/an-introduction-to-hdfs

译者

 

陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步

责任编辑:武晓燕 来源: 今日头条
相关推荐

2022-05-12 09:39:01

HDFSvivo集群

2012-07-05 10:51:57

Hadoop集群

2021-01-28 05:11:26

HDFS架构Hadoop

2013-01-08 10:01:56

HDFS

2012-07-11 17:21:23

HadoopHDFS

2010-06-07 13:35:16

Hadoop简介

2020-05-14 14:52:05

HDFS数据集架构

2013-04-23 11:17:47

Hadoop

2018-08-28 15:10:16

数据库数据存储Hadoop

2015-07-08 15:14:15

云存储HDFS副本放置策略

2012-07-13 10:17:39

HadoopHDFS

2015-04-02 12:42:26

HDFS分层存储高效

2012-02-01 09:21:23

Hadoop分布式文件系统OpenStack

2021-04-14 08:51:55

HDFSJavaPython

2010-06-03 15:13:34

Hadoop Hdfs

2021-01-30 19:35:44

HDFS单点Hadoop

2023-02-26 12:03:26

2010-09-29 15:15:15

DHCP中继

2021-03-08 08:42:26

HDFS纠删码存储

2017-06-08 11:00:09

HDFSHadoopYARN
点赞
收藏

51CTO技术栈公众号