hadoop学习笔记

预计阅读时间：9 分钟

首先先介绍下Hadoop，来自维基百科：

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理。 Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式：应用程序被分区成许多小部分，而每个部分都能在集群中的任意节点上运行或重新运行。此外，Hadoop还提供了分布式文件系统，用以存储所有计算节点的数据，这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计，使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据。现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统（HDFS）以及一些相关项目，有Apache Hive和Apache HBase等等。

Hadoop框架中最核心的设计就是：MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统（Hadoop Distributed File System）的缩写，为分布式计算存储提供了底层支持。下面来分别介绍下：

HDFS

HDFS基于一组特定的节点构建，包括名称节点（Name Node），第二名称节点（Second NameNode）以及数据节点（Data Node）。 - 名称节点（Name Node）又称Master Node，主节点通常在HDFS架构中单独机器上运行的组建，负责管理文件系统名称空间和控制外部客户机的访问，Name Node决定是否将文件映射到Data Node上的复制块上。 - 数据节点（Data Node），又称slave Node。数据节点也是一个通常在HDFS架构中单独机器上运行的组建，一般包括一个Name Node和大量的Data Node。数据节点响应来自HDFS客户机的读写请求，还响应来自Name Node的创建，删除和复制块的命令。名称节点依赖来自每个数据节点的定期心跳消息，每条消息都包括一个块报告，名称节点可以根据报告验证块映射和其他文件系统元数据。

HDFS系统的文件特征：

存储极大数目的信息（terabytes or petabytes），将数据保存到大量的节点当中。支持很大单个文件。
提供数据的高可靠性，单个或者多个节点不工作，对系统不会造成任何影响，数据仍然可用。
提供对这些信息的快速访问，并提供可扩展的方式。能够通过简单加入更多服务器的方式就能够服务更多的客户端。
HDFS是针对MapReduce设计的，使得数据尽可能根据其本地局部性进行访问与计算。与普通文件系统相比，其差异如下：
文件量相对不大，不过单文件会比较大。
文件中间内容不能修改，只能添加内容到文件结尾。
只能对文件进行创建，删除，重命名，修改属性以及在文件尾部添加等操作。

HDFS文件操作主要流程：

客户端将要上传对文件按照128M的大小分块。
客户端向名称节点发送写数据请求。
名称节点记录各个Data Node信息，并返回可用的Data Node节点列表。
客户端直接向Data Node发送分割后的文件，以流的方式写入。
写入完成后，Data Node向Name Node发送消息，更新元数据。

在向每个Data Node写数据的时候，该Data Node会将文件副本数据发送给别的Data Node，这样就完成了备份存储。在分布式文件系统的设计中，挑战之一是如何确保数据的一致性。对于HDFS来说，直到所有要保存数据的DataNodes确认它们都有文件的副本时，数据才被认为写入完成。因此，数据一致性是在写的阶段完成的。一个客户端无论选择从哪个DataNode读取，都将得到相同的数据。

HDFS文件读过程：

客户端询问NameNode它应该从哪里读取文件。
NameNode发送数据块的信息给客户端。(数据块信息包含了保存着文件副本的DataNode的IP地址，以及DataNode在本地硬盘查找数据块所需要的数据块ID。)
客户端检查数据块信息，联系相关的DataNode，请求数据块。
DataNode返回文件内容给客户端，然后关闭连接，完成读操作。客户端并行从不同的DataNode中获取一个文件的数据块，然后联结这些数据块，拼成完整的文件。

在HDFS中，文件被切分成固定大小的数据块，默认128M，若文件不及128M则单独保存在一个block。文件在切分成若干个block后，存储在不同节点上，默认情况下每个block都有三个副本。

MapReduce

MapReduce的主要思想即：将一个大问题分割成多个小问题，处理完成之后在将数据汇总，在MapReduce中，尽量将数据存储在计算节点，这样访问本地数据会快很多，而就近存储数据也是MapReduce的一大特征。

主要步骤：

Map所做的是将一个问题域中的所有数据在一个或多个节点中转化为Key-Value对，然后对这些Key-Value对进行Map操作，生成零个或多个新的Key-Value对，最后按key值进行排序，同样的Key值排在一起，合并生成一个新的Key-Value列表。
Reduce做的是收集工作，按照Map中生成新的Key-Value列表按照key值放在一个或者多个子节点中，用便携的Reduce操作处理，归并合成一个列表，得到最终的结果。其主要流程如下所示:

(input) -> map -> -> combine -> -> reduce -> (output)

如下图所示，使用MapReduce来统计词频： 1. 用户程序调用MapReduce将输入文件分割成若干个小文件，假设我们的输入为{“Dear”,”Bear”,”River”,”Car”,”Car”,”River”,”Dear”,”Car”,”Bear”},则按规则每三个单词一个小文件可以把输入分割成三个小文件，分别是：{“Dear”,”Bear”,”River”},{“Car”,”Car”,”River”}和{“Dear”,”Car”,”Bear”} 2. 在map阶段创建key-value列表，key是每个单词，而value我们都初始化为1，这样，对于第一行(Deer Bear River)我们就得到了三个键值对，分别是Dear,1;Bear,1;River,1。对于其他节点进行同样对操作，这个阶段对处理逻辑其实就是我们程序所编写的Map函数。而这个阶段的操作都是数据本地的操作，也就是所谓的移动计算而不是移动数据。 3. Shuffing阶段，MapReduce的核心就是在这个阶段，其原理就是将Map的输出进行整合，然后作为Reduce的输入发送给Reduce，简单理解就是把所有的Map的输出按照键进行排序，并且将相对键的键值对整合在同一个组中，Bear、Car、Deer、River是排序的，并且Bear这个键有两个键值对。 4. Reduce阶段，这个阶段也是我们编写程序的地方，可以针对分组后的键值对进行处理，针对同一个键Bear的所有值进行了一个加法操作，得到这样的键值对。 5. 输出阶段，Reduce的输出结果是直接写入HDFS上，同样这个输出文件也是分块的。

MapReduce的过程可以解析为如下所示： 1. 文件在HDFS上被分块存储，DataNode存储文件的实际块。 2. 在Map阶段，针对每个文件块建立一个Map任务，Map任务直接在Data Node上进行，即移动计算，而非数据。 3. 每个Map任务处理自己的文件块，然后输出新的键值对。 4. Map输出的键值对经过Shuffle/Sort阶段后，相同的key的记录会被输送到同一个Reducer中，同事键值对排序的值被放在一个列表中。 5. 每个Reducer处理从Map输送过来的键值对，然后输出新的键值对，一般输出在HDFS上。

所以MapReduce的本质就是把一组键值对经过Map阶段映射成新的键值对；接着经过Shuffle/Sort阶段进行排序和“洗牌”，把键值对排序，同时把相同的键的值整合;最后经过Reduce阶段，把整合后的键值对组进行逻辑处理，输出到新的键值对。这样的一个过程，其实就是MapReduce的本质。

本文由 liangliangyy 原创，转载请注明出处。

且听风吟

重剑无锋，大巧不工。