大数据开发技术之Hadoop组成三大架构

Hadoop在我们大数据培训课程中占据着举足轻重的地位,被公认为是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。在所有的大数据培训机构都把它作为必备课,它不仅是在大数据培训行业而且几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。 ......

Hadoop在我们大数据培训课程中占据着举足轻重的地位,被公认为是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。在所有的大数据培训机构都把它作为必备课,它不仅是在大数据培训行业而且几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。

Hadoop组成(面试重点)

图2-21 Hadoop1.x与Hadoop2.x的区别

1 HDFS架构概述

HDFS(Hadoop Distributed File System)的架构概述,如图2-23所示。

图2-23 HDFS架构概述

2 YARN架构概述

YARN架构概述,如图2-24所示。

3 MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce,如图2-25所示

1)Map阶段并行处理输入数据

2)Reduce阶段对Map结果进行汇总