概述

DHFS
-hadoop分布式文件系统
-PB，TB
-高冗余，高容错

Hadoop 1.x
-MapReduce
-HDSF
-NameNode & Secondary NameNode（备份元数据） & JobTracker
-DataNode 每块64M & TaskTracker

Hadoop 2.x
-MapReduce Others
-YARN ResourceManager + NodeManager (减少资源消耗，运行Spark，Storm)
-HDFS
-NameNode
-DataNode

MapReduce过程

海量数据（TB） -> MapReduce -> 目标数据

四个阶段
-Split
-Map（编码）Combine
-Shuffle
-partition -> Reduce(编码) -> 输出文件三者相等

HDSF适合存放大文件
小文件可以压缩存储

一般情况一个节点10-100个任务

mapred.reduce.tasks