hadoop是什么
1.hadoop是一个开源, 可以更容易开发和处理大规模数据的软件平台,包括2部分:HDFS和MapReduce
它提供云平台的基础架构,便以开发分布式程序。
2.hadoop依据google的论文 gfs\mapreduce模型\bigtable衍生而来。
3.优点:
a. 可扩展
b. 经济: 可以运行在普通的pc上
c. 可靠
d. 高效
4.hadoop的相关构件:
Pig有一套自己的原语,可以不用写 MapReduce 程序
Hive 是一个数据仓库,提供类SQL,将数据映射成表
Hbase 是一个分布式数据库
Zookeeper 是一个分布式的协调框架
5.hdfs是一个分布式的文件系统
特点: a.高容错性
b.它可以部署在廉价的硬件上
c.提高IO吞吐量
三个节点: NameNode : 管理节点
DataNode : 数据节点
SecondaryNamenode: 数据源信息备份整理节点
6.MapReduce是分布式的计算模型,其中
Map函数,用于处理数据
Reduce 函数,用于合并结果
JobTracker :任务管理节点
TaskTracker :任务运行节点
7.发行版本
a.apache版本 http://hadoop.apache.org
b.cloudear发行版http://www.cloudera.com
Cloudera让Hadoop的配置标准化,可以帮助企业安装,配置,运行hadoop 以达到大规模企业数据的处理和分析。