一.hadoop入门–HDFS
1.大数据特点
大量 ; 高速 ; 多样 ;低价值密度
2.hadoop是什么
hadoop是由Apache基金会所开发的分布式系统基础架构
主要解决:海量数据的存储和海量数据的分析计算问题
3.hadoop的优势
a.高可靠性:多副本机制,有某个计算元素或存储出现故障,数据也不会流失
b.高扩展性
c.高效性:基于MapReduce的思想机制,hadoop并发工作
d.高容错性:能够自动将失败的任务重新分配
4.hadoop组成
1.hadoop1.x和hadoop2.x的区别
1.x: MapReduce(计算+资源调度)++HDFS(数据存储)++Common(辅助工具)
2.x: MapReduce(计算)++yarn(资源调度)++HDFS(数据存储)++Common(辅助工具)
总结:在hadoop1.x时代,hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性较大,在hadoop2.x,增加了Yarn.Yarn只负责资源调度,MapReduce只负责计算
5.hadoop存储文件块分块原理
分块存储:HDFS中的文件在物理上市分块存储(Block),块的大小可以通过参数配置(dfs.blocksize)来规定,默认大小在2x版本中是128M,在老版本中是64M.
128M的原因分析:假设寻址时间为10ms,据参阅资料显示,寻址时间为传输时间的1%市,为最佳工作状态,因此
传输