大数据从入门到放弃

大数据的核心:
					海量数据分析
—————————————————————功能划分—————————————————————————————
海量数据存储
	HDFS,Hive(本质还是HDFS),HBASE(底层依旧是HDFS)
数据清洗
	MapReduce,Hive(ETL),SparkCore
海量数据分析
	MapReduce,SparkSQL,hive(SQL),impala
数据展示
	javaweb,帆软,hcharts,echarts
	幽梦,百度,帆软
	


————————————第一方面:大数据离线分析————————————————————————————————————————————————

Hadoop 2.x(Common,HDFS,MapReduce,Yarn):
		储存,分析
		环境搭建,处理数据思想
	
功能:
		储存数据(HDFS)
		数据分析(mapReduce)
介绍:	
		Apache的顶级项目
包含的模块:	
	Common:公共的工具,为其他模块提供支撑
	
	HDFS:是一个分布式文件系统,提供高吞吐量数据储存
		将数据化为很多小块,默认一块block(128MB)500M分4块,每块存储3份
		主节点:NameNode
				决定数据存储在那个Datanode
				管理元素,索引
				管理元数据
					存在内存,也存在磁盘,就是文件<fsimage>
				管理从节点
				处理客户端发过来的请求
			启动过程:
					 加载Fsimage中内容到内存中,同步HDFS的变化
				SecondaryNameNode功能:
							辅助nameNode同步本地元数据
							fsimge(old)+edits = fsimage(new)
								edits记录了HDFS的修改操作,不能丢失,通过edits日志文件信息,可以解析得到元数据
									合并过程中,合并到fs.temp文件,完成后修改名字为fsimage删除fs.temp		
		从节点:DataNode
				存储,管理(当前机器)
	MapReduce:大数据集合的并行计算,分而治之思想
		将数据划分为多个部分,单独处理,最后将处理结果进行合并
		Map:(MapTask)
			处理数据
		Reduce:(ReduceTask)
			合并MapTask输出的结果数据
	MapReduce编程
		1)工程导入
		2)HDFS API
		3)MapReduce处理数据流程
		在整个MapRedue程序中,所有的数据流程流式都是键值对(Key-value)
	MapReduce执行过程	
		Input->Map->shuffle->Reduce->Output
			Input:读取HDFS上数据 	输出K,v
			Mapper:通过空格分隔,取出里面的单词
					
			shuffle:分区
						决定key交由哪个reduce处理
						默认:按照key的hash值对reduce个数取余
					 分组 将相同Key的value放到一个集合中
					 排序 按照字典顺序排序
****************优化:
					combiner合并
						在map阶段提前进行了一次合并,等同于提前执行reduce操作
						好处:可以降低reduce的压力
							  不是所有程序都适合
					compress压缩
						减少磁盘IO以及网络IO
					 
			Reduce:(处理)将集合里面的值拿出来相加
			Output:将内容写到HDFS文件中
	
			
	YARN:任务调度和分布式集群资源管理框架
		管理CPU和内存,分配给MapReduce 程序的运行
		主节点:Resourcemanager
				管理子
				相应客户要求
				任务调
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值