- 博客(4)
- 收藏
- 关注
原创 数据仓库理论(Data Warehouse)
1数据处理方式数据处理分为两大类:联机事务处理(OLTP):高并发数据量级不大的查询,主要用于管理事务,满足三范式(3NF)联机分析处理(OLAP):查询频率低,涉及复杂的聚合计算,以维度模型存储历史数据。
2023-11-29 20:44:00
40
1
原创 Hive初高级笔记
hive是构建在hadoop上的一个数据分析工具,底层hdfs存储数据,将数据映射成一张张数据表,本质是将hql转换成mapreduce。
2023-11-20 17:15:45
45
原创 MapReduce和Yarn笔记
map默认每次从split数据读一行到内存中,可以自定义分词逻辑,统计次数,就会产生Map(String,Interger)存放在内存中,内存是有限的,多个任务执行可能OOM,直接放硬盘效率低。资源协调管理者,zk主备切换,与nm保持心跳,nn汇报资源情况,如果是外部框架使用资源,直接访问rm。:逻辑概念,不改变块大小,还能改变参与计算节点数量,一般Split为Block整数倍(2,1/2)同一个文件,块大小相同,块和计算能力不匹配,需要Split。将文件中的数据读取到内存中 一次性将相同的key。
2023-11-20 14:44:50
35
1
原创 Hadoop笔记
如果DN超过10分钟+30秒没有心跳,那么NN会将当前DN存储的数据转存到其他节点。Block信息,但是block的位置信息不会持久化需要每次开启集群的时候DN上报。启动dn时会汇报之前的Block块是否被损坏,向nn汇报dn的Block的信息。存储数据的元数据信息,Block,nn的映射关系,内存数据和主节点内存数据一致。客户端读写数据的时候,先去nn查询file与block与dn的映射关系。DN启动的时候,会将自己节点上存储的Block信息汇报给NN。Standby NameNode:NN的备用节点。
2023-11-20 10:31:43
26
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人