自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 数据仓库理论(Data Warehouse)

1数据处理方式数据处理分为两大类:联机事务处理(OLTP):高并发数据量级不大的查询,主要用于管理事务,满足三范式(3NF)联机分析处理(OLAP):查询频率低,涉及复杂的聚合计算,以维度模型存储历史数据。

2023-11-29 20:44:00 40 1

原创 Hive初高级笔记

hive是构建在hadoop上的一个数据分析工具,底层hdfs存储数据,将数据映射成一张张数据表,本质是将hql转换成mapreduce。

2023-11-20 17:15:45 45

原创 MapReduce和Yarn笔记

map默认每次从split数据读一行到内存中,可以自定义分词逻辑,统计次数,就会产生Map(String,Interger)存放在内存中,内存是有限的,多个任务执行可能OOM,直接放硬盘效率低。资源协调管理者,zk主备切换,与nm保持心跳,nn汇报资源情况,如果是外部框架使用资源,直接访问rm。:逻辑概念,不改变块大小,还能改变参与计算节点数量,一般Split为Block整数倍(2,1/2)同一个文件,块大小相同,块和计算能力不匹配,需要Split。将文件中的数据读取到内存中 一次性将相同的key。

2023-11-20 14:44:50 35 1

原创 Hadoop笔记

如果DN超过10分钟+30秒没有心跳,那么NN会将当前DN存储的数据转存到其他节点。Block信息,但是block的位置信息不会持久化需要每次开启集群的时候DN上报。启动dn时会汇报之前的Block块是否被损坏,向nn汇报dn的Block的信息。存储数据的元数据信息,Block,nn的映射关系,内存数据和主节点内存数据一致。客户端读写数据的时候,先去nn查询file与block与dn的映射关系。DN启动的时候,会将自己节点上存储的Block信息汇报给NN。Standby NameNode:NN的备用节点。

2023-11-20 10:31:43 26 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除