大数据随笔
写在前面
最近复习且学习了大数据相关的一点东西,写点学到的新东西,很乱很杂很抽象很意识流随便看看就行。
HDFS,块
HBASE 三级寻址,ROOT->META->User
惰性机制
region store Hlog读写
建表参数,rowkey优化
整合sql引擎
CAP理论,BASE理论与分布式系统
分布式计算:计算向数据靠拢
MR计算过程job task啥的,资源调度slot
shuffle过程
yarn 资源管理体系
以容器为单位分配资源
一个集群多个框架,数据共享资源弹性收缩
impala 依赖于hive的元数据,和hive的sql解析差不多,但是不转换成mr
spark 基于内存,DAG,惰性,RDD,“转换”“动作”,也利用了hive的sql解析