hive
景丰
这个作者很懒,什么都没留下…
展开
-
Hive面试主题
1.hive的组成–1: metaStore(元数据):默认存在derby数据库,但多客户端进行访问时会冲突,故将数据转到Mysql中–2:客户端–3:四个器:编译器,解析器,优化器,执行器–4:默认运转引擎:MR(生产环境下mr转spark、tez)//每天跑的任务用spark,临时执行的任务走tez:适合改个参数测试临时指标–5: 数据默认存储在HDFS2.与mysql的区别除了sql、hql查询命令以外几乎都不一样hive走的数据量大,查询mysql走的数据量小,增删改查3.内部原创 2021-08-09 22:32:51 · 163 阅读 · 0 评论 -
数据倾斜及治理方法
常见会产生数据倾斜的框架:hadoop,hive,hbase,flink,spark,sqoop,以及各种Shuffle阶段一、对于数据倾斜的定义1.是什么:在shuffle过程中大量同一key的数据被分配至同一分区,导致其中一节点压力过大,而其他节点过于清闲的情况。2.现象:①绝大多数map Task运行快速,而个别Task,尤其多见于reduce task运行过慢。②OOM(Hadoop——container,Spark——driver)3.原理:进行Shuffle的过程中将相同的ke原创 2021-07-30 16:33:08 · 154 阅读 · 0 评论