- 博客(2)
- 收藏
- 关注
原创 Hive中的数据倾斜问题
1.数据倾斜是什么?由于数据分布不均匀,造成数据大量集中到一台或者多台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。产生数据倾斜,有什么表现?在使用Hive算数据的时候,reduce阶段卡在99.99%,不能结束。查看日志或者监控界面,会发现:有一个或多个reduce卡住各种container报错OOM读写的数据量极大,至少远远超过其他正常的red...
2020-01-04 20:01:28
199
原创 Hive与Hbase区别?
1.概念什么是Hive?hive是建立在Hadoop之上的数据仓库工具,可以将结构化数据文件映射成数据库表。并提供简单的sql功能,将sql转化为化MR任务运行。因为sql学习成本低,不必专门开发MR应用,十分适合数据仓库的统计分析。hive的意义在于,把简单的hive的sql转化为复杂难写的mapreduce程序什么是Hbase?Hbase是建立在HDFS之上,提供高可靠性的列存...
2020-01-04 10:46:22
125
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人