千层面
码龄5年
关注
提问 私信
  • 博客:419
    419
    总访问量
  • 2
    原创
  • 380,892
    排名
  • 0
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2019-08-21
博客简介:

yam303的博客

查看详细资料
个人成就
  • 获得0次点赞
  • 内容获得0次评论
  • 获得2次收藏
创作历程
  • 2篇
    2020年
成就勋章
TA的专栏
  • 数据倾斜
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive中的数据倾斜问题

1.数据倾斜是什么?由于数据分布不均匀,造成数据大量集中到一台或者多台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。产生数据倾斜,有什么表现?在使用Hive算数据的时候,reduce阶段卡在99.99%,不能结束。查看日志或者监控界面,会发现:有一个或多个reduce卡住各种container报错OOM读写的数据量极大,至少远远超过其他正常的red...
原创
发布博客 2020.01.04 ·
231 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive与Hbase区别?

1.概念什么是Hive?hive是建立在Hadoop之上的数据仓库工具,可以将结构化数据文件映射成数据库表。并提供简单的sql功能,将sql转化为化MR任务运行。因为sql学习成本低,不必专门开发MR应用,十分适合数据仓库的统计分析。hive的意义在于,把简单的hive的sql转化为复杂难写的mapreduce程序什么是Hbase?Hbase是建立在HDFS之上,提供高可靠性的列存...
原创
发布博客 2020.01.04 ·
185 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏