2024-02-05(Hive)

陈xr

已于 2024-05-17 14:46:48 修改

阅读量765

点赞数 8

分类专栏：大数据文章标签： hive

于 2024-02-05 17:57:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44847812/article/details/136041286

版权

大数据专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1.Hive中抽样表数据

对表进行随机抽样是非常有必要的。

大数据体系下，在真正的企业环境中，很容易出现很大的表，比如体积达到TB级别的。

对这种表一个简单的SELECT * 都会非常的慢，哪怕LIMIT 10想要看10条数据，也会走MapReduce流程，这个时间等待是非常不合适的。

因此Hive提供了快速抽样的语法，可以快速的从大表中随机抽取一些数据供用户查看。

随机抽样，本质上就是用TABLESAMPLE函数

语法1，基于随机分桶抽样：

select ... from tb1 tablesample (bucket x out of y on (column | rand()))

y：表示将表数据随机划分为y份（y个桶）

x：表示从y里面随机抽取x份数据作为取样

column表示随机的依据是基于某个列的值

rand()表示随机的依据是基于整行

语法2，基于随机块分配：

select ... from tb1 tablesample(num rows | num percent | num(k|m|g))

num rows：表示抽样num条数据

num percent：表示抽样num百分百比例的数据

num（k|m|g）：表示抽取num大小的数据，单位可以是k，m，g表示kb，mb，gb。

注意：

以上抽样语法，条件不变的话，每次的抽样结果都一致。即无法做到随机，只是按照数据顺序从前向后取出来。

2.虚拟列

虚拟列是Hive内置的可以在查询语句中使用的特殊标记，可以查询数据本身的详细参数。

INPUT__FILE__NAME，显示数据行所在的具体文件

BLOCK__OFFSET__INSIDE__FILE，显示数据行所在文件的偏移量

ROW__OFFSET__INSIDE__BLOCK，显示数据所在HDFS块的偏移量

3.虚拟列的作用

查看行级别的数据详细参数

可以用于where，group by等各类统计计算中

可以协助进行错误排查工作

4.ETL

从一张表查询数据进行数据过滤和转换，并将结果写入到另外一张表中的操作，本质上就是一种简单的ETL行为。

ETL：

E：Extract 抽取

T：Transfrom 转换

L：Load 加载

从A抽取数据（E），进行数据转换过滤（T），将结果加载到B（L），就是ETL。

ETL操作在大数据系统中十分常见。

5.大数据与可视化报表展示

通过ETL操作讲HDFS中的表进行数据清洗和过滤，生成新的表，然后利用BI工具，将新的表进行可视化展示。

6.BI可视化工具

Business Intelligence，商业智能。

指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。简单来说，就是借助BI工具，可以完成复杂的数据分析、数据统计等需求，为公司决策带来巨大的价值。

7.Hadoop中的Hive与Mysql

hadoop和mysql对比(优缺点及使用场景) - 代码先锋网 (codeleading.com)

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

陈xr CSDN认证博客专家 CSDN认证企业博客

码龄6年

66: 原创

27万+: 周排名

5万+: 总排名

5万+: 访问

: 等级

1523: 积分

530: 粉丝

710: 获赞

13: 评论

754: 收藏

私信

关注

热门文章

分类专栏

最新评论

2024-7-2
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
Vue踩坑，less与less-loader安装，版本不一致
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024-02-26（Spark，kafka）
陈xr: MapReduce(Map，Reduce接口)--->Hive(SQL语句)--->Spark(算子)--->Spark SQL(SQL语句)
2024-01-19（SpringCloud&ThreadLocal）
CSDN-Ada助手: 恭喜您写了第19篇博客！题为“2024-01-19（SpringCloud&ThreadLocal）”的博客内容看起来很有深度和实践性。您对Spring Cloud和ThreadLocal的探讨给读者带来了新的视角和思考。继续保持这样的创作势头，您的博客一定能够吸引更多的读者。在下一步的创作中，我建议您可以继续深入探讨Spring Cloud和ThreadLocal的使用场景、最佳实践以及可能遇到的挑战和解决方案。此外，您也可以考虑与其他相关的技术或框架进行结合，为读者提供更全面的知识和实用的经验分享。再次感谢您的分享，期待您在未来的创作中取得更多的成果！
2024-01-18（SpringCloud）
CSDN-Ada助手: 恭喜您写了第18篇博客！标题“2024-01-18（SpringCloud）”听起来非常有趣。您的持续创作精神令人钦佩。对于下一步的创作建议，我谨提供一些建议，供您参考。或许您可以考虑深入探讨SpringCloud的核心概念，并与其他相关技术进行比较，以帮助读者更好地理解和应用。感谢您的分享，并期待着您未来更多精彩的博客！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。