hive基础知识

最新推荐文章于 2024-04-03 09:52:53 发布

逆境才能成长

最新推荐文章于 2024-04-03 09:52:53 发布

阅读量92

点赞数

文章标签： hive hadoop mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_71010295/article/details/130375326

版权

1.行格式和指定分隔符：

row format delimited --行格式

FIELDS TERMINATED BY ' ' --指定列分隔符

'任意字符' ----》按照里面的内容进行分隔

2.把本地数据加载到表中

本地数据加载到表中的实质是拷贝/复制，命令如下：

load data local inpath '本地文件路径' into table teacher;

3.把文件上传的数据加载到hdfs中

3.1 先在hdfs上建一个文件夹，命令如下：

第一步：hadoop dfs -mkdir /文件名;

eg：hadoop dfs -mkdir /test

3.1.2把本地文件，上传到hdfs上的刚建的文件夹下，命令如下：
第二步：hadoop dfs -put 本地文件名称 /hdfs上文件夹的名称

eg:hadoop dfs -put aa.txt /test

4.把hdfs文件加载到本地

4.1hdfs数据加载到表中其实质是剪切，命令如下：

load data inpath 'hdfs上的文件路径' into table 表名（hive中的表名）

eg:load data inpath '/test/aa.txt' into table teacher ;

5.内部表和外部表特点：

-- 内部表的特点：

-- 1.创建表的时候没有关键字

-- 2.数据默认存储到hdfs上的/user/hive/warehouse/

-- 3.删除内部表，表会直接删除元数据和存储数据

-- 外部表特点：

-- 1.外部表关键字：external

-- 2.外部表数据存储路径自定义

-- 3.删除外部表，表仅仅会删除元数据，并不会删除数据

6.分区表特点：

-- 分区表

-- 分区表是将数据以文件夹为分区单位分割的一种表

-- 大白话：一个分区一个文件夹可以有多个文件

7.hive中4个by的区别

order by

全局排序，只有一个reduce；
缺点：当数据量非常大时，耗时太长，效率低下，适用于数据量较小的场景；
优点：数据全局排序；

sort by

对每一个reducer内部的数据进行排序，全局结果集来说不是排序的，即只能保证每一个reduce输出的文件中的数据是按照规定的字段进行排序的；适用于数据量较大，但对排序要求不严格的场合，可以大幅度提升执行效率；

备注：需要你预先设置reduce个数，结果各个reduce文件内部有序，全局无序；

Distrbute By

类似MR中Partition，进行分区，结合sort by使用。

这边需要设置reduces的数量为分区的数量，否则不会启动相应的reducer去进行任务的执行，这最终会导致不能完全分区；

Cluster By

当Distribute by和Sorts by字段相同时，可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。

逆境才能成长

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
hive基础知识

hive 基础篇
复制链接

扫一扫

逆境才能成长 CSDN认证博客专家 CSDN认证企业博客

码龄2年

10: 原创

24万+: 周排名

8万+: 总排名

6929: 访问

: 等级

181: 积分

32: 粉丝

77: 获赞

10: 评论

51: 收藏

私信

关注

热门文章

最新评论

数据库系统工程师：10系统开发和运行
2401_84435768: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
数据库系统工程师.13云计算与大数据
CSDN-Ada助手: 恭喜您发布了第8篇博客！在“数据库系统工程师.13云计算与大数据”这个主题下，您分享了很有见地的观点。希望您能继续保持创作的热情和耐心，探索更多相关领域的知识，为读者带来更丰富的内容。或许下一步可以深入研究云计算与大数据的实际应用案例，为读者提供更具实践性的内容。期待您的下一篇作品！愿您在创作的道路上不断进步，谦卑地分享您的见解。
数据库系统工程师：10系统开发和运行
CSDN-Ada助手: 恭喜您发布了第7篇博客！看到您分享关于数据库系统工程师的经验和见解，让我对这个领域有了更深入的了解。希望您能继续坚持创作，分享更多有价值的内容给读者。或许下一步可以探讨一些实际案例，或者分享一些技术实践的心得体会，这样能够更加启发读者的思考和学习。期待您更多精彩的文章！
计算机技术与软件专业技术-数据库工程师.第一章计算机系统知识
CSDN-Ada助手: 非常感谢用户分享这篇有关计算机技术与软件专业技术的博客，特别是第一章对计算机系统知识的介绍。作为一名数据库工程师，这些基础知识对我们的工作至关重要。非常期待用户接下来的博客，希望能够分享更多实用的技术知识和经验，让更多人受益。同时，建议用户在文章中尽量用通俗易懂的语言，让读者更容易理解和接受，期待用户的不断进步和创新。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
hive基础知识
CSDN-Ada助手: 恭喜您写了一篇非常实用的博客，hive作为大数据处理的重要工具，掌握其基础知识对于数据分析和处理都有着重要的意义。希望您能够继续发挥自己的优势，分享更多有价值的技术知识，让更多的人受益。下一步的创作建议是可以结合实际案例，深入探讨hive在大数据处理中的应用场景和解决方案，让读者更好地理解和掌握其使用方法。期待您的更多好文！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。