Hive与ETL基础
1、日志收集
2、Hive数据类型
3、Hive表与分区
4、Hive基本操作
5、Hive常用函数
6、HDFS文件格式
7、Hive表压缩存储
8、ORCFile
9、Hive SerDe
1、Flume:日志收集
常见的收集日志的工具有两种:(1)最早收集日志的是Facebook开发的 Scribe。开源。(2)Flume更加完善如上图所示。HDFS批处理。Kafka是实时性处理,消息队列。Flume_bypass主要是帮我们做测试,查看日志是否打上。
2、Hive数据类型
(1)当日志收集到HDFS上,实际上是使用Hive来做相关分析。对海量原始数据的操作的是ETL。那么Hive可用于ETL。
(2)Hive本质上是基于SQL的查询引擎。
(3)对于列的数据有原始数据类型:Tinyint

本文介绍了Hive与ETL的基础知识,包括日志收集工具Flume,Hive的数据类型,表与分区的概念,以及Hive的基本操作和DML。讲解了Hive如何用于ETL过程,探讨了不同数据类型、HDFS文件格式,以及表的创建和数据导入。此外,还讨论了外部表和分区在数据管理中的作用。
最低0.47元/天 解锁文章

5887

被折叠的 条评论
为什么被折叠?



