Hive与ETL基础
1、日志收集
2、Hive数据类型
3、Hive表与分区
4、Hive基本操作
5、Hive常用函数
6、HDFS文件格式
7、Hive表压缩存储
8、ORCFile
9、Hive SerDe
1、Flume:日志收集
常见的收集日志的工具有两种:(1)最早收集日志的是Facebook开发的 Scribe。开源。(2)Flume更加完善如上图所示。HDFS批处理。Kafka是实时性处理,消息队列。Flume_bypass主要是帮我们做测试,查看日志是否打上。
2、Hive数据类型
(1)当日志收集到HDFS上,实际上是使用Hive来做相关分析。对海量原始数据的操作的是ETL。那么Hive可用于ETL。
(2)Hive本质上是基于SQL的查询引擎。
(3)对于列的数据有原始数据类型:Tinyint