Hive与ETL基础—学习笔记[3]

最新推荐文章于 2024-05-18 15:37:01 发布

TNGAI

最新推荐文章于 2024-05-18 15:37:01 发布

阅读量7.3k

点赞数 1

分类专栏：数据科学家

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zwl_123/article/details/52239461

版权

Hive与ETL基础

1、日志收集
2、Hive数据类型
3、Hive表与分区
4、Hive基本操作
5、Hive常用函数
6、HDFS文件格式
7、Hive表压缩存储
8、ORCFile
9、Hive SerDe

1、Flume：日志收集
这里写图片描述
常见的收集日志的工具有两种：（1）最早收集日志的是Facebook开发的 Scribe。开源。（2）Flume更加完善如上图所示。HDFS批处理。Kafka是实时性处理，消息队列。Flume_bypass主要是帮我们做测试，查看日志是否打上。

2、Hive数据类型
（1）当日志收集到HDFS上，实际上是使用Hive来做相关分析。对海量原始数据的操作的是ETL。那么Hive可用于ETL。
（2）Hive本质上是基于SQL的查询引擎。
（3）对于列的数据有原始数据类型：Tinyint

最低0.47元/天解锁文章

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Hive与ETL基础—学习笔记[3]

Hive与ETL基础1、日志收集 2、Hive数据类型 3、Hive表与分区 4、Hive基本操作 5、Hive常用函数 6、HDFS文件格式 7、Hive表压缩存储 8、ORCFile 9、Hive SerDe1、Flume：日志收集常见的收集日志的工具有两种：（1）最早收集日志的是Facebook开发的 Scribe。开源。（2）Flume更加完善如上图所示。HDFS批处
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。