ETL to HBASE Spark 流程总结

最新推荐文章于 2023-01-03 14:17:08 发布

夏天-.-

最新推荐文章于 2023-01-03 14:17:08 发布

阅读量424

点赞数

文章标签：读取数据到处理到保存 ETL、Spark、HBase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yhquser/article/details/98664110

版权

前言：

基于spark框架读取HDFS日志文件数据，进行ETL操作，最终将数据插入到HBase表中

采集数据有很多事件类型，不同的事件类型字段类型不一样

HBase表的设计

每天一张表，每次分析的数据为一条的数据，rowkey设计

rowkey设计

满足：唯一性、热点性、前缀匹配

例：
a）服务器的时间
b）用户ID + 会员ID+ 事件名称 ->CRC32处理，得到一个Long数字
在这里插入图片描述
ETL

数据从来源端经过萃取（extract）、转置（transform）、加载（load）至目的端

使用场景

要对某些日志数据文件进行分析时
ETL这一步是避免不了的
因为采集到的日志数据，总会有一部分脏数据
这部分脏数据可能会对后续的指标分析造成影响
所以要对数据进行一些操作，将数据转换成比较有规律的
我们想要的数据

步骤总结

第一步：读取资源

采集日志文件使用的工具有很多，如flume、kafka、ELk等工具
这些工具可以将采集到的日志数据存放到相应的文件系统中
如Flume可以将采集到的数据存放到HDFS࿰

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ETL to HBASE Spark 流程总结

前言：基于spark框架读取HDFS日志文件数据，进行ETL操作，最终将数据插入到HBase表中采集数据有很多事件类型，不同的事件类型字段类型不一样HBase表的设计每天一张表，每次分析的数据为一条的数据，rowkey设计rowkey设计满足：唯一性、热点性、前缀匹配例：a）服务器的时间b）用户ID + 会员ID+ 事件名称 ->CRC32处理，得到一个Long数字E...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。