ETL to HBASE Spark 流程总结

前言:

基于spark框架读取HDFS日志文件数据,进行ETL操作,最终将数据插入到HBase表中

采集数据有很多 事件类型,不同的事件类型字段类型不一样

HBase表的设计

每天一张表,每次分析的数据为一条的数据,rowkey设计

rowkey设计

满足:唯一性、热点性、前缀匹配

例:
a)服务器的时间
b)用户ID + 会员ID+ 事件名称 ->CRC32处理,得到一个Long数字
在这里插入图片描述
ETL

数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端

使用场景

要对某些日志数据文件进行分析时
ETL这一步是避免不了的
因为采集到的日志数据,总会有一部分脏数据
这部分脏数据可能会对后续的指标分析造成影响
所以要对数据进行一些操作,将数据转换成比较有规律的
我们想要的数据

步骤总结

第一步:读取资源

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值