前言:
基于spark框架读取HDFS日志文件数据,进行ETL操作,最终将数据插入到HBase表中
采集数据有很多 事件类型,不同的事件类型字段类型不一样
HBase表的设计
每天一张表,每次分析的数据为一条的数据,rowkey设计
rowkey设计
满足:唯一性、热点性、前缀匹配
例:
a)服务器的时间
b)用户ID + 会员ID+ 事件名称 ->CRC32处理,得到一个Long数字
ETL
数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端
使用场景
要对某些日志数据文件进行分析时
ETL这一步是避免不了的
因为采集到的日志数据,总会有一部分脏数据
这部分脏数据可能会对后续的指标分析造成影响
所以要对数据进行一些操作,将数据转换成比较有规律的
我们想要的数据
步骤总结
第一步:读取资源