ODS即原始数据层,它里面的数据都是原始的数据,不经过任何加工处理的,是原始的json格式数据,因为原始数据有两种数据:启动日志和事件日志,所以在gmall数据库下创建两个表ods_start_log和ods_event_log。前面我已经把数据采集到HDFS上了,现在只要创建好表格,把数据导入表格中即可。
由于hivesql是基于MR的,而MR又比较慢,所以这里使用Tez,Tez是一个Hive的运行引擎,性能优于MR。执行同样的HQL,在Tez下效率会高很多,所以后面我都会使用这个运行引擎。
建表语句:
--创建原始启动日志数据表
drop table if exists ods_start_log;
CREATE EXTERNAL TABLE ods_start_log (`line` string)
PARTITIONED BY (`dt` string)
STORED AS
INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputF