当使用 Sqoop 向 MySQL 导入数据时(MySQL 的 datetime 导入到 Hive 的 string),会出现时间导入后在 Hive 表中的时间晚于 MySQL 中显示的时间 8 小时,造成数据分析错误;
解决办法:
1)修改 MySQL 中的时区设置
查看时区:
mysql> show VARIABLES like '%time_zone';
Variable_name |Value |
----------------+------+
system_time_zone|CST |
time_zone |SYSTEM|
修改时区:
mysql> set global time_zone = '+08:00';
mysql> set time_zone='+08:00';
mysql> flush privileges;
再查看时区信息:
mysql> show VARIABLES like '%time_zone';
Variable_name |Value |
----------------+------+
system_time_zone|CST |
time_zone |+08:00|
2)在 Sqoop 脚本的连接参数上添加时区信息 serverTimeZone=Asia/Shanghai
import_data(){
$sqoop import \
--driver com.mysql.cj.jdbc.Driver \
--connect "jdbc:mysql://s3:3306/$APP?useSSL=false&zeroDateTimeBehavior=CONVERT_TO_NULL&serverTimeZone=Asia/Shanghai" \
--username root \
--password root \
--target-dir /origin_data/$APP/db/$1/$do_date \
--delete-target-dir \
--query "$2 where \$CONDITIONS" \
--num-mappers 1 \
--fields-terminated-by '\t' \
--compress \
--compression-codec org.apache.hadoop.io.compress.GzipCodec \
--null-string '\\N' \
--null-non-string '\\N'
再导入数据时候,时间就正常了!