HIVE中导入文件后数据量变多原因和去除换行符的解决办法

在将Excel数据导入Hive时,数据量不匹配,原本8000条变为10000多条。原因是Excel中的换行符在Hive中被解析为新行。解决方法是在Excel中使用CLEAN()函数去除换行符,然后将处理后的数据粘贴为数值,避免函数公式影响。
摘要由CSDN通过智能技术生成

在使用excel导入文件进入hive的时候,一切顺利,但是导入后查询数据,发现数据量变多了,比如:一开始excel中的数据量是8000条,导入hive后,查询的数据变成10000多条,数据量在导入后变多了。于是查找原因

首先从hive建的表开始查起,表的建表语句如下下所示:

create table if not exists TMP_T1
(
 T1 VARCHAR(100) comment 't1',
 T2 VARCHAR(100) comment 't2',
 T3 VARCHAR(100) comment 't3'
)
COMMENT '临时表1'
ROW FORMAT DELEMITED
FIELDS TERMINATED BY '\001'
LINES TERMINATED BY '\n'
STORED AS Parquet;

从建表语句中就可以看到,这个表的数据的列分隔符是'\001',行的分隔符是'\n',在我们导入数据后会按照这样的分割格式进行分割和存储。如果我们的数据如下所示:

id col1
1

测试1

的结果

2 测试2的结果

上面的格式导入到hive中,hive查询出来的数据是怎么样的呢?

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值