HIVE中导入文件后数据量变多原因和去除换行符的解决办法

最新推荐文章于 2024-05-14 16:23:33 发布

这孩子谁懂哈

最新推荐文章于 2024-05-14 16:23:33 发布

阅读量1.5w

点赞数 1

分类专栏： HIVE 文章标签： hive

本文链接：https://blog.csdn.net/zhaomengszu/article/details/111805720

版权

在将Excel数据导入Hive时，数据量不匹配，原本8000条变为10000多条。原因是Excel中的换行符在Hive中被解析为新行。解决方法是在Excel中使用CLEAN()函数去除换行符，然后将处理后的数据粘贴为数值，避免函数公式影响。

摘要由CSDN通过智能技术生成

在使用excel导入文件进入hive的时候，一切顺利，但是导入后查询数据，发现数据量变多了，比如：一开始excel中的数据量是8000条，导入hive后，查询的数据变成10000多条，数据量在导入后变多了。于是查找原因

首先从hive建的表开始查起，表的建表语句如下下所示：

create table if not exists TMP_T1
(
 T1 VARCHAR(100) comment 't1',
 T2 VARCHAR(100) comment 't2',
 T3 VARCHAR(100) comment 't3'
)
COMMENT '临时表1'
ROW FORMAT DELEMITED
FIELDS TERMINATED BY '\001'
LINES TERMINATED BY '\n'
STORED AS Parquet;

从建表语句中就可以看到，这个表的数据的列分隔符是'\001',行的分隔符是'\n'，在我们导入数据后会按照这样的分割格式进行分割和存储。如果我们的数据如下所示：

col1

测试1

的结果

测试2的结果

上面的格式导入到hive中，hive查询出来的数据是怎么样的呢？

最低0.47元/天解锁文章

这孩子谁懂哈

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
HIVE中导入文件后数据量变多原因和去除换行符的解决办法

在使用excel导入文件进入hive的时候，一切顺利，但是导入后查询数据，发现数据量变多了，比如：一开始excel中的数据量是8000条，导入hive后，查询的数据变成10000多条，数据量在导入后变多了。于是查找原因首先从hive建的表开始查起，表的建表语句如下下所示：create table if not exists TMP_T1( T1 VARCHAR(100) comment 't1', T2 VARCHAR(100) comment 't2', T3 VARCHAR(100)
复制链接

扫一扫