一个 INSERT,. SELECT语句会为在该HDFS_impala节点上处理的 insert into ...SELECT方式插入的数据后会在HDFS上产生总体一个数据文件。而每条 INSERT into VALUES语句将产生一个单独的数据文件,impala在对少量的大数据文件查询的效率更高,所以强烈不建议使用 iNSERT into VALUES的方式加载批量数据。如果我们已经由于使用了 INSERT.. VALUES语句产生大量的小文件而导致的效率问题,我们必须通过 INSERT_SELECT的方式将数据迁移至另外一张表中,(不要建立太多和扫描太多的小碎片文件的意思)
impala下 insert into values方式插入数据到hdfs上文件和 insert into xx select.....方式插入数据到hdfs上文件的性能区别(转载网上)
最新推荐文章于 2023-08-07 09:45:25 发布