当Hive数据量很大,需要大量groupby时,资源会不够用。
单跑整体需要很长时间,所以把能拆开的分部分来跑。
起初直接insert分区表,当3部分一起跑,会报重命名失败错误。org.apache.hadoop.fs.FileAlreadyExistsException: Renaming 'oss:///_temporary/0/task_20240303122822_0005_m_000022/stast_yyyymm=202308/campaign_id=2/part-00022-51e0d4da-405d-4310-9dbf-d6f0f491c5f1.c000.snappy.parquet' to 'oss://stast_yyyymm=202308/campaign_id=2/part-00022-51e0d4da-405d-4310-9dbf-d6f0f491c5f1.c000.snappy.parquet' -
returning false as dst is an already existing file
改成insert结果集,又报 ERROR TransportResponseHandler: Still have 1 requests outstanding when connection from /10.26.126.187:48416 is closed 错误。
查资料发现是系统资源不够用。