,就把show限制去掉,不过如果有10g内容的话建议写入到文件,写入可以使用分区,这样查询会比较快
RDD分区是为了减少shuffle中数据混洗 导致的大量网络消耗,你的这个程序是没有混洗操作,所以在执行过程中不需要分区
建议处理步骤:
1、读取数据
2、创建临时表
3、在临时表中查询数据–已经查到,放入result
4、将数据写回HDFS:result…write().partitionBy(“k21”)…saveAsTable…
,就把show限制去掉,不过如果有10g内容的话建议写入到文件,写入可以使用分区,这样查询会比较快
RDD分区是为了减少shuffle中数据混洗 导致的大量网络消耗,你的这个程序是没有混洗操作,所以在执行过程中不需要分区
建议处理步骤:
1、读取数据
2、创建临时表
3、在临时表中查询数据–已经查到,放入result
4、将数据写回HDFS:result…write().partitionBy(“k21”)…saveAsTable…