StructuredStreaming输出模式和结果输出文件中

本文讨论了在ApacheSparkDataFrame的实时流处理中,如何使用`console`输出模式以及`update`选项将处理后的数据写入文件的问题,强调了不支持直接聚合结果到文件的限制,并提供了一个函数示例,说明如何在批次处理后手动将数据写入JSON文件。
摘要由CSDN通过智能技术生成

输出模式

在这里插入图片描述

#format指定输出位置 console:控制台
#append 不支持排序,不支持聚合, 每次输出数据都是最新的数据内容
#complete 必须聚合,支持聚合后排序 每次输出数据都会将原来的数据一起输出
#update 支持聚合,支持select单纯的查询 不支持聚合后排序,每次输出时,只展示最新聚合后的结果

df.writeStream.start(format='console',outputMode='update').awaitTermination()

结果输出文件中

眼熟该报错
在这里插入图片描述

也就是说不支持聚合结果输出到文件当中
在这里插入图片描述

在这里插入图片描述

如何将聚合的数据输入到文件中

在这里插入图片描述

def func(df,df_id):
	#df是处理后的数据
	#df_id处理的批次
	print(f'处理的批次为{df_id}')
	df.show()
	df.write.json('地址',mode=over)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值