共享变量
最新推荐文章于 2021-11-12 12:30:06 发布
Spark为解决跨Task共享变量问题,提供了广播变量和累加器。广播变量在每个节点上保存只读副本,减少数据传输,适合跨stage使用。累加器则支持并行Task的add操作,常用于计数和求和。Executor中的Task只能写累加器,且Spark保证在行动算子中更新的唯一性,防止任务重试导致的值重复更新。
摘要由CSDN通过智能技术生成