- 博客(2)
- 收藏
- 关注
原创 谈Spark下并行执行多个Job的问题
本文结合笔者的实践场景,探讨了Spark下并行执行多个Job的问题。梳理了Spark任务调度的机制,并总结了实践中需要考虑的问题。
2019-03-20 19:08:03 27241 11
原创 聊一聊Spark写文件的机制——如何保证数据一致性
本文结合实践中遇到的问题来分析Spark写文件的机制,探讨其在性能和数据一致性上的权衡,包括什么是Rename机制,诸如S3这种对象存储的特殊性以及当前的优化方案(Consistent View,S3 Multipart Upload)。
2019-03-03 13:36:27 13664
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人