spark
文章平均质量分 82
笃志近思
这个作者很懒,什么都没留下…
展开
-
spark yarn-cluster模式提交task流程
spark yarn-cluster模式提交task流程原创 2017-03-15 23:38:34 · 1471 阅读 · 0 评论 -
【spark】HashShuffleManager解析
HashShuffleManager HashShuffleManager在spark早期版本中为默认shuffle管理器(spark1.2以前)。单此版本存在明显的弊端,此shuffleManager在作业运行阶段会产生大量的文件,任务在此环节会产生大量IO操作。接下来我们会一起探讨HashShuffleManager的具体执行逻辑。原创 2017-04-02 23:29:39 · 1706 阅读 · 0 评论 -
【spark】Shuffle过程解析
Shuffle过程解析ShuffleMapTask ShuffleMapTask时shuffle过程的入口,runTask方法实现了shuffle的主要逻辑,runTask依赖ShuffleManager和ShuffleWriter实现具体的操作,其中ShuffleManager和ShuffleWriter在目前spark版本中都有多种实现,可以通过spark.shuffle.manager参数原创 2017-04-03 00:09:50 · 869 阅读 · 0 评论 -
goldengate_mysql_kafka同步
goldengate 实现mysql到kafka同步 Oracle GoldenGate 提供异构环境间事务数据的实时、低影响的捕获、路由、转换和交付 goldengate架构goldengate相关概念 Manager进程是GoldenGate的控制进程,运行在源端和目标端上。它主要作用有以下几个方面:启动、监控、重启Goldengate的其他进程,报告错误及事件,分配数据存储空间,发布阀值报原创 2017-12-14 22:16:47 · 3203 阅读 · 0 评论