Strata Data Conference北京站大会还有一个月即将召开,
有需求的同学还请抓紧时间,
点击二维码即可登录会议官网报名。
Pluto:一款分布式异构深度学习框架
讲师:杨军 (阿里巴巴)
11:15–11:55 Friday, 2017-07-14
数据工程和架构 (Data engineering and architecture)
地点: 报告厅(Auditorium)
观众水平 (Level): 中级
必要预备知识
对机器学习及深度学习基础知识有一定认识。
对分布式系统优化的基本概念,比如内存优化、计算优化、通信优化有基本认识。
如果本身对大规模机器学习领域有一定认识会更好。(optional)
您将学到什么
在一个快速变化,演进的技术工作领域中,怎样结合尚不完整的学术界和工业界的资讯资料,结合自身的业务场景,完成技术选型和推进执行。
怎样对一个看起来复杂的系统、算法跨界优化问题进行抽象,加入principle层面的优化。
描述
本议题会涉及到如下内容分享:
1. 在Caffe和TensorFlow这两种不同设计理念的深度学习框架里,所采用的不同优化策略。
比如,在Caffe中,我们加入了late multiply和pipeline communication的优化策略,显著改善了多机升缩比,同时对Caffe默认的单机多卡的逻辑进行了调制,建立了同构的网络通信拓扑,为上述优化提供更为一致的切入视角。在TensorFlow中,我们结合其计算流图的设计思想,将优化问题抽象成一个placement优化问题,以非侵入式的方式插入了较为优雅的修改,在若干模型上获得了显著的多机加速效果。
2. 分享Pluto在阿里巴巴若干核心业务场景中的应用案例,包括:
集团安全
金融风险建模
证件类图片识别
客服问答
机器翻译等。
不同场景中所用到的模型结构也存在较大的差异,既有DNN网络,也有CNN网络,还有时序网络。对于不同类型的网络,我们也会结合其具体应用场景分享我们对于优化细节差异的理解和实践经验。
3. 分享我们对大规模深度学习优化的知识体系的理解和梳理。
大规模机器学习,尤其是大规模深度学习是一个相对年轻的技术领域,也跟其他技术领域(比如分布式计算、数值优化)存在很强的overlap。在Pluto开发过程中,我们会也在不断梳理现有相关技术知识体系的同时,结合阿里具体场景去探索对大规模深度学习的理解并践行。这个过程也许对于相关技术领域的同学会有一定助益。
讲师介绍:
杨军 (阿里巴巴)
目前在阿里云iDST大规模算法团队负责大规模深度学习算法基础设施相关建设工作,对大规模分布式机器学习的开发、建设、优化以及在不同业务场景中的落地应用有较为深入的理解和认识。之前先后在奇虎360担当广告技术部门架构师,Yahoo北京研发中心担当效果广告系统技术负责人。