Week 13 Lesson 1
本周课程的材料还是关于通过网内汇聚加速ML的。文章很长,25pages,内容很扎实;
所作的工作SwitchML是一个基于P4的应用,并且文章的作者在Tofino的P4交换机上进行了实验对比。研究工作能做到这一步就是很厉害了,至少这整套的工具链是用起来了。
经历过这些工作的学生应该是收货很大的,看这个工作也想起来了Stanford的CS344 实验课程,也是P4 NetFPGA,BMv2等等系列操作。为啥这几所大学容易衍生出创业公司,从他们的课程看,创业就是他们多年课程工作的一个工程化实现,部分课程要求的材料里面甚至都做了ASIC模拟的布局和功耗计算,离投片的距离只差一个详细验证和风险投资了。
记得课程前面介绍过通过网内汇聚减少网络流量的文章,本节课程的内容是在一台可编程交换机上通过P4编程实现SwitchML,通过特定的汇聚协议、以及将ML所需的浮点运算转换成定点运算,对丢包的处理等功能的设计实现了对ML功能的加速。
SwitchML通过在单机架规模上最小化通信开销来加速DNN训练。SwitchML使用网络内聚合,在并行执行的分布式工作人员之间的每次训练迭代中有效地同步模型更新。我们在具有10 Gbps和100 Gbps网络的GPU集群上使用8个真实的DNN基准测试对SwitchML进行了评估;我们表明,SwitchML实现了高达5.5倍的训练吞吐量加速,通常优于最先进的集体通信库。我们正在将SwitchML-RDMA集成到各种ML框架中。