夏乙 发自 凹非寺
量子位 出品 | 公众号 QbitAI
人类公元纪年2019年伊始,深度学习技术也同样处在一个新的“开端”,宜review、宜展望。
MIT正在进行中的深度学习课程就全面描绘了当下的状态。
最近一节课,Lex Fridman老师展现了深度学习各方向的最领先状态,也回顾了过去两年间通往前沿的一步步进展。涉及自然语言处理、深度强化学习、训练和推断的加速等等。
这里的“领先”,只谈想法方向,无关基准跑分。
面对课上展现的大进展,甚至有网友说:
课前喝一杯?机器学习进展如此巨大,简直值得来一两瓶。
视频放出一天多,收获感谢无数。
量子位上完课,结合PPT写了笔记一份,分享给大家。
正式开始前,先来一份小目录。
这节课涉及的重大进展,共12个方面,分别是:
BERT和自然语言处理(NLP)
特斯拉Autopilot二代(以上)硬件:规模化神经网络
AdaNet:可集成学习的AutoML
AutoAugment:用强化学习做数据增强
用合成数据训练深度神经网络
用Polygon-RNN++做图像分割自动标注
DAWNBench:寻找快速便宜的训练方法
BigGAN:最领先的图像合成研究
视频到视频合成
语义分割
AlphaZero和OpenAI Five
深度学习框架
我们一个一个细说。
BERT和NLP
2018年是自然语言处理之年。很多圈内人把2012年称为深度学习的ImageNet时刻,因为这一年,AlexNet带来了计算机视觉领域的性能飞跃,激励着人们去探索深度学习在这一领域的更多可能性。
2016年到18年,NLP的发展也类似,特别是BERT的出现。
NLP的发展要从编码器-解码器架构说起。
上图展示了一个用于神经机器翻译的序列到序列(seq2seq)模型。RNN编码器负责将输入序列编码成固定大小的向量,也就是整个句子的“表征”,然后把这个表征传递给RNN解码器。
这个架构在机器翻译等领域很管用。
接下来发展出了注意力(Attention)。这种机制,不强迫网络将所有输入信息编码城一个固定长度的向量,在解码过程中还能重新引入输入序列,还能学习输入序列和输出序列中哪一部分互相关联。
比较直观的动态展示是这样的:
再进一步,就发展到了自注意力(Self-Attention),和谷歌“Attention is all you need”论文提出的Transformer架构。
Transformer架构的编码器用自注意力机制为输入序列生成一组表征,解码过程也使用注意力机制。
说完注意力的发展,我们再看一下NLP的一个关键基础:词嵌入。