李沐(沐神)、朱毅讲得真的好,干货蛮多,醍醐灌顶。编码器、解码器、多头自注意力、自回归的概念没搞清楚的话,值得认真读很多遍,甚至可以当成多模态大模型基础课程学习。
今天我们将讲的是transformer这个模型,也就是大家投票分数最高的一篇模型。这篇文章可以认为是最近三年以来深度学习里面最重要的文章之一,他可以认为是开创了即NLP,CNN和RNN之后的第四大类模。斯坦福联合了100多名作者作了一两百页的综述文章,他们甚至提议说将这一类模型叫做基础模型,可以见它对整个领域的影响力是有多大。
首先我们看一下标题,标题是说Attention Is All You Need,就是说你就需要注意力就行了。当然在英语中这也是一句合法的话,就是对小孩说,集中一下注意力,不要东看西看。这个标题成为了一个梗。你要出文章,就把这个词换成任何跟你想要的词,只要你换成这个词,基本上你的文章能够上头条。然后我们来看一下作者,这里面有八个作者,作者绝大部分都是在Google,然后有两个作者不在Google,他做了一个注释,注释上面写的是这个是这两位作者在Google应该是实习的时候完成的工作。另外比较有意思的是这篇文章每一个作者后面都打了一个星号,星号