最近看了一篇bert很好讲解的论文,特地转载一下,这里插播一下对于bert的理解 bert本质上就是多个Transformer连接在一起,Transformer中的Self-Attention机制改造为相应的Multi-head Self-Attention机制 bert结构理解 另外还有一篇残差网络的对应解析内容残差网络的对应内容