如何理解反向传播算法一文弄懂神经网络中的反向传播法——BackPropagation神经网络输出层为什么通常使用softmax?(为什么神经网络分类器要用交叉熵损失函数) 关于语言模型的论文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding