- 博客(3)
- 收藏
- 关注
原创 《深度学习自然语言处理实战》学习笔记(1)
1、梯度消失与爆炸都是由于网络层数过多,在反向传播过程中链式法则连乘效应 解决办法:更换激活函数(Relu、Leaky-ReLU),批量归一化(Batch Normalization),使用残差网络ResNet,梯度裁剪/正则化 问题:如何判断梯度消逝?爆炸?图像? ...
2021-09-16 15:15:11
92
原创 【预训练模型】学习笔记
预训练模型1、BERT基本概念模型结构BERT微调2、XLNET3、RoBERTa4、ALBERT 1、BERT 基本概念 BERT(BI-directional Encoder Representations from Transformers),中文意思是基于Transformer的双向编码表示,是谷歌2018发布的开源NLP预训练模型. 在BERT发布之前,大部分NLP任务是基于word2vec+RNN等网络结构的基本架构,由于缺乏数据,所以基于图像领域思想,将NLP任务应用于预训练加微调架构上.在B
2021-08-12 20:37:53
279
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人