飞驰的码农-CSDN博客

原创《深度学习自然语言处理实战》学习笔记（1）

1、梯度消失与爆炸都是由于网络层数过多，在反向传播过程中链式法则连乘效应解决办法：更换激活函数（Relu、Leaky-ReLU)，批量归一化（Batch Normalization)，使用残差网络ResNet，梯度裁剪/正则化问题：如何判断梯度消逝？爆炸？图像？...

2021-09-16 15:15:11 112

原创【语言模型与词向量】学习笔记

词向量发展及内容NNLMword2vecGloveElmoNNLMword2vecGloveElmo

2021-08-28 18:16:11 237

预训练模型1、BERT基本概念模型结构BERT微调2、XLNET3、RoBERTa4、ALBERT1、BERT基本概念BERT（BI-directional Encoder Representations from Transformers)，中文意思是基于Transformer的双向编码表示,是谷歌2018发布的开源NLP预训练模型.在BERT发布之前,大部分NLP任务是基于word2vec+RNN等网络结构的基本架构,由于缺乏数据,所以基于图像领域思想,将NLP任务应用于预训练加微调架构上.在B

2021-08-12 20:37:53 336

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_47242312的博客

原创《深度学习自然语言处理实战》学习笔记（1）

原创【语言模型与词向量】学习笔记

原创【预训练模型】学习笔记

空空如也

空空如也

原创 《深度学习自然语言处理实战》学习笔记（1）

原创 【语言模型与词向量】学习笔记

原创 【预训练模型】学习笔记

空空如也

空空如也

原创《深度学习自然语言处理实战》学习笔记（1）

原创【语言模型与词向量】学习笔记

原创【预训练模型】学习笔记