自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 论文学习笔记 - Character-Level Language Modeling with Deeper Self-Attention

1 相关工作  语言模型有word-level(词级)和character-level(字符级)等,word-level语言模型通常在词序列的基础上建模,而character-level语言模型通常是在字符序列的基础上建模。Word-level语言模型会遇到OOV(out of vocabulary)问题,即词不在词表中的情况,而character-level语言模型则不会出现此问题。2 ...

2019-12-22 15:16:59 912

原创 论文学习笔记 - Language Models with Transformers

1 相关工作语言模型主要是基于RNN和Transformer两种。在Transformer提出以前,RNN及其相关变体如LSTM等,一直是语言建模方面的中流砥柱。而Transformer的出现改变了这一状况。Transformer由于没有循环结构,在处理文本这类序列数据时要比循环结构的RNN高效。2 解决问题但是随着NLP的发展,模型容量越来越大,层越来越深,参数越来越多,要训练一个优...

2019-06-30 16:26:31 591

原创 论文学习笔记-t-SNE-1

在机器学习任务中,通常情况下,数据具有很高的维度,直接展示数据的分布情况很困难,可通过统计分析数据的分布情况来了解数据。统计分析概率分布固然好,也仅仅是个抽象的表示,始终不能对数据有个直观的认识。数据可视化通过降维,在低维空间直观展示数据,大大促进对数据的认识。t-SNE(t-Distribution Stochastic Neighbor Embedding)是在SNE(Stochastic...

2019-06-02 17:06:55 1756

原创 论文学习笔记-Batch Normalization-1

  Batch normalization对数据进行标准化,标准化之后数据的均值为0,方差为1。Batch normalization是解决神经网络中的内部单元的internal covariate shift问题。  Internal covariate shift,由于网络参数变化,输入变化等原因,造成网络内部状态发生偏移,导致激活函数的输入在饱和区域,或者激活函数关于其输入的导数接近于0...

2019-04-27 15:15:02 157

原创 论文学习笔记 - BIRNN - 1

  单向RNN(forward和backward)只利用了序列数据其中一个方向的信息(left-to-right或者right-to-left),信息量不够,在很多任务中往往达不到性能要求。要想提高模型性能就要尽可能多的利用数据信息,该如何利用序列两个方向上的信息?至少有2种方式可以利用序列数据两个方向上的信息,一是merge两个不同方向的RNN,二是BiRNN。Merge  Merge是...

2019-04-14 11:11:29 1160

原创 论文学习笔记 - BERT - 1

BERT(Bidirectional Encoder Representations from Transformers)是一种自然语言表示模型。BERT是基于上下文信息的深度双向表示模型,通过预训练,可得到文本的深度双向表示。BERT网络结构BERT的模型结构图如下。BERT的每一层都利用了文本预料的上下文信息。其基本结构是Transformer,将其深度堆叠,通过类似全连接网络...

2019-03-16 11:38:29 308

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除