不忘初心,坚持前行
码龄10年
关注
提问 私信
  • 博客:5,178
    5,178
    总访问量
  • 6
    原创
  • 494,703
    排名
  • 1
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2014-10-25
博客简介:

前行

查看详细资料
个人成就
  • 获得2次点赞
  • 内容获得0次评论
  • 获得9次收藏
创作历程
  • 6篇
    2019年
成就勋章
TA的专栏
  • Python
  • 深度学习
    3篇
  • 论文学习笔记
    6篇
  • 读书
  • 随笔
  • 其他
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

论文学习笔记 - Character-Level Language Modeling with Deeper Self-Attention

1 相关工作  语言模型有word-level(词级)和character-level(字符级)等,word-level语言模型通常在词序列的基础上建模,而character-level语言模型通常是在字符序列的基础上建模。Word-level语言模型会遇到OOV(out of vocabulary)问题,即词不在词表中的情况,而character-level语言模型则不会出现此问题。2 ...
原创
发布博客 2019.12.22 ·
976 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

论文学习笔记 - Language Models with Transformers

1 相关工作语言模型主要是基于RNN和Transformer两种。在Transformer提出以前,RNN及其相关变体如LSTM等,一直是语言建模方面的中流砥柱。而Transformer的出现改变了这一状况。Transformer由于没有循环结构,在处理文本这类序列数据时要比循环结构的RNN高效。2 解决问题但是随着NLP的发展,模型容量越来越大,层越来越深,参数越来越多,要训练一个优...
原创
发布博客 2019.06.30 ·
629 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

论文学习笔记-t-SNE-1

在机器学习任务中,通常情况下,数据具有很高的维度,直接展示数据的分布情况很困难,可通过统计分析数据的分布情况来了解数据。统计分析概率分布固然好,也仅仅是个抽象的表示,始终不能对数据有个直观的认识。数据可视化通过降维,在低维空间直观展示数据,大大促进对数据的认识。t-SNE(t-Distribution Stochastic Neighbor Embedding)是在SNE(Stochastic...
原创
发布博客 2019.06.02 ·
1822 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

论文学习笔记-Batch Normalization-1

  Batch normalization对数据进行标准化,标准化之后数据的均值为0,方差为1。Batch normalization是解决神经网络中的内部单元的internal covariate shift问题。  Internal covariate shift,由于网络参数变化,输入变化等原因,造成网络内部状态发生偏移,导致激活函数的输入在饱和区域,或者激活函数关于其输入的导数接近于0...
原创
发布博客 2019.04.27 ·
203 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

论文学习笔记 - BIRNN - 1

  单向RNN(forward和backward)只利用了序列数据其中一个方向的信息(left-to-right或者right-to-left),信息量不够,在很多任务中往往达不到性能要求。要想提高模型性能就要尽可能多的利用数据信息,该如何利用序列两个方向上的信息?至少有2种方式可以利用序列数据两个方向上的信息,一是merge两个不同方向的RNN,二是BiRNN。Merge  Merge是...
原创
发布博客 2019.04.14 ·
1212 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

论文学习笔记 - BERT - 1

BERT(Bidirectional Encoder Representations from Transformers)是一种自然语言表示模型。BERT是基于上下文信息的深度双向表示模型,通过预训练,可得到文本的深度双向表示。BERT网络结构BERT的模型结构图如下。BERT的每一层都利用了文本预料的上下文信息。其基本结构是Transformer,将其深度堆叠,通过类似全连接网络...
原创
发布博客 2019.03.16 ·
336 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏