自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 深入理解Transformer

本文先对Transformer的模型结构做一个概述,然后再列举一下相对之前模型的创新点/优势,最后针对模型细节以QA的形式做深入介绍。模型概述原始论文的Transformer是用于解决seq2seq问题的,由encoder和decoder组成。Encoder和Decoder的输入:都是wordEmbedding+positionalEmbedding(把句子输入decoder时,需要做右移)..............................

2020-05-03 11:13:00 929 1

原创 Momentum Rmsprop Adam

SGD存在容易震荡、收敛速度慢等缺点,因此下面介绍几个对SGD进行改进的优化方法。动量基本做法首先计算动量(每一步负梯度的移动指数平均值),然后直接用动量去更新参数。使用移动指数平均而不是其他平均方法,是因为更新参数的时候,希望离当前步越近的梯度的权重越高,越久的梯度的权重越低。作用:(a)SGD在移动的过程中,因为(batch较小带来的)randomness、pathological...

2020-05-02 20:59:57 1250

原创 SGD(随机梯度下降)详解

BGD vs SGDBGD vs SGD名词解释功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入BGD vs SGD...

2020-05-02 09:00:28 71562 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除