神经网络
kaiyin_hzau
这个作者很懒,什么都没留下…
展开
-
BPE, WordPiece, SentencePiece
自己开发的NLP小项目,将BERT, ALBERT和GPT2用Tensorflow2.0重写。欢迎围观 https://github.com/kyzhouhzau/fennlp众号分享机器学习,深度学习知识和技巧,以及学习资料。...转载 2020-04-07 19:28:52 · 2138 阅读 · 0 评论 -
是谁占用了我的显存?(深度学习显存占用分析)
自己开发的NLP小项目,将BERT, ALBERT和GPT2用Tensorflow2.0重写。欢迎围观 https://github.com/kyzhouhzau/fennlp众号分享机器学习,深度学习知识和技巧,以及学习资料。...原创 2020-04-07 19:17:35 · 1800 阅读 · 0 评论 -
Tensorflow2.0对不同层指定学习率
在使用Tensorflow编写深度学习模型的时候往往会考虑对不同的层采用不一样的优化器以及学习率,以下为其中一个案例import tensorflow as tffrom zh.model.mnist.mlp import MLPfrom zh.model.utils import MNISTLoadernum_epochs = 5batch_size = 50learning_ra...原创 2020-02-06 11:12:48 · 4079 阅读 · 1 评论 -
深度学习模型在训练时候使用dropout为何在测试时候不使用dropout?
深度学习模型在训练时候使用dropout为何在测试时候不使用dropout?深度学习模型训练时候使用dropout实际上只是让部分神经元在当前训练批次以一定的概率不参与更新,这样使得每一轮迭代获得的模型都是不一样的。这个过程一定程度上保持了不同模型之间最优参数设置,使得训练出的每一个模型不至于太差。在预测时候,不使用dropout,但会在权重上都乘上保留概率。最终的输出可以被认为是Bagging...原创 2020-02-02 21:09:21 · 5385 阅读 · 1 评论 -
Adam 和随机梯度下降的区别?
1、Adam 和随机梯度下降的区别?一、SGD1.1 对每一个待更新参数的求梯度,并在一定的学习率下按照梯度反方向更新参数。1.2 但该方法存在显著的弊端,例如以下这样的损失函数:在不同的参数方向一方面学习率不应当一样,因为他们的梯度程度不同,一个x1方向梯度较大,x2方向梯度较小,但若以相同学习率,很容易受单个参数的影响而很难走到局部最优点。二、Adam2.1 Adam 一方面动态的...原创 2020-02-01 09:51:18 · 4791 阅读 · 0 评论 -
前向传播后向传播
欢迎加入人工智能学习圈:原创 2018-10-29 16:56:15 · 333 阅读 · 0 评论 -
常见激活函数
欢迎加入:人工智能学习圈原创 2020-02-01 19:46:38 · 181 阅读 · 0 评论