机器学习
酷暑冷冰
这个作者很懒,什么都没留下…
展开
-
怎样克服神经网络训练中argmax的不可导性?
文章目录1. strainght through Gumbel (estimator)2. stop gradient operation3. 可以对argmax/argmin 这种不可导的操作直接忽视,也就是锁定1. strainght through Gumbel (estimator)令:argmax(v)=softmax(v)+c;c=argmax(v)−softmax(v),且为常数argmax(v)=softmax(v) + c ; c=argmax(v) -softmax(v),且为常数原创 2021-11-17 10:27:32 · 1357 阅读 · 0 评论 -
Transformers仓库做语言生成的解码方法介绍
https://mp.weixin.qq.com/s/ODIuVCk6Dh644AOUxaU6gQ转载 2021-11-10 10:17:02 · 209 阅读 · 0 评论 -
面试中的深度学习基础问题
文章目录1.Batch Normalization1.Batch Normalization由于Internal Covariate Shift(Google)效应产生,即深度神经网络随着网络层数的加深,该层的输入会发生变化,使得输入不满足独立同分布的条件,反而向激活函数的两端移动(梯度很小),导致梯度消失,收敛困难。可在每层的激活函数前,加入BN,将参数重新拉回0-1正态分布,加速收敛。理想情况下,Normalize的均值和方差应当是整个数据集的,但为了简化计算,就采用了一个mini-batch内的。原创 2021-11-08 18:59:43 · 868 阅读 · 0 评论 -
catboost
https://catboost.ai/docs/concepts/python-installation.html原创 2021-03-09 11:11:54 · 115 阅读 · 0 评论 -
频率派VS贝叶斯派
Introduction对概率的诠释有两大学派,一种是贝叶斯派,一种是概率派。对于观测到的样本,我们以后均采用下面的标记:X=(x1,x2,...xn)T=(x11x12...x1px21x22...x2p...xN1xN2...xNps)N∗pX = (x_1,x_2, ...x_n)^{T}=\begin{pmatrix} x_{11} &x_{12} &... &x_{1p} \\ x_{21}&x_{22} & ... &x_{2p} \\原创 2021-03-04 22:00:58 · 103 阅读 · 0 评论 -
回归分析的五个基本假设
https://blog.csdn.net/Noob_daniel/article/details/76087829原创 2021-02-21 20:40:15 · 2822 阅读 · 0 评论