Datawhale夏令营
文章平均质量分 89
好好喝水的少年
这个作者很懒,什么都没留下…
展开
-
Datawhale X 李宏毅苹果书AI夏令营-进阶版 Task 3
把这边的某一个数值 x,减掉这一个维度算出来的平均值,再除掉这个维度,算出来的标准差,得到新的数值 x˜。得到新的数值以后,再把新的数值把它塞回去。所以让网络在一开始训练的时候,每一个维度的分布,是比较接近的,也许训练到后来,已经找到一个比较好的误差表面,走到一个比较好的地方以后,再把 γ, β 慢慢地加进去,所以加了 γ, β 的批量归一化,往往对训练是有帮助的。4. 如果不在超过图像的范围“摆”感受野,就没有神经元去检测出现在边界的模式,这样就会漏掉图像边界的地方,所以一般边界的地方也会考虑的。原创 2024-09-03 22:28:50 · 708 阅读 · 0 评论 -
Datawhale X 李宏毅苹果书AI夏令营-进阶版 Task 2
比如 y1 = 3,y2 = 1,y3 = −3,取完指数的时候,exp(3) = 20、exp(1) = 2.7 和 exp(−3) = 0.05,做完归一化后,就变成 0.88、0.12 跟 0。AdaGrad 可以做到梯度比较大的时候,学习率就减小,梯度比较小的时候,学习率就放大。θ1 坡度小,θ2 坡度大。因此有了 σit 这一项以后,就可以随着梯度的不同,每一个参数的梯度的不同,来自动调整学习率的大小。,计算 σ的时候,都要把梯度取一个平方项,把平方的结果加起来,所以只考虑梯度的大小,所以。原创 2024-08-31 20:41:05 · 534 阅读 · 0 评论 -
Datawhale X 李宏毅苹果书AI夏令营-进阶版 Task 1
但 L2 的函数跟 L1 又不一样,L2 不一定会卡住,可以换下个批量的损失 L2 计算梯度,模型还是可以训练,还是有办法让损失变小,所以这种。1. 实际上在计算梯度的时候,并不是对所有数据的损失 L 计算梯度,而是把所有的数据分成一个一个的批量(batch)。举例:【单一方向为低,不都低】图3.2(b)红色的点在 y 轴方向是比较高的,在 x 轴方向是比较低的,这就是一个鞍点。6. 大的批量更新比较稳定,小的批量的梯度的方向是比较有噪声的(noisy)。但大的批量大小往往在训练的时候,结果比较差。原创 2024-08-27 22:00:31 · 595 阅读 · 1 评论