- 博客(12)
- 收藏
- 关注
原创 optimizer(二) RMSProp
学习记录,如有错误请指出,感谢大家指导建议。上一篇讲了Adamgrad优化器,如果下文中对于矩阵或者向量的计算形式有疑问可以参考上一篇文章,上一篇文章详细描述了Adamgrad的计算过程,而RMSProp和Adamgad是几乎一摸一样的。Optimizer (一)Adagrad 矩阵形式公式理解_黑野桥的博客-CSDN博客学习记录,如有错误请指出,感谢大家指导谢大家指导建议。本篇记录来自medium原网址Adagrad的特点在于对于每一个参数的学习率是不同的,除了公共学习率 之外,每一个参数的学习.
2022-05-13 16:03:48 1156
翻译 Optimizer (一)Adagrad 矩阵形式公式理解
学习记录,如有错误请指出,感谢大家指导谢大家指导建议。本篇记录来自medium原网址Adagrad的特点在于对于每一个参数的学习率是不同的,除了公共学习率 之外,每一个参数的学习率还有一个额外的系数。其中代表极小数防止分母为0, I为单位矩阵。是当前轮次和下一轮的参数向量,维度等于参数个数。是当前轮次每一个参数的导数。是一个矩阵,定义如下可以看到Gt就是每一轮导数向量和自身的外积,取对角线元素后加上一个极小值防止分母为0。这里只取对角线说明假设了每一个参数之间的更新是...
2022-05-13 15:42:49 574
原创 目标检测损失函数(二)DIOU、CIOU、ALPHA IOU
在前文中讨论了IOU与GIOU。http://t.csdn.cn/sqcPdhttp://t.csdn.cn/sqcPd
2022-05-10 22:26:48 5492
原创 目标检测中的损失函数(一) IOU,GIOU
学习记录,如有错误请指出,感谢大家的指导建议。IOUIOU计算的是预测框和目标框的交并比如上图所示,蓝色部分为预测框,红色部分为目标框,黄色部分就是两者的交集。IOU的局限性在于无法判别预测框的相对位置,同样的IOU数值结果能够对应无数个位置的预测框,而不同的任务可能会对不同的位置有着不同的喜好,这种情况下IOU无法给出一个判别。GIOU相比于IOU, GIOU引入了相对位置的考量,但这并不代表GIOU就优于IOU。蓝色为预测框,红色为目标框,黄色为两框的并集。所..
2022-05-10 20:36:57 1211
原创 协变量偏移与归一化(Internal Covariate Shift & Normalization)
协变量偏移与归一化深度学习(也可推广至所有机器学习)学习的是数据的分布。所以一旦分布出现了问题,学习的效率就会大打折扣。因为数据集的分布如果不能很好的体现整体的所有分布,比如人脸识别中训练集都是年轻的脸,但测试集中包含了老年人的脸;股票预测中的训练集数据来源于牛市但测试集中包含了熊市的数据等等。综合来说:测试集的数据标签分布可能和训练集是一样的,但是测试集的条件分布和训练集的条件分布是不同的。用数学语言来描述可以写成:在这种情况下,我们在训练集上学习到的分布
2022-05-10 18:04:24 569
原创 LSTM 入门级解读
记录学习过程,方便日后查用。本贴包括数学计算过程和模型解读。如有错误请指出,感谢大家的指导。图片来源LSTM模型结构的可视化 - 知乎淡绿色的方块被称为cell,是构成LSTM的主要结构。实际上对于RNN类网络来说,都会有一个这样的结构块,在时间上循环这个结构块就构成了RNN网络。上图是最基础的LSTM网络。LSTM的单元输入总共有3个部分 h是隐藏层,X是数据输入,C可以看成是网络的记忆部分。所有红色的单元是运算符,运算过程就是简单的套用运算符;所有黄色的单元是网络层,运算过程类似感知机.
2022-05-10 16:45:13 1769
原创 Conv2d 卷积层参数数量、feature map大小
类似的内容非常多,只是想写一写当作复习,如果错误请指出,感谢大家的指点。torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)卷积层参数个数假设in_channels = 5, out_channels = 6, 卷积核大小 3*3,其他
2022-05-10 03:41:34 1561
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人