最优化笔记

      斯坦福CS231n课程确实很好,学了有两三遍,每次都有不一样的收获,理解的也更深刻。这里把自己觉得重要的东西记录下来,以加深印象,同时便于查阅。CS211n简书笔记链接:https://www.jianshu.com/p/182baeb82c71

最优化笔记(上)

      寻找能使损失函数值最小化参数W的过程。

      评分函数(基于参数的函数映射)→损失函数(SVM为分段性结构)→最优化(后两者形式较稳定)。

      对于SVM分类器来说,由于max操作,损失函数存在一些不可导点,这些点使得损失函数不可微,梯度是没有定义的,但次梯度依然存在且常常被使用。

      假设X_train的每一列都是一个数据样本(如3073x50000);Y_train是数据样本的类别标签(如长度为50000的一维数组)。

      最优化可用策略:随机搜索,随机本地搜索,跟随梯度。

最优化笔记(下)

      梯度计算:数值梯度法,分析梯度法。

      步长的影响:梯度指明了函数在哪个方向变化率最大,但没有指明在这个方向走多远,步长(学习率)是神经网络训练中最重要的超参数之一。

      损失函数每走一步就是要计算3073次损失函数的梯度,效率低。

      梯度下降:程序重复的计算梯度然后对参数进行更新。

      普通梯度下降:


      小批量数据梯度下降:


      采用小批量数据梯度下降的依据是训练集中数据都是相关的,是对整个数据集梯度的近似,可以实现快速收敛,频繁参数更新。极端情况每个批量中只有一个数据样本,叫做随机梯度下降或线性梯度下降。小批量数据大小是超参数,实际很少用。


      数据集中(x,y)是给定的,权重从一个随机数开始,且可以改变。前向传播时,评分函数计算出类别的分类评分值并存储在向量f中。数据损失计算的是分类评分f和实际标签y之间的差异,正则化损失是一个关于权重的函数。梯度下降过程中,计算权重梯度,实现参数更新。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值