最优化笔记

最新推荐文章于 2024-07-29 11:06:22 发布

yanduo2594

最新推荐文章于 2024-07-29 11:06:22 发布

阅读量721

点赞数

文章标签：梯度下降最优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yanduo2594/article/details/79684722

版权

斯坦福CS231n课程确实很好，学了有两三遍，每次都有不一样的收获，理解的也更深刻。这里把自己觉得重要的东西记录下来，以加深印象，同时便于查阅。CS211n简书笔记链接：https://www.jianshu.com/p/182baeb82c71

最优化笔记（上）

寻找能使损失函数值最小化参数W的过程。

评分函数（基于参数的函数映射）→损失函数（SVM为分段性结构）→最优化（后两者形式较稳定）。

对于SVM分类器来说，由于max操作，损失函数存在一些不可导点，这些点使得损失函数不可微，梯度是没有定义的，但次梯度依然存在且常常被使用。

假设X_train的每一列都是一个数据样本（如3073x50000）；Y_train是数据样本的类别标签（如长度为50000的一维数组）。

最优化可用策略：随机搜索，随机本地搜索，跟随梯度。

最优化笔记（下）

梯度计算：数值梯度法，分析梯度法。

步长的影响：梯度指明了函数在哪个方向变化率最大，但没有指明在这个方向走多远，步长（学习率）是神经网络训练中最重要的超参数之一。

损失函数每走一步就是要计算3073次损失函数的梯度，效率低。

梯度下降：程序重复的计算梯度然后对参数进行更新。

普通梯度下降：

小批量数据梯度下降：

采用小批量数据梯度下降的依据是训练集中数据都是相关的，是对整个数据集梯度的近似，可以实现快速收敛，频繁参数更新。极端情况每个批量中只有一个数据样本，叫做随机梯度下降或线性梯度下降。小批量数据大小是超参数，实际很少用。

数据集中(x,y)是给定的，权重从一个随机数开始，且可以改变。前向传播时，评分函数计算出类别的分类评分值并存储在向量f中。数据损失计算的是分类评分f和实际标签y之间的差异，正则化损失是一个关于权重的函数。梯度下降过程中，计算权重梯度，实现参数更新。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

yanduo2594 CSDN认证博客专家 CSDN认证企业博客

码龄8年

9: 原创

29万+: 周排名

183万+: 总排名

4万+: 访问

: 等级

450: 积分

63: 粉丝

51: 获赞

40: 评论

276: 收藏

私信

关注

热门文章

最新评论

STK运载火箭发射仿真
松香酒: 大佬您好，请问级间分离部分怎么做出来的呢
STK运载火箭发射仿真
weixin_41130232: 请问增加摄像头您解决了吗？谢谢
STK运载火箭发射仿真
weixin_41130232: 博主你好，请问你星历文件和姿态文件是用的你贴的这个吗？我也在帮助文件中找到了，但是星历文件导入后感觉不对，位置好像在地球内，不知道是什么原因
STK运载火箭发射仿真
qq_43435363: 大佬您好，stk engine java开发后的程序子在linux中运行需要对应的动态库，您可有stk11.6 的.so文件
STK运载火箭发射仿真
yanduo2594: 文中链接已更新

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。