Datawahle夏令营第六期task1《深度学习详解》学习笔记

weixin_54372988

已于 2024-08-27 17:08:34 修改

阅读量544

点赞数 27

文章标签：深度学习学习笔记

于 2024-08-26 23:42:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54372988/article/details/141564263

版权

Datawhale X 李宏毅苹果书 AI夏令营（第六期）task1《深度学习详解》学习笔记

第1章
- 机器学习（Machine Learning，ML）和深度学习（Deep Learning，DL）概念
- 案例学习

第1章

机器学习（Machine Learning，ML）和深度学习（Deep Learning，DL）概念

机器学习本质上是寻找一个输入与输出之间的函数
回归是输出数值，分类是输出给定的选项中的一个。

案例学习

频道观看量预测
1 定义函数：y = b + wx1
y ：准备要预测的今天总共的观看次数
x1 ：这个频道前一天总共的观看次数，称为特征（feature）
w：未知参数，称为权重（weight）
b ：修正参数，称为偏置（bias）
带有未知的参数（parameter）的函数称为模型（model）
2 定义损失：L(b,w)
计算损失：把训练数据代入原函数得到的值（预测值）与真实数据值比较，估算差距（如求平均绝对误差、均方误差）
每一天的误差记为e，然后把每天的误差相加取平均，得到损失L。L越大代表这一组参数越不好，反之越好。
当真实值和预测值都是概率分布，计算误差就采用交叉熵。把每一个w和b对应的L算出，得到的等高线图称为误差表面。
在这里插入图片描述
解最优化问题：找到最好的一组w跟b让损失的L值最小。常用方法：梯度下降法

假设只有w是未知参数，误差表面转化为一维。对w=w0点处求微分，如果算出斜率为正，即曲线这一点上左边高，就把w值变大，L值就会变小，右边高反之。
超参数（hyperparameter）：学习率（learning rate）η 是自己设定的，如果 η 设大一点，每次参数更新就会量大，学习可能就比较快。如果 η 设小一点，参数更新就很慢，每次只会改变一点点参数的数值。学习率乘微分就是这一步步长。
两种停下来的情况：

设置最多计算的次数，到上限就停下
到某一步计算的微分值正好为0
梯度下降的问题：只会找到微分为0的点，也就是找到的是局部最小值而不是全局最小值。

两个参数的情况（二维到三维）其实同理。
负号是负梯度方向（下降方向），η是步长，即每次下降多少
在这里插入图片描述

weixin_54372988

关注

27
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。