Datawahle夏令营第六期task1《深度学习详解》学习笔记

Datawhale X 李宏毅苹果书 AI夏令营(第六期)task1《深度学习详解》学习笔记

第1章

机器学习(Machine Learning,ML)和深度学习(Deep Learning,DL)概念

机器学习本质上是寻找一个输入与输出之间的函数
回归是输出数值,分类是输出给定的选项中的一个。

案例学习

频道观看量预测
1 定义函数:y = b + wx1
y :准备要预测的今天总共的观看次数
x1 :这个频道前一天总共的观看次数,称为特征(feature)
w:未知参数,称为权重(weight)
b :修正参数,称为偏置(bias)
带有未知的参数(parameter)的函数称为模型(model)
2 定义损失:L(b,w)
计算损失:把训练数据代入原函数得到的值(预测值)与真实数据值比较,估算差距(如求平均绝对误差、均方误差)
每一天的误差记为e,然后把每天的误差相加取平均,得到损失L。L越大代表这一组参数越不好,反之越好。
当真实值和预测值都是概率分布,计算误差就采用交叉熵。把每一个w和b对应的L算出,得到的等高线图称为误差表面。
在这里插入图片描述
解最优化问题:找到最好的一组w跟b让损失的L值最小。常用方法:梯度下降法
在这里插入图片描述
假设只有w是未知参数,误差表面转化为一维。对w=w0点处求微分,如果算出斜率为正,即曲线这一点上左边高,就把w值变大,L值就会变小,右边高反之。
超参数(hyperparameter):学习率(learning rate)η 是自己设定的,如果 η 设大一点,每次参数更新就会量大,学习可能就比较快。如果 η 设小一点,参数更新就很慢,每次只会改变一点点参数的数值。学习率乘微分就是这一步步长。
两种停下来的情况:

  1. 设置最多计算的次数,到上限就停下
  2. 到某一步计算的微分值正好为0
    梯度下降的问题:只会找到微分为0的点,也就是找到的是局部最小值而不是全局最小值。

两个参数的情况(二维到三维)其实同理。
负号是负梯度方向(下降方向),η是步长,即每次下降多少
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值