深度学习day01
一、梯度下降法
由于普通的梯度下降法的缺点,在驻点周围迭代步长很慢,容易达到局部最小值(此处不再介绍梯度下降法),引入了Adagrad
1.1 Adagrad
- 整体上也会越来越慢
- 一次微分/二次微分
- 其分母反映了二次微分的大小,一次微分的值平方和
1.2 Stochastic Gradient Descent
- 随机梯度下降法
- 每次只选择一个gradient Descent
1.3 Feature Scaling
- 特征缩放
二、Logitstic Regression
2.1 Logistic Regression为什么不用平方误差
- 求导、梯度下降法时不方便
2.2 Softmax
- 交叉熵函数写错了
2.3 Limitation of Logistic Regression
- 特征转换
-
图有问题,画反了
-
这样就得到了Deep Learning!
三、Deep Learning
- 向量化计算
- 概率大,就是哪个类