线性回归
极大似然估计
例子:房价预测
(误差符合高斯分布—均值为0,方差为某定值)
对数化
(J其实就是目标函数)
(目标函数要最小—梯度为0—驻点)
(为何不可逆或防止过拟合可以增加扰动)
概念:给定k个点,一定存在k-1次项方程式,通过这个K个点
线性回归:出现过拟合
(正则项:避免参数过大造成的过拟合):L2正则化—岭回归(加了L2正则项的最小二乘估计)–施加给损失函数的惩罚项
(L1有特征选择功能,L2没有)
最后正则出来的系数结果,越高阶的项系数越小,尤其是LASSO算法,他就是对特征的选择,越高阶的特征系数越小。
正则化与稀疏性:
参数的解,最好不要所有值都不为0,更希望这些值有0—LASSO将所有参数不为0的项作为惩罚项加入损失函数
调参:
交叉验证—网络搜索—超参数的调参过程(不是计算超参,是选择更好的超参)
梯度下降算法:
(不要执着于全局最优,局部最优也可以产生实践价值)
SGD(速度快,优先选择)可以跳出某些局部最小值,防止在局部最小值停滞
(对于一个样本,就进行梯度下降有一定风险,可以使用mini-bathch小批量的样本进行随机梯度下降更合理)–BGD(批量随机梯度下降)