lr主要推导https://blog.csdn.net/ligang_csdn/article/details/53838743
损失函数:
为何不用最小二乘法
是否要用最小二乘法取决于在所有未知数中的残差是否为线性
最大似然
将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法
随机梯度下降代码
https://www.cnblogs.com/21207-iHome/p/5222993.html
批量梯度下降是所有的
是在权值更新前对所有样例汇总误差,而随机梯度下降的权值是通过考查某个训练样例来更新的
牛顿法
讲的很详细,两个结合着看就足够了
https://zhuanlan.zhihu.com/p/37588590
https://blog.csdn.net/linolzhang/article/details/60151623
雅克比矩阵,对应一阶偏导数。
H 为 Hessian矩阵,对应二阶偏导数
拟牛顿法的思想是不计算目标函数的Hessian矩阵然后求逆矩阵,而是通过其他手段得到Hessian矩阵或其逆矩阵的近似矩阵。具体做法是构造一个近似Hessian矩阵或其逆矩阵的正定对称矩阵,用该矩阵进行牛顿法的迭代。