机器学习--回归算法

最新推荐文章于 2023-12-29 01:22:29 发布

xiayto

最新推荐文章于 2023-12-29 01:22:29 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/xiayto/article/details/79507022

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

算法

线性回归(连续)

目标函数推导

预测值与误差：
$y^{(i)}=\theta^Tx^{(i)}+\varepsilon^{i}$
由中心极限定理可知，误差服从正态分布：
$p(\varepsilon^{i})=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\varepsilon^{i})^2}{2\sigma^2})$
带入可得：
$p(\varepsilon^{i})=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} - \theta^Tx^{(i)})^2}{2\sigma^2})$
极大似然估计：
$L(\theta) = \prod_1^m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} - \theta^Tx^{(i)})^2}{2\sigma^2})$
取对数：
$L(\theta)= \sum_1^mlog\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} - \theta^Tx^{(i)})^2}{2\sigma^2})$
拆分：
$L(\theta)= mlog \frac{1}{\sqrt{2\pi}} - \frac{1}{2\sigma^2}\sum_1^m(y^{(i)} - \theta^Tx^{(i)})^2$
最大化似然函数得到目标函数：
最小化： $\sum_1^m(y^{(i)} - \theta^Tx^{(i)})^2$ 也就是最小二乘法

目标函数求解

目标函数展开：
$J(\theta) = \frac{1}{2}(X\theta-Y)^T(X\theta-Y))$
对 $\theta$ 求导，令导数为0：
$\theta = (X^TX)^{-1}X^TY$
要令 $(X^TX)^{-1}$ 求逆可执行，加入正则项（满秩的方阵可逆），最终解为：
$\theta = (X^TX+\lambda I)^{-1}X^TY$

防止过拟合：

加入正则项目，有三种：

L1-norm (LASSO回归) : $\lambda\sum|\theta_i|$
L2-norm (Ridge岭回归): $\lambda\sum\theta_i^2$
ElasticNet (混合前两种) : $\lambda(p|\theta_i|+(1-p)\sum\theta_i^2)$

优缺点比较：

L1：
- 优点：得到解满足稀疏性要求(因为在接近原点处正则项不会变小，L2会），有较高的求解速度。
- 缺点：准确性、稳定性、鲁棒性较差
L2:
- 优点：准确性、稳定性、鲁棒性较高
- 缺点：求解速度较慢
ElasticNet:
- 优点：可以同时考虑求解速度和稳定性

逻辑回归(二分类)

推导过程

预测和目标： $P(y|x;\theta) = h(x)^y(1-h(x))^{1-y}$
其中预测函数 $h(x) = \frac{1}{1+e^{-\theta^Tx}}$
$h(x)$ 对 $\theta_j$ 求偏导是 $h(x)*(1-h(x))*x_i^j$
似然函数：
$L(\theta) = \prod_i^m h(x_i)^y_i(1-h(x_i))^{1-y_i}$
取对数再对 $\theta$ 求偏导，将上式的 $h(x)*(1-h(x))*x_i^j$ 带入可以得到目标函数的偏导数：
$\sum_i^m(y_i - h(x_i))*x_i^j$
所以函数的求解过程类似于梯度下降法：
$\theta_j = \theta_j - \alpha(y_i - h(x_i))x_i^j$

实现逻辑回归的代码：

$\theta_j = \theta_j - \alpha(y_i - h(x_i))x_i^j$

#alpha:步长，maxCycles:迭代次数，可以调整
def gradAscent(dataArray,labelArray,alpha,maxCycles):
    dataMat=mat(dataArray)    #size:m*n
    labelMat=mat(labelArray)      #size:m*1
    m,n=shape(dataMat)
    weigh=ones((n,1)) 
    for i in range(maxCycles):
        h=sigmoid(dataMat*weigh)
        error=labelMat-h    #size:m*1
        weigh=weigh+alpha*dataMat.transpose()*error
    return weigh