线性回归全总结：《机器学习》第三章 + 《机器学习实战》第八章 + 理论补充-CSDN博客

本文链接：https://blog.csdn.net/weixin_52812620/article/details/128470675

博客园相关内容值得一看。线性回归的模型是 $f(x_i)=w^Tx_i+b\quad f(x_i)\sim y_i$ ，其中 $x_i$ 是 $n\times 1$ 的向量（即有 $n$ 个特征）， $w$ 是 $n\times 1$ 的向量。若有 $m$ 个数据，形成 $X_{m\times n}$ 的数据集和 $y_{m\times1}$ 的目标， $X$ 的最后加一列全 $1$ ， $w$ 把 $b$ 吸收，就可以得到简化的 $f(X)=X_{m\times{(n+1)}}w_{(n+1)\times1}$ 。求 $l oss$ 均方误差是 $l=(y-Xw)^T(y-Xw)$ ，对 $w$ 求偏导得到 $2X^T(Xw-y)$ ，令 $X^T(Xw-y)=0$ 得到 $w=(X^TX)^{-1}X^Ty$
在这里插入图片描述

标量对向量或矩阵求偏导，得到的结果是分母布局，即对谁求偏导，结果的 shape 就和谁一样

向量对向量求偏导， $y_{m\times 1}$ 对 $x_{n\times1}$ 求偏导， $\frac{\partial y}{\partial x}$ 的结果维度是 $m\times n$

应用链式求导法则之前先看维度，转置调整到维度匹配再计算。此题例， $\frac{\partial{l}}{\partial{w}}$ 的结果是 $(n+1)\times1$ ，令 $z = y - Xw$ ， $\frac{\partial{z}}{\partial{w}}$ 的结果是 $m\times(n+1)$ ， $\frac{\partial{l}}{\partial{z}}$ 的结果是 $m\times 1$ ，要使用 $\frac{\partial{l}}{\partial{w}}=\frac{\partial{l}}{\partial{z}}\frac{\partial{z}}{\partial{w}}$ 的链式法则，先调整到合适的 $\frac{\partial{l}}{\partial{w}}=(\frac{\partial{z}}{\partial{w}})^T\frac{\partial{l}}{\partial{z}}$ 再计算。 $z = y - Xw$ 对 $w$ 求偏导，结果肯定是 $- X$ 或 $- X$ 的转置，根据布局要求应该是 $- X$ ； $l=z^Tz$ 对 $z$ 求导是 $2 z$ 或它的转置，布局要求确定是 $2 z$ 。因此 $l$ 对 $w$ 求偏导结果是 $2X^Tz=2X^T(Xw-y)$

实际数据大多数情况下 $X^TX$ 都不可逆，会产生多种多个 $w$ 的最优解，常见的做法是引入正则化项解决

xMat = mat(xArr); yMat = mat(yArr).T
xTx = xMat.T*xMat
if linalg.det(xTx) == 0.0:
    print "This matrix is singular, cannot do inverse"
    return
ws = xTx.I * (xMat.T*yMat)
return ws

随机变量 $X$ 和 $Y$ 的相关系数 $\rho$ （皮尔逊相关系数）是 $\rho =\frac{cov(X,Y)}{\sqrt(var(X)(var(Y)))}=\frac{cov(X,Y)}{\sigma_X\sigma_Y}$ ，只衡量线性关系，它是对协方差的标准化，可以用来衡量回归的优劣

期望的线性： $E(ag_1(X)+bg_2(X)+c)=aEg_1(X)+bEg_2(X)+c$ ，且 $E [X + Y] = E [X] + E [Y]$ ，不要求 $X$ 和 $Y$ 独立

方差是 $X$ 的二次中心矩， $Var(X)=E[(X-\mu_X)^2]=E[X^2]-(E[X])^2$ ， $Var(aX+b)=a^2Var(X)$

$COV(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]=E[XY-\mu_YX-\mu_XY+\mu_X\mu_Y]=E[XY]-\mu_YE[X]-\mu_XE[Y]+\mu_X\mu_Y=E[XY]-\mu_X\mu_Y$

corrcoef(yHat.T,yMat)

岭回归在 $X^TX$ 的基础上加 $\lambda I$ 使矩阵矩阵非奇异，进而能对 $X^TX+\lambda I$ 求逆（第八点），它也是一种正则化方法，从贝叶斯优化角度看，相当于加入了高斯先验，用最大后验估计来估计参数，lasso回归加入了不可导项，需要使用特殊方法优化，比如前向逐步回归尝试对权重加加减减，如果 $l oss$ 减少，就应用这种变化，也可以用其他方式优化（也介绍了岭回归的梯度下降优化，很值得一看）

    for i in range(numIt):
        print ws.T
        lowestError = inf; 
        for j in range(n):
            for sign in [-1,1]:
                wsTest = ws.copy()
                wsTest[j] += eps*sign
                yTest = xMat*wsTest
                rssE = rssError(yMat.A,yTest.A)
                if rssE < lowestError:
                    lowestError = rssE
                    wsMax = wsTest
        ws = wsMax.copy()