机器学习之线性回归
前言
这个文章主要介绍的是多元线性回归用numpy的实现,借鉴了一些大佬的文章。不足之处很多,请多包涵!
线性回归的理解
线性回归:包括一元线性回归和多元线性回归。
一元线性回归:如 y=bx+a 只有一个x和y。
多元线性回归:如 y=b1x+b2x+b3x…+a 有多个x和一个y
一元线性回归即找到一条能最大拟合的直线。这条直线最好能把所有的点都放上去,但这是不可能的,于是就有了loss(误差)。
误差的表示:
loss=|y-(bx+a)| 即 每个点到直线距离最小的那条,把它转化为平方会更简单,然后取平均值。
loss=1/n[|y1-(bx1+a)|+|y2-(bx2+a)|+|y3-(bx3+a)|…+|yi-(bxi+a)|]
然后,通过这个式子求b和a.
最小二乘法
通过求偏导算出关于b和a的式子。
梯度下降法
这是在大佬的文章里学到的,很有意思。通过梯度下降法求b和a,通过一步一步的迭代,慢慢的去靠近到那条最优直线。
梯度即上面的两个公式,定义步长,每次找多大,定义迭代值,找多少次。
实现多元线性回归
阅读了大佬的文章后发现矩阵运算能更好的实现多元线性回归。
学了线性代数的对矩阵运算更熟悉,这里对矩阵运算不做过多讲解。
假设 y=b1x1+b2x2+b3x3…bnxn+a 一共n项,用矩阵实现即:
X=[x1,x2,…xn],B=[b0,b1…bn] 那么X*B.T+b=[b1x1+b1x1+…+bnxn+a]
若为n组x 则:
[x00,x01,…x0n]
X=[x11,x12,…x1n]
…
[x(n-1)1,x(n-1)2,…x(n-1)n]
[b0x00,b0x01,…b0x0n+a]
B=[b1x11,b1x12,…b1x1n+a]
…
[bnx(n-1)1,bnx(n-1)2,…bnx(n-1)n+a]
python实现
初始化b和a
data_x即输入的数据。要使b和x能相乘需要b和x的数目相同,即有n个x,就有n个b。假设X=[x0,x1…,xn],则 B=[b0,b1…,bn] x与B的转置相乘后得到:
b0x0+b1x1+…+bnxn 即
计算loss
求出b和a
这里的b和a即是对上面两个偏导的实现。
然后对a和b进行更新:
代码
一元线性回归
关于一元线性回归依旧可以沿用上述方法,将多组x变为一组x即可。
数据取不合适时误差很大。
到此,这篇文章结束,多谢阅读!