转载:
来源于:线性回归之最小二乘法
线性回归
线性回归是很常见的一种回归,线性回归可以用来预测或者分类,主要解决线性问题。
最小二乘法
线性回归过程主要解决的就是如何通过样本来获取最佳的拟合线。最常用的方法便是最小二乘法,它是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。
代
标题 ##数推导:
-
假设拟合直线为: y = a x + b y=ax+b y=ax+b
-
对任意样本点(xi,yi),误差为: e = y i − ( a x i + b ) e=y_i−(ax_i+b) e=yi−(axi+b)
-
当$S=∑_{i=1}{n}n_i=∑e_i2 为 最 小 时 拟 合 度 最 高 , 即 为最小时拟合度最高,即 为最小时拟合度最高,即∑_{i=1}{n}n_i=(y_i−ax_i−b)2$最小。
-
分别求一阶偏导
∂ S / ∂ b = − 2 ( ∑ i = 1 n y i − n b − a ∑ i = 1 n n x i ) ∂S/∂b=−2(∑_{i=1}^ny_i−nb−a∑_{i=1}^nnx_i) ∂S/∂b=−2(i=1∑nyi−nb−ai=1∑nnxi)
∂ S / ∂ a = − 2 ( ∑ i = 1 n x i y i − b ∑ i = 1 n x i − a ∑ i = 1 n x i 2 ) ∂S/∂a=−2(∑_{i=1}^nx_iy_i−b∑_{i=1}^nx_i−a∑_{i=1}^nx_i^2) ∂S/∂a=−2(i=1∑nxiyi−bi=1∑nxi−ai=1∑nxi2) -
分别让上面两式等于0,并且有 n x ¯ = ∑ i = 1 n x i nx¯=∑^n_{i=1}x_i nx¯=∑i=1nxi, n y ¯ = ∑ i = 1 n y i ny¯=∑^n_{i=1}y_i ny¯=∑i=1nyi
-
得到最终解
结果也可以如下:
代码实现如下:
import numpy as np
import matplotlib.pyplot as plt
def calcAB(x,y):
n = len(x)
sumX,sumY,sumXY,sumXX =0,0,0,0
for i in range(0,n):
sumX += x[i]
sumY += y[i]
sumXX += x[i]*x[i]
sumXY += x[i]*y[i]
a = (n*sumXY -sumX*sumY)/(n*sumXX -sumX*sumX)
b = (sumXX*sumY - sumX*sumXY)/(n*sumXX-sumX*sumX)
return a,b,
xi = [1,2,3,4,5,6,7,8,9,10]
yi = [10,11.5,12,13,14.5,15.5,16.8,17.3,18,18.7]
a,b=calcAB(xi,yi)
print("y = %10.5fx + %10.5f" %(a,b))
x = np.linspace(0,10)
y = a * x + b
plt.plot(x,y)
plt.scatter(xi,yi)
plt.show()
矩阵推导
代码实现:
import numpy as np
import matplotlib.pyplot as plt
x = [1,2,3,4,5,6,7,8,9,10]
y = [10,11.5,12,13,14.5,15.5,16.8,17.3,18,18.7]
A = np.vstack([x,np.ones(len(x))]).T
a,b = np.linalg.lstsq(A,y)[0]
print("y = %10.5fx + %10.5f" %(a,b))
x = np.array(x)
y = np.array(y)
plt.plot(x,y,'o',label='data',markersize=10)
plt.plot(x,a*x+b,'r',label='line')
plt.show()