线性学习
回归分析是研究自变量x与因变量y的关系的方法。
线性回归模型的公式为:
$ y=w^T X +b$
在实际案例中,我们发现线性回归模型有时很难去拟合一些非线性关系的实际问题,例如自变量x和因变量y之间存在周期性变化规律的场景,比如时间与温度的关系的等。
多项式回归模型
现在我们将一维特征进行拓展,拓展到多维特征,这样就可以拟合非线性数据了,这样我们得到的模型称为多项式回归模型。如果自变量只有一个时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。
多项式回归python实现
案例根据
y
=
0.5
+
x
2
+
x
+
2
y = 0.5 + x^2 + x + 2
y=0.5+x2+x+2 函数,引入随机误差后生成了100个样本点。图示中样本点明显具有非线性的规律,在使用一元线性回归模型拟合时,误差极大,我们在模型训练时引入了
X
,
X
2
,
X
3
X,X^2,X^3
X,X2,X3作为自变量,去拟合因变量y,发现效果不错。构造自变量的多项式也是特征工程的常用手段。
import numpy as np
import matplotlib.pyplot as plt
x = np.random.uniform(-3, 3, size=100)
X = x.reshape(-1, 1)
y = 0.5 + x**2 + x + 2 + np.random.normal(0, 1, size=100)
plt.scatter(x, y)
plt.show()
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X, y)
y_predict = lin_reg.predict(X)
plt.scatter(x, y)
plt.plot(x, y_predict, color='r')
plt.show()
# 创建一个新的特征
print((X**2).shape)
# 凭借一个新的数据数据集
X2 = np.hstack([X,X**2,X**3])
# 用新的数据集进行线性回归训练
lin_reg2 = LinearRegression()
lin_reg2.fit(X2, y)
y_predict2 = lin_reg2.predict(X2)
plt.scatter(x, y)
plt.plot(np.sort(x), y_predict2[np.argsort(x)], color='r')
plt.show()
广义线性回归模型
如果我们仍然想使用线性函数进行拟合,又想将实际问题拟合的更好,那么我们可以将线性函数的预测值再做一个非线性函数变换,去逼近真实值,这样我们得到的模型就是广义线性回归模型,公式为:
$ y=g(w^T X +b)$
对数线性回归模型
这里g函数称为联系函数,理论上g函数可以是任意函数,当g函数被指定为指数函数时,得到的回归模型被称为对数线性回归模型,公式如下:
$ y=e{wT X +b}$ 或 $ ln{y}=w^T X +b$