以下是一组用于回归的方法,其中目标值预计为特征的线性组合。用数学符号表示,如果y是预测值。
在整个模块中,我们指定向量w = (w1, …, wp) 作为coef_和作为intercept_。
要使用广义线性模型执行分类,请参阅 Logistic回归。
1.1.1 普通最小二乘法
LinearRegression适合用的系数的线性模型 w = (w1, …, wp),以尽量减少在数据集中观察到的目标,并通过线性近似预测的目标之间的平方的总和残留。从数学上讲,它解决了以下形式的问题:
LinearRegression将采用其fit方法数组X,y并存储系数线性模型的 coef_成员:
>>> from sklearn import linear_model
>>> reg = linear_model.LinearRegression()
>>> reg.fit([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
...
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
normalize=False)
>>> reg.coef_
array([0.5, 0.5])
普通最小二乘的系数估计取决于特征的独立性。当要素相关并且设计矩阵的列X
Example
本示例仅使用diabetes数据集的第一个特征,以说明此回归技术的二维图。可以在图中看到直线,该直线显示了线性回归如何尝试绘制一条直线,该直线将最大程度地减少数据集中观察到的响应与线性近似预测的响应之间的残差平方和。
print(__doc__)
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score
# Load the diabetes dataset
diabetes = datasets.load_diabetes()
# Use only one feature
diabetes_X = diabetes.data[:, np.newaxis, 2]
# Split the data into training / testing sets
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]
# Split the target into training / testing sets
diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]
# Creat linear regression object
regr = linear_model.LinearRegression()
# Train the model using the training sets
regr.fit(diabetes_X_train, diabetes_y_train)
# Make predictions using the testing set
diabetes_y_pred = regr.predict(diabetes_X_test)
# The coefficients
print('Coefficients: \n', regr.coef_)
# The mean squared error
print("Mean squared error: %.2f" %mean_squared_error(diabetes_y_test, diabetes_y_pred))
# Explained variance score: 1 is perfect prediction
print('Variance score: %.2f' %r2_score(diabetes_y_test, diabetes_y_pred))
# Plot outputs
plt.scatter(diabetes_X_test, diabetes_y_test, color='black')
plt.plot(diabetes_X_test, diabetes_y_pred, color='blue', linewidth=3)
plt.xticks(())
plt.yticks(())
plt.show()