线性回归—

最新推荐文章于 2024-10-14 23:40:45 发布

君子与时偕行

最新推荐文章于 2024-10-14 23:40:45 发布

阅读量95

点赞数

分类专栏：数据挖掘文章标签：线性回归 python 机器学习

本文链接：https://blog.csdn.net/weixin_51429926/article/details/125403808

版权

数据挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.普通线性回归

分类的目标变量是标称型数据，而回归将会对连续型的数据做出预测。

应当怎样从一大堆数据里求出回归方程呢？

假定输人数据存放在矩阵X中，而回归系数存放在向量W中。那么对于给定的数据X1, 预测结果将会通过

Y=X*W

给出。现在的问题是，手里有一些X和对应的Y,怎样才能找到W呢？

一个常用的方法就是找出使误差最小的W。这里的误差是指预测Y值和真实Y值之间的差值，使用该误差的简单累加将使得正差值和负差值相互抵消，所以我们采用平方误差。

最小二乘法

平方误差可以写做:

对W求导，当导数为零时，平方误差最小，此时W等于：

例如有下面一张图片：

求回归曲线，得到：

实例：

from sklearn.datasets import load_diabetes
from pandas import DataFrame
from sklearn.model_selection import train_test_split

diabetes = load_diabetes()
data = diabetes.data
target = diabetes.target
feature_names = diabetes.feature_names


df=DataFrame(data=data,columns=feature_names)
X_train,X_test,y_train,y_test=train_test_split(data,target,test_size=42)

# 创建模型
linear=LinearRegression()
linear.fit(X_train,y_train)

linear.predict(X_test)

linear.score(X_test,y_test)

linear.score(X_train,y_train)

linear.coef_

linear.intercept_

# 研究每个特征和标记之间的关系
# 用每个特征作为训练数据
plt.figure(figsize=(2*6,4*5))
for i,col in enumerate(feature_names,1):
    # 取数据
    X_train=df[[col]]
    linear=LinearRegression()
    linear.fit(X_train,target)
    
    # 生成预测数据
    X_test=np.linspace(X_train.min(),X_train.max(),100).reshape(-1,1)
    y_=linear.predict(X_test)
    
    # 画图
    axes=plt.subplot(5,2,i)
    axes.scatter(X_train,target)
    axes.plot(X_test,y_,c='r')
    score=linear.score(X_train,target)
    axes.set_title(col+str(i))