多元线性回归题目

最新推荐文章于 2021-12-28 23:31:33 发布

最新推荐文章于 2021-12-28 23:31:33 发布

阅读量685

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_45884316/article/details/110249985

版权

机器学习专栏收录该内容

36 篇文章 24 订阅

订阅专栏

自定义多元回归函数linearRegression，要求输入参数为 $X$ 和 $y$ ，分别为xArr和yArr，输出为参数 $w s$
已知最小二乘法的解为：
$\hat{\boldsymbol{w}} = (\mathbf{X}^{\text{T}} \mathbf{X})^{-1}\mathbf{X}^{\text{T}} \boldsymbol{y}$
使用美国医疗保险费数据insurance.csv的连续型特征age、bmi和children作为输入特征，目标特征为charges，根据linearRegression得到回归参数向量ws
(1)注意判断 $(\mathbf{X}^{\text{T}} \mathbf{X})^{-1}$ 是否存在
(2)为了得到模型的截距，需要在数据矩阵X中添加一列，并且该列所有行的值都为1：np.column_stack((X,ones(X.shape[0])))
比较sklearn运行的结果跟自定义函数的输出结果是否一致

from sklearn import linear_model
from numpy import mat, linalg, column_stack, ones
import pandas as pd
insurance = pd.read_csv('insurance.csv')

# 定义多元线性回归函数
def linearRegression(xArr,yArr):
    xMat = mat(xArr)
    yMat = mat(yArr).T
    xTx = xMat.T*xMat
    if linalg.det(xTx) == 0.0:
        print "singular matrix, can't do inverse"
    ws = linalg.solve(xTx, xMat.T*yMat)
    return ws

# 模型训练，得到参数值
X = insurance[['age', 'bmi', 'children']].values
X = column_stack((X,ones(X.shape[0])))
y = insurance['charges']
ws = linearRegression(X, y)
print ws

# sklearn的训练结果
regr = linear_model.LinearRegression()
regr.fit(X, y)
print regr.coef_
print regr.intercept_

[[ 239.99447429]
[ 332.0833645 ]
[ 542.86465225]
[-6916.24334779]]
[239.99447429 332.0833645 542.86465225 0. ]
-6916.243347787033

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录