机器学习记录之线性回归

最新推荐文章于 2024-07-09 10:41:20 发布

来梦桃子

最新推荐文章于 2024-07-09 10:41:20 发布

阅读量2.3k

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45369385/article/details/109644806

版权

写在前面的：

学习了大半学期的机器学习，通过这一次线性回归的学习过程，理一理思路，进行一个小总结，主要思路是先梳理一下老师给的两份代码，然后再进行梯度下降的实现。

线性回归

线性回归是一种 $x 和 y$ 之间的关系为线性关系的回归分析。

实现线性回归的步骤：

提取特征和标签
建立训练数据和测试数据
使用训练数据训练模型

方法一：使用方程

参考老师给的代码 testLinearRegAndTrainTest.py

1.建立有序的二维数据结构

#第一个参数为特征，第二个参数为标签
examDict={
   
    '学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,
            2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
    '分数':    [10,  22,  13,  43,  20,  22,  33,  50,  62,
              48,  55,  75,  62,  73,  81,  76,  64,  82,  90,  93]
}
examOrderDict=OrderedDict(examDict)
exam=pd.DataFrame(examOrderDict)

因为字典本身是无序的，所以我们可以使用OrderDict使得其变得有序，同时使用Pandas的DataFrame可以将数据集转成二维数据结构进行处理。

2.提取出特征和标签

#从dataframe中把标签和特征导出来
exam_X = exam['学习时间']
exam_Y = exam['分数']

在这里第一个参数为特征，第二个参数为标签；特征就是数据的属性，标签是对数据的预测结果；例如：一件衣服，颜色和款式是特征，我喜不喜欢就是标签；一个水果，色泽和大小是特征，好不好吃就是标签。

3.建立训练数据和测试数据

#绘制散点图，得出结果后记得注释掉以下4行代码
plt.scatter(exam_X, exam_Y, color = 'green')
#设定X,Y轴标签和title
plt.ylabel('Scores')
plt.xlabel('Times(h)')
plt.title('Exam Data')
plt.show()

#划分训练集与测试集。
#比例为7：3
X_train, X_test, Y_train, Y_test = train_test_split(exam_X,exam_Y, train_size = 0.7)
#导入线性回归
#sklearn 要求输入的特征为二维数组类型。
#数据集只有1个特征，需要用array.reshape(-1, 1)来改变数组的形状

#改变一下数组的形状
X_train = X_train.values.reshape(-1, 1)
X_test = X_test.values.reshape(-1, 1)

首先需要从样本中随机的按比例选取训练数据（train）和测试数据（test），在这里比例是7:3；我们需要使用使用交叉验证中的(sklearn.model_selection)中的train_test_split。

(x_train、x_test、y_train、y_test 各分配到一定比例的数据）

train_test_split三个参数：
参数1：所要划分的样本特征
参数2：所要划分的标签特征
参数3：train_size= 小数（训练数据的占比)；整数（样本的数量）

4.使用训练数据训练模型

#创建一个模型
model = LinearRegression()
#训练一下
model.fit(X_train, Y_train)

#因为线性回归一般方程为y = a+bx
#b为斜率，a为截距
#截距用intercept_
#斜率用model.coef_
a = model.intercept_
b = model.coef_
a = float(a)
b = float(b)
print('该模型的简单线性回归方程为y = {} + {} * x'.format(a, b))

#绘制散点图
plt.scatter(exam_X, exam_Y, color = 'green', label = 'train data')
#设定X,Y轴标签和title
plt.ylabel('Scores')
plt.xlabel('Times(h)')

#绘制最佳拟合曲线
Y_train_pred = model.predict(X_train)
plt.plot(X_train, Y_train_pred, color = 'black', label = 'best line')

创建模型使用使用sklearn.linear_model中的LinearRegression导入线性回归并创建训练模型，使用fit函数训练模型。

5.使用测试数据进行模型评估

##测试
jingdu

最低0.47元/天解锁文章

来梦桃子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习记录之线性回归

线性回归实现线性回归的步骤：提取特征和标签建立训练数据和测试数据使用训练数据训练模型方法一：使用方程参考老师给的代码 testLinearRegAndTrainTest.py1.建立有序的二维数据结构#第一个参数为特征，第二个参数为标签examDict={ '学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25, 2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5
复制链接

扫一扫