机器学习记录之线性回归

写在前面的:

学习了大半学期的机器学习,通过这一次线性回归的学习过程,理一理思路,进行一个小总结,主要思路是先梳理一下老师给的两份代码,然后再进行梯度下降的实现。

线性回归

线性回归是一种 x 和 y x和y xy之间的关系为线性关系的回归分析。

实现线性回归的步骤:

  1. 提取特征和标签
  2. 建立训练数据和测试数据
  3. 使用训练数据训练模型
方法一:使用方程

参考老师给的代码 testLinearRegAndTrainTest.py

1.建立有序的二维数据结构

#第一个参数为特征,第二个参数为标签
examDict={
   
    '学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,
            2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
    '分数':    [10,  22,  13,  43,  20,  22,  33,  50,  62,
              48,  55,  75,  62,  73,  81,  76,  64,  82,  90,  93]
}
examOrderDict=OrderedDict(examDict)
exam=pd.DataFrame(examOrderDict)

因为字典本身是无序的,所以我们可以使用OrderDict使得其变得有序,同时使用Pandas的DataFrame可以将数据集转成二维数据结构进行处理。

2.提取出特征和标签

#从dataframe中把标签和特征导出来
exam_X = exam['学习时间']
exam_Y = exam['分数']

在这里第一个参数为特征,第二个参数为标签;特征就是数据的属性,标签是对数据的预测结果;例如:一件衣服,颜色和款式是特征,我喜不喜欢就是标签;一个水果,色泽和大小是特征,好不好吃就是标签。

3.建立训练数据和测试数据

#绘制散点图,得出结果后记得注释掉以下4行代码
plt.scatter(exam_X, exam_Y, color = 'green')
#设定X,Y轴标签和title
plt.ylabel('Scores')
plt.xlabel('Times(h)')
plt.title('Exam Data')
plt.show()

#划分训练集与测试集。
#比例为7:3
X_train, X_test, Y_train, Y_test = train_test_split(exam_X,exam_Y, train_size = 0.7)
#导入线性回归
#sklearn 要求输入的特征为二维数组类型。
#数据集只有1个特征,需要用array.reshape(-1, 1)来改变数组的形状

#改变一下数组的形状
X_train = X_train.values.reshape(-1, 1)
X_test = X_test.values.reshape(-1, 1)

首先需要从样本中随机的按比例选取训练数据(train)和测试数据(test),在这里比例是7:3;我们需要使用使用交叉验证中的(sklearn.model_selection)中的train_test_split。

(x_train、x_test、y_train、y_test 各分配到一定比例的数据)

train_test_split三个参数:
参数1:所要划分的样本特征
参数2:所要划分的标签特征
参数3:train_size= 小数(训练数据的占比);整数(样本的数量)

4.使用训练数据训练模型

#创建一个模型
model = LinearRegression()
#训练一下
model.fit(X_train, Y_train)

#因为线性回归一般方程为y = a+bx
#b为斜率,a为截距
#截距用intercept_
#斜率用model.coef_
a = model.intercept_
b = model.coef_
a = float(a)
b = float(b)
print('该模型的简单线性回归方程为y = {} + {} * x'.format(a, b))

#绘制散点图
plt.scatter(exam_X, exam_Y, color = 'green', label = 'train data')
#设定X,Y轴标签和title
plt.ylabel('Scores')
plt.xlabel('Times(h)')

#绘制最佳拟合曲线
Y_train_pred = model.predict(X_train)
plt.plot(X_train, Y_train_pred, color = 'black', label = 'best line')

创建模型使用使用sklearn.linear_model中的LinearRegression导入线性回归并创建训练模型,使用fit函数训练模型。

5.使用测试数据进行模型评估

##测试
jingdu 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值