写在前面的:
学习了大半学期的机器学习,通过这一次线性回归的学习过程,理一理思路,进行一个小总结,主要思路是先梳理一下老师给的两份代码,然后再进行梯度下降的实现。
线性回归
线性回归是一种 x 和 y x和y x和y之间的关系为线性关系的回归分析。
实现线性回归的步骤:
- 提取特征和标签
- 建立训练数据和测试数据
- 使用训练数据训练模型
方法一:使用方程
参考老师给的代码 testLinearRegAndTrainTest.py
1.建立有序的二维数据结构
#第一个参数为特征,第二个参数为标签
examDict={
'学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,
2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
'分数': [10, 22, 13, 43, 20, 22, 33, 50, 62,
48, 55, 75, 62, 73, 81, 76, 64, 82, 90, 93]
}
examOrderDict=OrderedDict(examDict)
exam=pd.DataFrame(examOrderDict)
因为字典本身是无序的,所以我们可以使用OrderDict使得其变得有序,同时使用Pandas的DataFrame可以将数据集转成二维数据结构进行处理。
2.提取出特征和标签
#从dataframe中把标签和特征导出来
exam_X = exam['学习时间']
exam_Y = exam['分数']
在这里第一个参数为特征,第二个参数为标签;特征就是数据的属性,标签是对数据的预测结果;例如:一件衣服,颜色和款式是特征,我喜不喜欢就是标签;一个水果,色泽和大小是特征,好不好吃就是标签。
3.建立训练数据和测试数据
#绘制散点图,得出结果后记得注释掉以下4行代码
plt.scatter(exam_X, exam_Y, color = 'green')
#设定X,Y轴标签和title
plt.ylabel('Scores')
plt.xlabel('Times(h)')
plt.title('Exam Data')
plt.show()
#划分训练集与测试集。
#比例为7:3
X_train, X_test, Y_train, Y_test = train_test_split(exam_X,exam_Y, train_size = 0.7)
#导入线性回归
#sklearn 要求输入的特征为二维数组类型。
#数据集只有1个特征,需要用array.reshape(-1, 1)来改变数组的形状
#改变一下数组的形状
X_train = X_train.values.reshape(-1, 1)
X_test = X_test.values.reshape(-1, 1)
首先需要从样本中随机的按比例选取训练数据(train)和测试数据(test),在这里比例是7:3;我们需要使用使用交叉验证中的(sklearn.model_selection)中的train_test_split。
(x_train、x_test、y_train、y_test 各分配到一定比例的数据)
train_test_split三个参数:
参数1:所要划分的样本特征
参数2:所要划分的标签特征
参数3:train_size= 小数(训练数据的占比);整数(样本的数量)
4.使用训练数据训练模型
#创建一个模型
model = LinearRegression()
#训练一下
model.fit(X_train, Y_train)
#因为线性回归一般方程为y = a+bx
#b为斜率,a为截距
#截距用intercept_
#斜率用model.coef_
a = model.intercept_
b = model.coef_
a = float(a)
b = float(b)
print('该模型的简单线性回归方程为y = {} + {} * x'.format(a, b))
#绘制散点图
plt.scatter(exam_X, exam_Y, color = 'green', label = 'train data')
#设定X,Y轴标签和title
plt.ylabel('Scores')
plt.xlabel('Times(h)')
#绘制最佳拟合曲线
Y_train_pred = model.predict(X_train)
plt.plot(X_train, Y_train_pred, color = 'black', label = 'best line')
创建模型使用使用sklearn.linear_model中的LinearRegression导入线性回归并创建训练模型,使用fit函数训练模型。
5.使用测试数据进行模型评估
##测试
jingdu