#Simple Linear Regression
github: 100-Days-Of-ML-Code
假设X和Y之间是线性关系,基于自变量(independent variables)X,预测因变量(dependent variable)Y。
目标是寻找最佳的线形关系,寻找线形关系使得预测值与实际值距离最小。
##1.数据预处理
- 导入Libraries
- 导入数据集
- 处理缺失数据
- 分割数据集
- 特征归一化
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
dataset = pd.read_csv('studentscores.csv')
X = dataset.iloc[ : , : 1 ].values
Y = dataset.iloc[ : , 1 ].values
from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0)
##2.使用线形模型拟合训练数据
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor = regressor.fit(X_train,Y_train)
##3.预测数据
使用前面训练的模型