(一)利用datasets的数据集进行训练和预测
先引入
from __future__ import print_function
from sklearn import datasets
from sklearn.linear_model import LinearRegression
下一步
#加载数据
loaded_data = datasets.load_boston()#datasets里boston房价的数据集
#形式:datasets.xxx() #datasets.make_xxx()
data_X = loaded_data.data
data_y = loaded_data.target#这也是固定的形式
#定义模型
model = LinearRegression()# 线性回归的模型
model.fit(data_X, data_y)#用这个模型去学习!
#训练完毕
print(model.predict(data_X[:4, :]))#预测值
print(data_y[:4])#真实值
这个就是最终的训练结果,对比起来看
为了提高准确度,可以通过尝试不同的 model,不同的参数,不同的预处理等方法,入门的话可以直接用默认值。
# [ 30.00821269 25.0298606 30.5702317 28.60814055]
# [ 24. 21.6 34.7 33.4]
(二)
创建虚拟数据-可视化(创建数据)
#先引入模块
import matplotlib.pyplot as plt
X, y = datasets.make_regression(n_samples=100, n_features=1, n_targets=1, noise=10)
#可以观察noise的数值来体会噪声的影响
plt.scatter(X, y)#散点图
plt.show()