机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
本例显示如何使用cross_val_predict
函数可视化模型预测误差。这里要用到scikit-learn
自带数据集——“波士顿房价数据集”。
数据集介绍
“波士顿房价数据集”位于datasets
里,包括13个特征。首先,我们来看一看这个数据集的属性的详细信息。
from sklearn import datasets
boston = datasets.load_boston()
print(boston.DESCR)
打印结果显示:该数据集共有13个属性(特征)、506个实例(样本)。MEDV
是目标变量,表示自住房屋房价的中位数(以千美元计)。下面列出所有14个属性的详细信息。
-
CRIM:城镇人均犯罪率。
-
ZN:住宅用地超过 25000 sq.ft. 的比例。
-
INDUS:城镇非零售商用土地的比例。
-
CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。
-
NOX:一氧化氮浓度。
-
RM:住宅平均房间数。
-
AGE:1940 年之前建成的自用房屋比例。
-
DIS:到波士顿五个中心区域的加权距离。
-
RAD:辐射性公路的