机器学习使用样本数据集训练模型:
- 如果数据集出现问题,那么训练结果也会出现问题(garbage in, garbage out.);
- 通常需要对数据集进行检查,对有问题的数据集进行预处理;
加载并浏览数据集
举例:
```
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
house = pd.read_csv('data\\boston.csv')
print(house.shape)
```
数据项说明
- CRIM:城镇人均犯罪率;
- ZN:住宅用地超过25000的比例;
- INDUS:城镇非零售商用土地的比例;
- CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0);
- NOX:一氧化氮浓度;
- RM:住宅平均房间数;
- AGE:1940年之前建成的自用房屋比例;
- DIS:到波士顿五个中心区域的加权距离;
- RAD:辐射性公路的接近指数;
- TAX:每10000美元的全值财产税率;
- PTRATIO:城镇师生比例;
- B:1000(Bk-0.63)^ 2,其中 Bk