首先应该使用pandas加载数据。
pd.read_csv(csv_path)
这个函数会返回一个包含所有数据的Pandas DataFrame对象。
以下的方法都是基于这个对象的。
假如我们将数据都存储在housing这个Pandas DataFrame对象中:
housing.head()
会返回数据的前五行内容housing.info()
方法可以快速获取数据集的简单描述,特别是总行数,每个属性的类型和非空值得数量。- 可以使用
value_counts()
方法查看有多少种分类存在,每种类别下分别有多少个。 - 通过
describe()
方法可以显示数值属性的摘要 - 可以在整个数据集上调用hist()方法,绘制每个属性的直方图
housing.hist(bins=50, figsize=(20, 15))
hist()方法完全依赖于matplotlib,故需要导入这个头文件。bins指bin(箱子)的个数,即每张图柱子的个数。figsize指每张图的尺寸大小 corr_matrix = housing.corr()
使用corr()方法放松计算出每对属性之间的标准相关系统(也称为皮尔逊相关系数)- drop()
housing.drop(['id'], axis=1)
删除id的列