from pandas import read_csv
from pandas import set_option
filename = 'pima.csv'
#这里为数据补充了文件头
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
#查看数据的维度
print(data.shape)
#查看数据的前10行
print(data.head(10))
#查看每一个字段的数据类型
print(data.dtypes)
#描述性统计,设置数据的精确度
#横向最多显示多少字符
set_option('display.width', 100)
set_option('precision', 4)
print(data.describe())
#数据分布统计(分类算法常用)
print(data.groupby('class').size())
#数据属性的相关性,0表示无关,1表示完全正相关,-1表示完全负相关,
# 当相关性较高时,考虑对特征进行降维处理
print(data.corr(method = 'pearson'))
#数据的分布分析,用skew方法来计算所有数据属性的高斯分布偏离情况,
# 数据接近0时,表示偏离较小
print(data.skew())