数据理解啊

from pandas import read_csv
from pandas import set_option
filename = 'pima.csv'
#这里为数据补充了文件头
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
#查看数据的维度
print(data.shape)
#查看数据的前10行
print(data.head(10))
#查看每一个字段的数据类型
print(data.dtypes)
#描述性统计,设置数据的精确度
#横向最多显示多少字符
set_option('display.width', 100)
set_option('precision', 4)
print(data.describe())
#数据分布统计(分类算法常用)
print(data.groupby('class').size())
#数据属性的相关性,0表示无关,1表示完全正相关,-1表示完全负相关,
# 当相关性较高时,考虑对特征进行降维处理
print(data.corr(method = 'pearson'))
#数据的分布分析,用skew方法来计算所有数据属性的高斯分布偏离情况,
# 数据接近0时,表示偏离较小
print(data.skew())

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值