python可视化、数据描述性统计分析、seanborn、scipy,spsspro必杀

最近在学习b站沐神的动手学深度学习课程,进程来到实战kaggle房价预测。准备在数据分析和预处理这部分扩充下自己的实操技能,多学习点python可视化、数据描述性统计分析的方法,了解熟悉下python的一些库。

 

参考书籍:README - 利用Python进行数据分析·第2版

数据描述性统计分析+可视化

print(train_data.shape)
print(test_data.shape)
train_data.info()


(1460, 81)
(1459, 80)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 

 这里只显示了部分,可以看到训练集总共有81列,除去ID,有80列,测试集比训练集少个SalePrice列.

  • 数据集中既有int/float型的定量变量,也有object类型的定性变量,我们需要针对不同类型的变量做不同的描述统计
  • 定量数据直方图分析
  • numeric_features = [feature for feature in train_data.columns if train_data.dtypes[feature] != 'object']
    object_features = [feature for feature in train_data.columns if train_data.dtypes[feature] == 'object']
    numeric_features.remove('Id')
    numeric_features.remove('SalePrice')
    
    numeric = pd.melt(train_data, value_vars=numeric_features)
    """
    pd.melt():将宽数据变成长数据
    
    pd.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)
    
    参数说明:
    frame:就是需要处理的数据集df
    id_vars:不需要转换的列名
    value_vars:需要转换的列名
    var_name:自定义列名
    value_name:自定义的值的列名
    col_level:如果列是MultiIndex,则使用此级别
    """
    g=sns.FacetGrid(numeric, col='variable', col_wrap= 4, sharex=False, sharey = False)
    g.map(sns.distplot, 'value')

Seanborn统计数据可视化

seaborn: statistical data visualization — seaborn 0.11.2 documentation

scipy

SPSSPRO一个超级强大的在线数据统计分析网站

SPSSPRO-免费专业的在线数据分析平台

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值