[dataframe]python数据集中数据统计分析

目录

1.查看数据集的基本信息

2、显示前5行数据

3、查看数据集的统计信息

4、计算每类的个数

 5、对分组后的某列或者多列使用聚合函数


在机器学些中,当我们拿到一个数据集,尤其是关于分类的问题的数据集,有时需要进行数据分析,看看会不会存在数据不平衡等问题。下面将介绍一下,当我拿到有关我的课题时对数据集进行数据分析时用的几个函数。

数据集的部分如下所示:

1.查看数据集的基本信息

使用info()可以得到数据集的列名、行数、数据类型等。

import pandas as pd
data = pd.read_csv(r'E:\soundscapes.tsv', sep='\t')  # 替换自己文件实际位置
info = data.info()

运行结果:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32096 entries, 0 to 32095
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   filename     32096 non-null  object 
 1   onset        32096 non-null  float64
 2   offset       32096 non-null  float64
 3   event_label  32096 non-null  object 
dtypes: float64(2), object(2)
memory usage: 1003.1+ KB

2、显示前5行数据

head = data.head()
print(head)

运行结果:

  filename  onset  offset event_label
0    0.wav  4.151   4.410      Speech
1    0.wav  4.190   5.888         Dog
2    1.wav  0.000  10.000      Frying
3    1.wav  4.591   4.841      Dishes
4    1.wav  5.458   7.572      Speech
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值