目录
在机器学些中,当我们拿到一个数据集,尤其是关于分类的问题的数据集,有时需要进行数据分析,看看会不会存在数据不平衡等问题。下面将介绍一下,当我拿到有关我的课题时对数据集进行数据分析时用的几个函数。
数据集的部分如下所示:
1.查看数据集的基本信息
使用info()可以得到数据集的列名、行数、数据类型等。
import pandas as pd
data = pd.read_csv(r'E:\soundscapes.tsv', sep='\t') # 替换自己文件实际位置
info = data.info()
运行结果:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32096 entries, 0 to 32095
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 filename 32096 non-null object
1 onset 32096 non-null float64
2 offset 32096 non-null float64
3 event_label 32096 non-null object
dtypes: float64(2), object(2)
memory usage: 1003.1+ KB
2、显示前5行数据
head = data.head()
print(head)
运行结果:
filename onset offset event_label
0 0.wav 4.151 4.410 Speech
1 0.wav 4.190 5.888 Dog
2 1.wav 0.000 10.000 Frying
3 1.wav 4.591 4.841 Dishes
4 1.wav 5.458 7.572 Speech