在进行数据分析之前,需要先查看数据的信息,这样才方便后续的数据处理。
比如,在excel表中20220520是一个常规类型的数据,那它导入到DataFrame中是int类型还是str类型呢?如果没有提前辨认清楚,把int类型的数据当作str类型的数据处理,报错后还需要再更正。
因此,最好按部就班的在进行数据清洗之前,先明确好导入到DataFrame中数据,也就是后面要处理的数据是什么类型的?是否有空值?有多少空值?
使用pandas中的DataFrame.info()方法来获取DataFrame对象的简单摘要信息。
原数据如下图:
在excel中这两列数据格式为常规,下面将数据导入并查看数据摘要信息。
import pandas as pd
# 导入信息,这里以excel为例
data = pd.read_excel("test.xlsx", sheet_name = "sheet1")
# 使用DataFrame.info()查看数据摘要
print(data.info())
将显示出如下的结果:
第一行:&l