转载地址:https://www.jianshu.com/p/ffde7c058678
常用pandas知识点回顾
1、读取csv文件,用pd.read_csv()即可,参数值有:
filepath_or_buffer=‘文件的路径’
sep=’,’,文件中列与列之间的分隔符,一般是逗号或者’\t’
skiprows=1,跳过第一行描述性语句
nrows=5,只读取前5行数据,若不指定,则读取全部数据。调试程序的时候常用,先读一部分,把代码写完再说。
parse_dates=[‘交易日期’],将交易日期这一列的内容转化为日期格式。如果不写这个参数,则导入的该列将是string的格式。
index_col=[‘交易日期’],将交易日期这一列指定为index
usecols=[‘交易日期’,‘股票名称’],只读取某些列的数据
error_bad_lines=False, 当遇到低质量的数据,程序会报错,加上这个参数后,程序就会跳过报错的数据行,然后继续读取后面的数据,使程序能够正常运行下去。
na_values = null,将数据中的null全部识别为空值。
2、看df的形状,用df.shape,返回有多少行多少列。查看有多少行,用df.shape[0],查看有多少列,用’df.shape[1]`。
3、显示每一行或每一列的名字,用df.index或df.columns。在for循环中常用。
4、查询每一列数据的类型,用df.dtypes。
5、随机抽几行数据来看看,用df.sample(n&