pandas读取csv文件时,使用的read_csv函数的参数。
1,skiprows参数,可以用于指定跳过csv文件的头部的前几行。
CSV_FILE_PATH = './test.csv'
df = pd.read_csv(CSV_FILE_PATH, skiprows=1)
print(df.head(5)) ---用于指定读取前五行数据。
2,pandas可以自动推断每个column的数据类型
print('datatype of column hit is: ' + str(df['hit'].dtypes)) ---可以查看。
3,pandas对非空数据转换为NAN.
只需要通过na_value参数指定占位符,pandas便会在读入数据的过程中自动将这些占位符转换成NaN,从而不 影响pandas对column数据类型的正确判断。
df = pd.read_csv(CSV_FILE_PATH, skiprows=0, na_values=['missing')
4,pandas读取文件时,读取部分列数据。
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import pandas as pd
from pandas import DataFrame as df
path=u'G:\\季风研究\\SZ\\SZ\\SZ.csv' #文件路径
file=open(path, errors='ignore') #这里不忽略errors会报错
data=pd.read_csv(file, usecols=['DDATETIME', 'OBTID', 'WD3SMAXDF', 'WD3SMAXDD', 'WD10MAXDF', 'WD10MAXDD']) #usecols是想要读取的列(其中的字符串是文件第一行的内容),那么data中则只保存这几列的数据
5,pandas读取文件前N行数据。
pd.read_csv(路径,skiprows=9,nrows=10),忽略前9行,往下读10行
6,读取dateframe前N行数据。
df.head(5
读取dateframe后N行数据。
csv_batch_data = data.tail(N) # 取后N条数据
参数详解:
pandas.read_csv参数详解
pandas.read_csv参数整理
读取CSV(逗号分割)文件到DataFrame
也支持文件的部分导入和选择迭代
更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html
参数:
filepath_or_buffer : str,pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a read() method (such as a file handle or StringIO)
可以是URL,可用URL类型包括:http, ftp, s3和文件。对于多文件正在准备中
本地文件读取实例:?/localhost/path/to