pandas读取csv文件数据

最新推荐文章于 2024-08-01 19:41:06 发布

孤数不证

最新推荐文章于 2024-08-01 19:41:06 发布

阅读量3.2k

点赞数

本文链接：https://blog.csdn.net/weixin_43668299/article/details/97113365

版权

本文详细介绍了pandas的read_csv函数，包括skiprows、自动推断数据类型、处理非空数据、部分读取列数据和行数据等功能。重点讲解了read_csv的参数，如sep、header、usecols、dtype等，帮助理解如何高效地读取和处理CSV文件。

摘要由CSDN通过智能技术生成

pandas读取csv文件时，使用的read_csv函数的参数。

1，skiprows参数，可以用于指定跳过csv文件的头部的前几行。

  CSV_FILE_PATH = './test.csv'
  df = pd.read_csv(CSV_FILE_PATH, skiprows=1)
  print(df.head(5))      ---用于指定读取前五行数据。

2，pandas可以自动推断每个column的数据类型

  print('datatype of column hit is: ' + str(df['hit'].dtypes))    ---可以查看。

3，pandas对非空数据转换为NAN.

 只需要通过na_value参数指定占位符，pandas便会在读入数据的过程中自动将这些占位符转换成NaN，从而不          影响pandas对column数据类型的正确判断。
 df = pd.read_csv(CSV_FILE_PATH, skiprows=0, na_values=['missing')

4,pandas读取文件时，读取部分列数据。

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import pandas as pd
from pandas import DataFrame as df

path=u'G:\\季风研究\\SZ\\SZ\\SZ.csv'    #文件路径
file=open(path, errors='ignore')    #这里不忽略errors会报错
data=pd.read_csv(file, usecols=['DDATETIME', 'OBTID', 'WD3SMAXDF', 'WD3SMAXDD', 'WD10MAXDF',   'WD10MAXDD'])   #usecols是想要读取的列（其中的字符串是文件第一行的内容），那么data中则只保存这几列的数据

5，pandas读取文件前N行数据。

 pd.read_csv(路径，skiprows=9,nrows=10)，忽略前9行，往下读10行

6，读取dateframe前N行数据。

   df.head(5

读取dateframe后N行数据。

  csv_batch_data = data.tail(N)  # 取后N条数据

参数详解：
pandas.read_csv参数详解
pandas.read_csv参数整理

读取CSV（逗号分割）文件到DataFrame
也支持文件的部分导入和选择迭代
更多帮助参见：http://pandas.pydata.org/pandas-docs/stable/io.html
参数：
filepath_or_buffer : str，pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a read() method (such as a file handle or StringIO)
可以是URL，可用URL类型包括：http, ftp, s3和文件。对于多文件正在准备中
本地文件读取实例：?/localhost/path/to