使用pandas进行文件读写

欢迎关注”生信修炼手册”!

pandas是数据分析的利器,既然是处理数据,首先要做的当然是从文件中将数据读取进来。pandas支持读取非常多类型的文件,示意如下

对于文本文件,支持csv, json等格式,当然也支持tsv文本文件;对于二进制文件,支持excel,python序列化文件,hdf5等格式;此外,还支持SQL数据库文件的读写。

在日常开发中,最经典的使用场景就是处理csv,tsv文本文件和excel文件了。对于不同格式的文件,pandas读取之后,将内容存储为DataFrame, 然后就可以调用内置的各种函数进行分析处理

1. CSV文件读写

和R语言类似,对于文本文件的读写,都提供了一个标准的read_table函数,用于读取各种分隔符分隔的文本文件。针对csv这种逗号分隔的特定格式,也提供了read_csv函数来进行处理,读取csv文件的用法如下

>>> import pandas as pd
>>> a = pd.read_csv('test.csv')

和python内置的csv模块相比,pandas的代码非常的简洁,只需要一行就可以搞定了。虽然代码简洁,但是我们要注意的是,根据需要灵活使用其中的参数,常见的参数如下

# sep参数指定分隔符,默认为逗号
>>> pd.read_csv('test.csv', sep = "\t")

# delimiter是sep的别名,用于指定分隔符,默认为逗号
>>> pd.read_csv('test.csv', delimiter = "\t")

# comment参数指定注释标识符,开头为注释标识符的行不会读取
# 默认的注释标识符为#
>>> pd.read_csv('test.csv', comment = "#")

# 默认行为,指定第一行作为表头,即数据框的列名
>>> pd.read_csv('test.csv', header = 0)
# header = None, 没有表头,全部为数据内容
>>> pd.read_csv('test.csv', header = None)

# index_col参数,指定索引对应的列为数据框的行标签
>>> pd.read_csv('test.csv', index_col=0)

# usecols参数根据索引选择部分列
>>> pd.read_csv('test.csv', usecols = (0, 1))

# skiprows表示跳过开头前几行
>>> pd.read_csv('test.csv', header = None, skiprows = 1)

# nrows 表示只读取前几行的内容
>>> pd.read_csv('test.csv', nrows = 2)

# na_values 指定空值的形式,空值会用NaN来代替
>>> pd.read_csv('tes
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值