使用pandas进行文件读写

最新推荐文章于 2024-06-17 11:29:08 发布

生信修炼手册

最新推荐文章于 2024-06-17 11:29:08 发布

阅读量698

点赞数

本文链接：https://blog.csdn.net/weixin_43569478/article/details/108079880

版权

欢迎关注”生信修炼手册”!

pandas是数据分析的利器，既然是处理数据，首先要做的当然是从文件中将数据读取进来。pandas支持读取非常多类型的文件，示意如下

对于文本文件，支持csv, json等格式，当然也支持tsv文本文件；对于二进制文件，支持excel，python序列化文件，hdf5等格式；此外，还支持SQL数据库文件的读写。

在日常开发中，最经典的使用场景就是处理csv,tsv文本文件和excel文件了。对于不同格式的文件，pandas读取之后，将内容存储为DataFrame, 然后就可以调用内置的各种函数进行分析处理

1. CSV文件读写

和R语言类似，对于文本文件的读写，都提供了一个标准的read_table函数，用于读取各种分隔符分隔的文本文件。针对csv这种逗号分隔的特定格式，也提供了read_csv函数来进行处理，读取csv文件的用法如下

>>> import pandas as pd
>>> a = pd.read_csv('test.csv')

和python内置的csv模块相比，pandas的代码非常的简洁，只需要一行就可以搞定了。虽然代码简洁，但是我们要注意的是，根据需要灵活使用其中的参数，常见的参数如下

# sep参数指定分隔符，默认为逗号
>>> pd.read_csv('test.csv', sep = "\t")

# delimiter是sep的别名，用于指定分隔符，默认为逗号
>>> pd.read_csv('test.csv', delimiter = "\t")

# comment参数指定注释标识符，开头为注释标识符的行不会读取
# 默认的注释标识符为#
>>> pd.read_csv('test.csv', comment = "#")

# 默认行为，指定第一行作为表头，即数据框的列名
>>> pd.read_csv('test.csv', header = 0)
# header = None, 没有表头，全部为数据内容
>>> pd.read_csv('test.csv', header = None)

# index_col参数，指定索引对应的列为数据框的行标签
>>> pd.read_csv('test.csv', index_col=0)

# usecols参数根据索引选择部分列
>>> pd.read_csv('test.csv', usecols = (0, 1))

# skiprows表示跳过开头前几行
>>> pd.read_csv('test.csv', header = None, skiprows = 1)

# nrows 表示只读取前几行的内容
>>> pd.read_csv('test.csv', nrows = 2)

# na_values 指定空值的形式，空值会用NaN来代替
>>> pd.read_csv('tes