读写文本格式的数据
read_csv() ## “,”
read_table() ## " \t"
1.指定分隔符 read_table('路径',sep=',')
2.无列名 read_csv('路径',header=None)
3.自定义列名称 reda_csv('路径',names=['a','b','c'])
4.指定c列作为DataFrame 的索引
reda_csv('路径',names=['a','b','c'],index_col='c')
5.层次化索引
reda_csv('路径',names=['a','b','c'],index_col=['a','b'])
6.对非固定字符串分隔字符——正则表达式
pd.read_table(‘路径’,sep=’\s+’) ##(数量不一的空格)
7.跳过某行 skiprows
pd.read_scv(‘路径’,skiprows=[0,1,3])
8.表示缺失值设定 na_values
pd.read_csv('路径',na_values=['NA'])
sentinels={'a':['foo','NA'],'c':['two']}
pd.read_csv('路径',na_values=sentinels)
逐块读取文本文件
1.只读取几行 nrow
pd.read_csv('路径',nrow=5)
将数据写出到文本格式
to_csv方法
data=pd.read_csv('路径')
data.to_csv('另一个路径',sep'\') ##可以重新设置分隔符
1.将空字符表示为其他标记值
##na_rep
data.to_csv('另一个路径',na_rep='NULL')
2.不写出行和列标签(默认写出)
data.to_csv('路径',index=False,header=False)
3.写出指定列,并指定排列顺序
data.to_csv('路径',index=Fales,cols=['c','b','a'])
4.将文件读取为Series
##from_csv方法 Series.from_csv('路径')
手工处理分隔符格式
1.定义一个csv.Dialect的子类
f=open('文件路径')
class my_dialect(csv.Dialect):
lineterminator='\n'
delimiter=';'
quotechar='"'
reader=csv.reader(f,diaect=my_dialect)
2.不定义子类
reader=csv.reader(f,delimiter='\n')