pandas生成文件
DataFrame简介
DataFrame 是由列构成的二维标签数据结构,列可以有各自的数据类型,可理解为数据表,或 Series 对象构成的字典。DataFrame 也是最常用的 Pandas 对象。DataFrame 支持多种类型的输入数据:
- 一维 ndarray、列表、字典、Series 字典
- 二维 numpy.ndarray
- 结构多维数组或记录多维数组
- Series
- DataFrame
DataFrame还可以传递Index和Columns参数。
a = [('a',1),('b',2),('c',3)]
df = pd.DataFrame(a,columns=['descriptor', 'label'])
以元祖的方式传递数据,列分别指定为descriptor,label。index使用默认。df的格式如下:
descriptor label
0 a 1
1 b 2
2 c 3
数据输入输出
pandans可以输出各种格式文件:cvs、HDF5、Excel。
df.to_csv('sample.csv')
这里会在当前目录下生成文件sample.csv,如果要指定path,可以在文件名上添加绝对路径或相对路径。默认的数据格式与df保持一致,以","分隔。
,descriptor,label
0,a,1
1,b,2
2,c,3
去除默认index,以空格分隔数据,指定字符编码utf-8:
//sep是分隔符,index指定索引,false时不生成索引
df.to_csv('sample.csv',sep=' ',index=False,encoding='utf-8')
通过read_csv函数读入数据。sep参数指定分隔符,默认使用","
pd = pd.read_csv('sample.csv',sep=' ')
out:
Unnamed: 0 descriptor label
0 0 a 1
1 1 b 2
2 2 c 3
自动生成索引文件再读入时多了一列Unnamed: 0
// 删除之
pd.drop(["Unnamed: 0"],axis=1, inplace=True)
out:
descriptor label
0 a 1
1 b 2
2 c 3