pandas创建数据
创建一个Series
传递一个list对象来创建一个Series,pandas 会默认创建整型索引
import pandas as pd
import numpy as np
s = pd.Series([1,3,5,np.nan,6,8])
创建DataFrame
#默认创建整型索引
data = pd.DataFrame(np.random.rand(6,4), columns=list('ABCD'))
#创建带有日期索引的dataframe
dates = pd.date_range('20190531', periods=6, freq='D')
data2 = pd.DataFrame(np.random.rand(6,4), index=dates, columns=list('ABCD'))
#使用字典创建dataframe
data3 = pd.DataFrame({'A':pd.Timestamp('20190531'), 'B':np.random.randn(3)})
读csv文件创建dataframe
data = pd.read_csv('cars1.csv',parse_dates=['date'], sep=',',index_col='date')
data.to_csv('test.csv', index=False)
na_values = ['NO CLUE', 'N/A', '0']
requests = pd.read_csv('cars1.csv', na_values=na_values)
read_csv的参数:
- sep:设置分割符,默认为‘,’
- encoding:数据编码格式
- parse_dates:解析日期类型数据
- index_col:设置索引列
- na_values:将csv中表示NA的值替换为
np.nan
读excel文件创建dataframe
- 读文件read_excel的主要参数
pd.read_excel(io, sheetname=0, header=0, index_col=None, names=None, parse_dates=False, na_values=None)
该函数主要的参数为io、sheetname、header、names、encoding。
- io:excel文件,可以是文件路径、文件网址等
- sheetname:返回指定的sheet,参数可以是字符串(sheet名)、整型(sheet索引)、list(元素为字符串和整型)、none(全部sheet);
- header:指定数据表的表头,参数可以是int、list of ints,即为索引行数为表头;
- names:返回指定name的列,参数为array-like对象。
- encoding:关键字参数,指定以何种编码读取。
- parse_dates:解析日期数据
- index_col:索引列
- 写文件to_excel
DataFrame.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None)
该函数主要参数为:
- excel_writer:写入的目标excel文件,可以是文件路径、ExcelWriter对象;
- sheet_name:被写入的sheet名称,string类型,默认为’sheet1’;
- na_rep:缺失值表示,string类型;
- header:是否写表头信息,布尔或list of string类型,默认为True;
- index:是否写行