一、新建数据框
第一种方法
对于一个二维数据表, 它的每一列可以用list表示[1,2,3,4,5] 多列组合在一起,就可以用一个字典格式——为每个字典元素提供名称
df1 = pd.DataFrame(
{
'name':["Jack","Rose","Andy","Bob"],
'age':[12,23,4,5],
'height':[187,168,178,189],
'weight':[70,49,68,74]
}
)
print(df1)
'''
name age height weight
0 Jack 12 187 70
1 Rose 23 168 49
2 Andy 4 178 68
3 Bob 5 189 74
'''
第二种方法
列表的列表
df2 = pd.DataFrame(
data=[
[1,"test"],
[2,"train"],
[3,"evaluate"],
[4,"clarify"]
],
columns = ['var1','var2']
)
print(df2)
'''
var1 var2
0 1 test
1 2 train
2 3 evaluate
3 4 clarify
'''
二、读入文本格式数据文件
1.用read_csv
参数及对应解释
pd.read_csv(
filepath_or_buffer :要读入的文件路径
sep=',':列分隔符
header ='infer':指定数据中的第几行作为变量名
names = None:自定义变量名列表
index_col = None :将会被用作索引的列名,多列时只能使用序号列表
usecols = None :指定只读入某些列,使用索引列表或者名称列表均可。[0,1,3],["名次",“学校名称",“所在地区"]
encoding = None:读入文件的编码方式 utf-8/GBK,中文数据文件最好设定为utf-8
na_values :指定将被读入为缺失值的数值列表,默认下列数据被读入为缺失值:
' ','#N/A','#N/A N/A','#NA','-1.#IND','-1.#QNAN',
'-NaN','1.#IND','N/A','NA','NULL','NaN', 'n/a','1.#QNAN','nan'
):读取csv格式文件,但也可通用于文本文件读取
df3 = pd.read_csv("D:\student.csv",encoding="utf-8")
print(df3)
'''
学号 姓名 系别 性别 出生日期 总学分 备注
0 81101 王林 计算机 1 1990-02-10 50 NaN
1 81102 程明 计算机 1 1991-02-01 50 NaN
2 81103 王燕 计算机 0 1989-10-06 50 NaN
3 81104 韦严平 计算机 1 1990-08-26 50 NaN
4 81106 李方方 计算机 1 1990-11-20 50 NaN
5 81107 李明 计算机 1 1990-05-01 54 提前修完一门课
6 81108 林一帆 计算机 1 1989-08-05 52 提前修完一门课
7 81109 张强民 计算机 1 1989-08-11 50 NaN
8 81110 张蔚 计算机 0 1991-07-22 50 三好生
9 81111 赵琳 计算机 0 1990-03-18 50 NaN
10 81113 严红 计算机 0 1989-08-11 48 有一门课不及格
11 81201 王敏 通信工程 1 1989-06-10 42 NaN
12 81202 王林 通信工程 1 1989-01-29 40 有一门课不及格
13 81204 马琳琳 通信工程 0 1989-02-10 42 NaN
14 81206 李计 通信工程 1 1989-09-20 42 NaN
15 81210 李红庆 通信工程 1 1989-05-01 44 提前修完一门课
16 81216 孙祥欣 通信工程 1 1989-03-09 42 NaN
17 81218 孙研 通信工程 1 1990-10-09 42 NaN
18 81220 吴薇华 通信工程 0 1990-03-18 42 NaN
19 81221 刘燕敏 通信工程 0 1989-11-12 42 NaN
20 81241 罗林琳 通信工程 0 1990-01-30 50 转专业学习
'''
2.用read_table
不同之处在于read_table的分隔符是制表符‘\t’,而read_csv是‘,’
三、读入excel文件
pd.read_excel(
filepath_or_buffer:要读入的文件路径
sheet_name:要读入的表单,字符串或者数字序号均可,默认读入第一个
)
df4 = pd.read_excel("D:\student1.xlsx",sheet_name=0)
print(df4)
四、pandas中将DataFrame转换为其他数据格式的命令
数据格式 转换命令 dict格式 to_dict Markdown-friendly 表格格式 to_markdown console-friendly tabular output to_string ... ... NumPy array to_numpy NumPy record array to_records ... ... latex格式 to_latex parquet format to_parquet xarray object to_xarray