一、在pandas 中数据的存取
1,读取数据
import pandas as pd # 导入pandas库,命名为pd
df = pd.read_excel('Desktop/成绩表.xlsx')
df
2,保存为Excel文件
# 保存为excel文件格式
import pandas as pd # 导入pandas库,命名为pd
df = pd.read_csv('/Desktop/合同表.csv') # 读取csv文件
df.to_excel('/Desktop/合同表.xlsx',index=False) # 保存为xlsx格式的Excel文件
3,dataframe表格
# DaTaFrame数据结构
import pandas as pd # 导入pandas库,命名为pd
df = pd.read_excel('Desktop/成绩表.xlsx') # 读取excel中的成绩表数据
df #输出dataframe表格,简称为df
print('打印行索引',df.index) # 打印行索引
print('打印列索引',df.columns) # 打印列索引
print('打印dataframe表格的数据区域',df.values) # 打印dataframe表格的数据区域,返回数组
output:
>>>打印行索引 RangeIndex(start=0, stop=4, step=1)
>>>打印列索引 Index(['姓名', '语文', '数学'], dtype='object')
>>>打印dataframe表格的数据区域 [['张三' 89 99]
['李四' 97 90]
['王五' 76 78]
['赵六' 99 100]]
4, series数据结构
# series数据结构
import pandas as pd # 导入pandas库,命名为pd
df = pd.read_excel('/Users/yihuan/Desktop/成绩表.xlsx') # 读取excel中的成绩表数据
for t,s in df.items(): # 循环读取df表中的每行数据
print(t) # 返回列索引名称
print(s) # 返回列数据
print(type(s)) # 返回列数据的类型
print('--------')
output:
"""
姓名
0 张三
1 李四
2 王五
3 赵六
Name: 姓名, dtype: object
<class 'pandas.core.series.Series'>
--------
语文
0 89
1 97
2 76
3 99
Name: 语文, dtype: int64
<class 'pandas.core.series.Series'>
--------
数学
0 99
1 90
2 78
3 100
Name: 数学, dtype: int64
<class 'pandas.core.series.Series'>
--------
"""
'语文',‘数学’是print(t)打印出的列索引名称,'数学'之下是print(s)打印出的列数据,这里的列数据是以Series结构存储的,并且显示它的Name(Series名称)和dtype(类据类型)两种属性,还可以通过print(type(s))打印变量s的类型,返回<class'pandas.core.series.Series'>,进一步证明列数据就是Series结构,其实Series数据的本质是带标签的一维数组。
到此为止,可以做三点总结。
(1)从外部文件读取到Pandas中的数据是DataFrame表格。
(2)DataFrame表格的数据可以由多个Series数据构成。
(3)Series数据可以由数组、列表等可迭代对象构成。
(4)为方便表达,将Pandas简写为pd,DataFrame简写为df,Series简写为s。