第三章. Pandas入门
3.3 DataFrame对象
1. DataFrame是由多种类型的列组成的二维表数据结构,类似于Excel,SQL或Series对象构成的字典,不过这些Series对象公用同一个索引。
2.创建DataFrame对象的语法格式:
s_dataframe=pd.DataFrame(data,index,columns,dtype,copy)
参数解析:
1).data:数据,支持列表,字典,numpy数组,Series对象
2).index:行标签
3).columns:列标签
4).dtype:每一列数据的数据类型,与python的数据类型有差异
Pandas | python |
---|---|
object | str |
int64 | int |
float64 | float |
bool | bool |
datetime64 | datatime64[ns] |
timedelat64[ns] | NA |
category | NA |
5).copy:复制数据
3.列举两种创建DataFrame的方式:
import pandas as pd
# 通过列表创建年龄表
pd.set_option('display.unicode.east_asian_width', True) # 解决数据输出时列名不对齐的问题
s1 = pd.DataFrame([[18, 25, 20], [15, 32, 18], [43, 23, 10]], index=[0, 1, 2], columns=['小美', '小明', '小壮'], dtype=object)
print(s1)
print('*' * 20)
# 通过字典创建年龄表
s2 = pd.DataFrame({
'小美': [18, 25, 20],
'小明': [15, 32, 18],
'小壮': [43, 23, 10],
'年级': ['一年级', '二年级', '三年级']
}, index=[0, 1, 2], dtype=object)
print(s2)
结果展示:
4.DateFrame的重要属性:
属性 | 描述 | 举例 |
---|---|---|
values | 查看所有元素的值 | df.values |
dtypes | 查看所有元素的类型 | df.dtypes |
index | 查看所有行名,重命名行名 | df.index ; df.index=[1,2,3] |
columns | 查看所有列名,重命名列名 | df.columns ; df.columns=[‘物’,‘化’,‘’生] |
T | 行列数据转换 | df.T |
head | 查看前n条数据(默认5条) | df.head |
tail | 查看后n条数据(默认5条) | df.tail |
shape | 查看行数和列数,[0]:代表行 [1]:代表列 | df.shape[0] ; df.shape[1] |
info | 查看索引,数据类型和内存信息 | df.info |
5.DateFrame的重要函数:
函数 | 描述 | 举例 |
---|---|---|
describe | 查看每列的统计汇总信息,DateFrame类型 | df.describe() |
count | 查看每一列中非空值的个数 | df.count() |
sum | 返回每一列的和,无法计算返回空值 | df.sum() |
max | 返回每一列中的最大值 | df.max() |
min | 返回每一列中的最小值 | df.min() |
argmax | 返回某一列的(Series对象)最大值所在的自动索引位置 | df[‘生物’].argmax() |
argmin | 返回某一列的(Series对象)最小值所在的自动索引位置 | df[‘生物’].argmin() |
idxmax | 返回每一列中最大值所在的索引位置 | df.idxmax() |
idxmim | 返回每一列中最小值所在的索引位置 | df.idxmin() |
mean | 返回每一列的平均值 | df.mean() |
median | 返回每一列的中位数 | df.median() |
var | 返回每一列的的方差(方差用于度量单个随机变量的离散程度) | df.var() |
std | 返回每一列的标准差(方差的算数平方根,反应数据集的离散程度) | df.std() |
isnull | 检查df中的空值,空值为True,返回bool数组 | df.isnull() |
notnull | 检查df中的空值,非空值为True,返回bool数组 | df.notnull() |