第三章. Pandas入门—DataFrame对象

最新推荐文章于 2024-05-13 21:44:29 发布

归途^ω^

最新推荐文章于 2024-05-13 21:44:29 发布

阅读量740

点赞数

分类专栏： Python数据分析从入门到实践--明日科技文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/weixin_45116749/article/details/127449139

版权

Python数据分析从入门到实践--明日科技专栏收录该内容

36 篇文章 18 订阅

订阅专栏

第三章. Pandas入门

3.3 DataFrame对象

1. DataFrame是由多种类型的列组成的二维表数据结构，类似于Excel，SQL或Series对象构成的字典，不过这些Series对象公用同一个索引。
在这里插入图片描述

2.创建DataFrame对象的语法格式：

s_dataframe=pd.DataFrame(data,index,columns,dtype,copy)

参数解析:
1).data:数据，支持列表，字典，numpy数组，Series对象
2).index:行标签
3).columns:列标签
4).dtype:每一列数据的数据类型，与python的数据类型有差异

Pandas	python
object	str
int64	int
float64	float
bool	bool
datetime64	datatime64[ns]
timedelat64[ns]	NA
category	NA

5).copy:复制数据

3.列举两种创建DataFrame的方式：

import pandas as pd

# 通过列表创建年龄表
pd.set_option('display.unicode.east_asian_width', True)  # 解决数据输出时列名不对齐的问题
s1 = pd.DataFrame([[18, 25, 20], [15, 32, 18], [43, 23, 10]], index=[0, 1, 2], columns=['小美', '小明', '小壮'], dtype=object)
print(s1)

print('*' * 20)

# 通过字典创建年龄表
s2 = pd.DataFrame({
    '小美': [18, 25, 20],
    '小明': [15, 32, 18],
    '小壮': [43, 23, 10],
    '年级': ['一年级', '二年级', '三年级']
}, index=[0, 1, 2], dtype=object)
print(s2)

结果展示：

在这里插入图片描述

4.DateFrame的重要属性：

属性	描述	举例
values	查看所有元素的值	df.values
dtypes	查看所有元素的类型	df.dtypes
index	查看所有行名，重命名行名	df.index ; df.index=[1,2,3]
columns	查看所有列名，重命名列名	df.columns ; df.columns=[‘物’，‘化’，‘’生]
T	行列数据转换	df.T
head	查看前n条数据(默认5条)	df.head
tail	查看后n条数据(默认5条)	df.tail
shape	查看行数和列数,[0]:代表行 [1]:代表列	df.shape[0] ; df.shape[1]
info	查看索引，数据类型和内存信息	df.info

5.DateFrame的重要函数：

函数	描述	举例
describe	查看每列的统计汇总信息，DateFrame类型	df.describe()
count	查看每一列中非空值的个数	df.count()
sum	返回每一列的和，无法计算返回空值	df.sum()
max	返回每一列中的最大值	df.max()
min	返回每一列中的最小值	df.min()
argmax	返回某一列的(Series对象)最大值所在的自动索引位置	df[‘生物’].argmax()
argmin	返回某一列的(Series对象)最小值所在的自动索引位置	df[‘生物’].argmin()
idxmax	返回每一列中最大值所在的索引位置	df.idxmax()
idxmim	返回每一列中最小值所在的索引位置	df.idxmin()
mean	返回每一列的平均值	df.mean()
median	返回每一列的中位数	df.median()
var	返回每一列的的方差(方差用于度量单个随机变量的离散程度)	df.var()
std	返回每一列的标准差(方差的算数平方根，反应数据集的离散程度)	df.std()
isnull	检查df中的空值，空值为True,返回bool数组	df.isnull()
notnull	检查df中的空值，非空值为True,返回bool数组	df.notnull()