【建议收藏】Pandas(一)——初见Series

请添加图片描述

📚引言

🙋‍♂️作者简介:生鱼同学,大数据科学与技术专业硕士在读👨‍🎓,曾获得华为杯数学建模国家二等奖🏆,MathorCup 数学建模竞赛国家二等奖🏅,亚太数学建模国家二等奖🏅。

✍️研究方向:复杂网络科学

🏆兴趣方向:利用python进行数据分析与机器学习,数学建模竞赛经验交流,网络爬虫等。

pandas作为python一个非常强大的数据分析和处理库,可以帮我们进行多种不同的任务,包括但不限于下面这些方面:

  • 数据探索
  • 数据清洗
  • 数据可视化

掌握pandas能够帮助我们有效的提高工作效率,也可以帮我们跟深入的探索数据背后的意义和规律。

从本文开始,我们将会按照pandas说明文档给出的学习路线出发,结合实际操作过程中遇到的问题逐步的掌握pandas这个强大的库。
话不多说,我们开始吧。

📖库的安装以及一些说明

📑库的安装

在开始之前请确保你已经安装了pandas的最新版本,你可以直接利用下面的代码在控制台安装pandas以及numpy:

pip install pandas
pip install numpy

亦或者习惯用Andaconda的小伙伴可以实用conda来安装,代码如下:

conda install pandas
conda install numpy

具体的安装以及环境配置流程不在本文的重点关注范围,后续我将会在后面的内容中发布安装相关的博文,如果需要可以点个关注持续关注我。

📑一些说明

需要说明的是本文的代码环境以及版本:

  • python : 3.8.16
  • pandas : 1.5.3
  • numpy : 1.23.5

最后,本系列将会使用Jupyter Notebook作为示范的编译环境。

注意:在开始使用pandas之前请在代码中导入两个库:
import pandas as pd
import numpyt as np

在本文中,我们主要讨论pandas中最重要的两种数据结构Series以及DataFrame。当然,本文只是对其进行粗浅的介绍,让大家知道它们到底是个什么玩意儿,在后续的更新中,我们将会基于这两个数据结构解锁更多的新姿势玩转pandas

我们首先来看基础数据结构Series。

📖Series

我们首先来看Pandas的说明文档对Series的解释:

说明文档原文:Series是一个一维标签数组,能够容纳任何数据类型(整数、字符串、浮点数、Python对象等),轴的标签被统称为索引。

从我的理解来看,可以把Series当成一个功能强大的字典,其可以快捷的帮我们进行一些操作并且有一些字典没有的特性。

在这里插入图片描述

特别的,Series也是后面要介绍的DataFrame的基本单位。

📑创建一个Series

创建一个Series只需要一句代码,如下:

s = pd.Series(data, index=index)

在这个基础创建函数中接受两个参数:

  • data : 用于创建Series的数据,可以是一个字典,一个ndarray(np中的数据结构)或者一个标量(例如:1)
  • index : data的标签,按照不同的情况传入参数不同,得到的结果不同

为了更好的演示上面的创建过程,我们来看下面几种情况:

🔖从列表创建Series

从列表创建一个Series当然是允许的,请看下面两个代码示例:

list_01 = [random.randint(0,100) for i in range(5)]
# 当我们没有传入index的时候会自动创建index
pd.Series(list_01)

>>> 0    33
>>> 1     8
>>> 2    80
>>> 3    16
>>> 4    56
>>> dtype: int64
list_01 = [random.randint(0,100) for i in range(5)]
# 注意这里的区别,我们传入了字符类型的index
pd.Series(list_01, index = ['a','b','c','d','e'])

>>> a    98
>>> b    44
>>> c    40
>>> d    78
>>> e    54
>>> dtype: int64

由上述代码我们可知,当我们使用类似利列表的序列创建Series时,如果不传入index,pandas将会帮我们默认生成从0开始的序列作为index。

当然,使用元组,ndarray等结构作为data创建Series的结果将会类似。使用numpy中的ndarray完成上述操作将会更加的简洁,请看下面的示例:

pd.Series(np.random.randn(5))

>>> 0    0.154329
>>> 1    0.369949
>>> 2    0.281314
>>> 3    0.880517
>>> 4    0.123413
>>> dtype: float64

说明文档原文:pandas支持非唯一的索引值。如果一个不支持重复索引值的操作被尝试,届时将引发一个异常。

针对上述这点注意,我们看下面这个例子:

# 在这里的index中我们赋了重复的值
test_s = pd.Series(np.random.randn(5),index = ['a','b','c','d','a'])
test_s['a']

>>> a   -0.486072
>>> a    1.693092
>>> dtype: float64

注意:虽然我们使用上述的重复index依然取到了值,但是在使用的过程中应该尽量避免重复的索引,以免有意外的报错发生。

🔖从字典创建Series

从字典创建一个Series的结果更容易被我们预料到,因为字典和Series的机制很相似,都有index对应的value。但是,还有一些其它的情况要说明,请看下面这个代码:

dict_01 = {
    'a':1,
    'b':2,
    'c':3,
    'd':4,
}
pd.Series(dict_01)

>>> a    1
>>> b    2
>>> c    3
>>> d    4
>>> dtype: int64

在上述的例子中,字典很顺利的生成了一个Series,但是如果我们传入的index超过了字典key的范围将会怎么样呢?请看下面这段代码:

dict_01 = {
    'a':1,
    'b':2,
    'c':3,
    'd':4,
}
# 字典有四个键,但是我们传入了五个index
pd.Series(dict_01, index = ['a','b','c','d','e'])

>>> a    1.0
>>> b    2.0
>>> c    3.0
>>> d    4.0
>>> e    NaN
>>> dtype: float64

可以看到,当我们传入的索引超出了字典的范围时并不会触发错误,Series自动的将多出来的索引赋为NaN即不存在。

说明文档原文:NaN(非数字)是pandas中使用的标准缺失数据标记。

🔖标量创建Series

当我们使用标量创建一个Series的时候,如果我们没有预先指定长度,那么它会默认生成一个只有一个数字的Series,如下所示:

pd.Series(5)

>>> 0    5
>>> dtype: int64

如果我们为其指定index那么其生成的Series将会变的不同,即生成定长的标量Series,如下所示:

pd.Series(5,index = ['a','b','c','d','e'])

>>> a    5
>>> b    5
>>> c    5
>>> d    5
>>> e    5
>>> dtype: int64

📑Series的特点与属性

🔖Series取值

Series可以像python内置序列一样让我们根据下标取数或者直接根据我们设定的index进行取数,如下所示:

test_s = pd.Series(range(5),index = ['a','b','c','d','e'])
# 利用数字序列取数
test_s[0]
# 利用index取数
test_s['a']

>>> 5
>>> 5

另外,Series还接受切片的操作,如下所示:

test_s[2:]

>>> c    2
>>> d    3
>>> e    4
>>> dtype: int64

进一步的,我们可以根据上述的索引对其进行赋值是肯定的,所以本文不在这里进行演示。

🔖Series调用函数

Series可以调用大多数NumPy中的函数,并且利用这种特性加上索引取数可以达到很好的过滤元素的效果,下面展示几个非常常用的函数:

test_s = pd.Series(np.random.randn(20))
# 求平均数
print(test_s.mean())
# 求标准差
print(test_s.std())
# 求中位数
print(test_s.median())
# 对Series的value进行排序
test_s.sort_values()

>>> -0.8208612506544736
>>> 0.7848416493146942
>>> -0.7914818370858607

>>> 1   -2.173978
>>> 5   -1.815420
>>> 0   -1.286937
>>> 4   -1.147945
>>> 3   -0.857540
>>> 7   -0.725424
>>> 9   -0.106355
>>> 8   -0.073792
>>> 6   -0.071470
>>> 2    0.050249
>>> dtype: float64

除上述较为常用的函数外,Series可用的方法有很多,如下所示:

print([attr for attr in dir(s) if not attr.startswith('_')])

结果如下:
在这里插入图片描述

🔖Series间的操作

Series可以利用常用的运算符进行拼接操作,并且允许NumPy中的函数直接对其进行操作,如下所示:

test_s = pd.Series(range(5),index = ['a','b','c','d','e'])
# 对Series进行自己相加
test_s + test_s
# 对Series进行乘法操作
test_s * 3
# 对Series进行幂次操作
test_s ** 3
# nunpy内置函数对其进行操作
np.exp(test_s)

特别的,Series会自动进行索引对齐,这是非常重要的性质,因为Series能够进行索引对其而使得其更加的灵活。我们看下面这两个例子:

# 创建两个Series
# 注意:在s_2中索引呗打乱了顺序
s_1 = pd.Series(range(5),index=['a','b','c','d','e'])
s_2 = pd.Series(range(5),index=['b','a','d','c','e'])


>>> a    0						b    0
>>> b    1						a    1
>>> c    2						d    2
>>> d    3						c    3
>>> e    4						e    4
>>> Name: s_1, dtype: int64		Name: s_2, dtype: int64

此时,如果我们对上述的两个Series相加,将会得到什么样的结果呢?我们相加试试看:

s_1 + s_2

>>> a    1
>>> b    1
>>> c    5
>>> d    5
>>> e    8
>>> dtype: int64

可以发现,Series自动对其了相等的索引进行相加了。

理解这个特性将会更好的帮我们理解Series强大的灵活性以及其的多样性。

🔖Series的属性

在Series中我们第一眼见到的有两个属性即dtype与name,我们将分别来介绍,首先来看dtype。

当我们调用Series的dtype属性时,就可以得到Series的dtype,如下所示:

s = pd.Series([i/2 for i in range(5)])
s.dtype

>>> dtype('float64')

原文介绍:这通常是一个NumPy的dtype。然而,pandas和第三方库在一些地方扩展了NumPy的类型系统,在这种情况下,dtype将是一个ExtensionDtype。

关于dtype的具体内容,我们将在后续的文章中详细说明,这里先做了解。

其次,name属性也是Series中一个非常重要的属性,当我们定义一个新的Series时,我们可以为其指定name。同时,我们也可以调用Series的name属性直接获取到Series的name。如下所示:

s = pd.Series([i/2 for i in range(5)], name = 'Ecample_2023')
s.name

>>> 'Ecample_2023'

当然,我们可以使用rename()函数来进行Series的重命名,代码如下:

s = pd.Series([i/2 for i in range(5)], name = 'Example_2023')
print(s.name)
s.rename('motify_Example_2023')

>>> Example_2023
>>>
>>> 0    0.0
>>> 1    0.5
>>> 2    1.0
>>> 3    1.5
>>> 4    2.0
>>> Name: motify_Example_2023, dtype: float64

📍总结

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

复杂网络

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值