引言
先介绍下 Pandas 的数据结构,毕竟数据结构是万物的基础。
Pandas 有两种主要的数据结构: Series 和 DataFrame ,本文就先介绍第一种 Series 。
模块导入
首先我们在代码中引入 Pandas 和 Numpy ,如下:
import numpy as np
import pandas as pd
Series
Series 可以简单的理解为一维数组,可以存储整数、浮点数、字符串、Python 对象等类型的数据。
这个概念有点像 Java 中的集合。
如果无法理解的话,那么可以看下面这个图(Excel 简单画画):
| index | data |
|---|---|
| a | 1 |
| b | 2 |
| c | 3 |
| d | 4 |
| e | 5 |
这里的 data 可以是上面提到的那些数据类型,并不仅限于图中的整数。
如果 index 的值未指定,那么将会自动的创建数值类型的索引,从 0 开始,例如:0 , 1 , 2, 3 … len(data) - 1 。
创建一个 Series ,这里我们可以使用 pd.Series 函数来创建,如下:
s = pd.Series(np.random.rand(5), index=['a', 'b', 'c', 'd', 'e'])
print(s)
print(s.index)
s1 = pd.Series(np.random.randn(5))
print(s1)
结果如下:
a 0.218164
b 0.153201
c 0.572437
d 0.142784
e 0.710664
dtype: float64
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
0 0.255452
1 1.354357
2 2.092490
3 0.353899
4 1.692989
dtype: float64
从上面我们可以看到,如果我们手动指定了索引,那么将会按照我们指定的索引进行创建,如果没有指定会直接使用数值索引。
注意: 如果我们手动指定索引,索引的长度必须与数据的长度一致。如果不一致,将会抛出 ValueError 的异常,如下:

这篇博客详细介绍了Pandas中的Series数据结构,包括如何通过标量值、字典实例化Series,以及Series的常用方法如算术运算、索引操作。文中还强调了Series的名称属性和数据对齐的重要性。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



