目录
1 创建 Pandas Series
Pandas series 是一个像数组一样的一维对象,可以存储很多类型的数据,例如数字或字符串。
Pandas Series 和 NumPy ndarray 之间的主要区别之一是你可以为 Pandas Series 中的每个元素分配索引标签。
换句话说,你可以为 Pandas Series 索引指定任何名称。
Pandas Series 和 NumPy ndarrays 之间的另一个明显区别是 Pandas Series 可以存储不同类型的数据。
1.1 我们先在 Python 中导入 Pandas。
通常,我们使用 pd 导入 Pandas。因此,你可以在 Jupyter Notebook 中输入以下命令,导入 Pandas:
In [1]:
import pandas as pd
1.2 我们先创建一个 Pandas Series。
你可以使用 pd.Series(data, index) 命令创建 Pandas Series,其中 index 是一个索引标签列表。我们使用 Pandas Series 存储一个购物清单。我们将使用食品条目作为索引标签,使用购买数量作为数据。
In [2]:
groceries = pd.Series(data=[30,6,'yes','no'], index = ['eggs','apples','milk','bread']) groceries
Out[2]:
eggs 30 apples 6 milk yes bread no dtype: object
可以看出 Pandas Series 的显示方式为:第一列是索引,第二列是数据。注意,数据的索引不是从 0 到 3,而是采用我们设置的食品名称,即鸡蛋、苹果、等…此外注意,我们的 Pandas Series 中的数据既包括整数,又包括字符串。
1.3 和 NumPy ndarray 一样,通过 Pandas Series 的一些属性,我们可以轻松地获取 series 中的信息。
我们来看一些属性:
In [3]:
groceries.shape
Out[3]:
(4,)
In [4]:
groceries.ndim
Out[4]:
1
In [5]:
groceries.size
Out[5]:
4
我们还可以单独输出 Pandas Series 的索引标签和数据。
如果你不知道 Pandas Series 的索引标签是什么,这种方法就很有用。
In [6]:
groceries.index
Out[6]:
Index(['eggs', 'apples', 'milk', 'bread'], dtype='object')
In [7]:
groceries.values
Out[7]:
array([30, 6, 'yes', 'no'], dtype=object)
如果你处理的是非常庞大的 Pandas Series,并且不清楚是否存在某个索引标签,可以使用 in 命令检查是否存在该标签:
In [8]:
'banana' in groceries
Out[8]:
False
In [9]:
'bread' in groceries
Out[9]:
True