我正以Python
作为突破口,入门机器学习相关知识。出于机器学习实践过程中的需要,我快速了解了一下提供了类似关系型或标签型数据结构的Pandas
的使用方法。下面记录相关学习笔记。
数据结构
Pandas
最主要的知识点是两个数据结构,分别是Series和DataFrame。你可以分别把它们简单地理解为带标签的一维数组和二维数组。
以下实践假设已经运行了必要的import
语句,如:
import pandas as pd
Series
先在命令行里面看一下Series
的样子:
Series数据格式
可以看到Series
是一个列表,列表的每一项都有一个称之为index
的索引(如:a、b、c...),和一个与之对应的值(如:0、1、2...)。
创建Series
看过了Series
的内容,很容易想到创建Series
需要提供两项内容:数据与索引。基于这两项内容可以产生几种变形:
- 使用
Python
的列表创建Series
使用列表作为数据项,另外通过index
关键词指定另一个索引列表。Python入门到精通学习教程请加219再加上539然后519内有大量学习教程,欢迎大家加入
pd.Series([1,2,3], index=['a', 'b', 'c'])
- 使用
Python
的二元组创建Series
作为上面一种形式变形,可以把索引和数据一一组合在一起成为元组,然后以元组列表作为创建Series
的参数。
pd.Series({'a': 0, 'b': 1, 'c': 2})
- 使用单独标量创建元素值一样的
Series
# a、b、c的值都是1
pd.Series(1, index=['a', 'b', 'c'])
- 使用
NumPy
数组创建Series
为了让NumPy
数据可以快速转换成Pandas
的数据,Pandas
提供了使用ndarray
创建Series
的方式。
import numpy as np
pd.Series(np.array([1,2,3]), index=['a','b','c'])
访问Series
下面假设有一个Series
为s=pd.Series([1,2,3], index=['a', 'b', 'c'])
。访问这个s
可以选择下面方式:
Series
可以像NumPy
的数组一样访问。特殊的是:Series
使用元素索引访问其元素的值;而使用切片索引访问其片段(包含索引和值的Series
)。
print(s[0]) # 结果为数值:1
print(s[0:1]) # 结果为Series:a 1
Series
还可以像Python
的字典那样访问其元素或检查元素是否存在。
print(s['a']) # 结果为数值:1
print(s.a) # 结果为数值:1
print('a' in s) # 结果为True
- 另外还可以用搜索条件过滤
Series
获取切片。
print(s[s > 2]) # 结果为Series: c 3
Series
的相关操作
大部分NumPy
的通用函数可以应用在Series
上,因此不再赘述。
需要注意的点在于,当参与操作的Series
会根据索引自动对齐元素然后进行操作,如存在某个索引是不在另一个Series
中,则使用NaN
作为结果。
s1 = pd.Series([1,2,3], index=['a','b','c'])
s2 = pd.Series([3,2,1], index=['b','c','d'])
s1 + s2
结果包含四个元素,内容如下:
a NaN
b 5.0
c 5.0
d NaN
Series的name属性
每个Series
有一个name
属性,它将在在二维的数据结构中作为Series
的索引。
DataFrame
我们依旧先来看一下DataFrame
的样子。
DataFrame的样子
DataFrame
实际上是一个二维数组,可以由多个Series
组成。每个Series
作为一列或者一行。
创建DataFrame
DataFrame
的创建方法太多了,因此这里只举几种常用的例子。希望能有更深入的了解,还是查阅官方文档比较合适。
创建DataFrame
大体可以分为两种情况,一种是按行提供数据,另一种是按列提供数据。
- 按行提供数据
这种方式把DataFrame
当成一个行列表,我们为列表提供每一行的内容。行数据可以是Python
的列表、NumPy
的数组、Pandas
的Series
等。如下:
# 列表形式
l1 = [11, 12, 13]
l2 = [21, 22, 23]
l3 = [31, 32, 33, 34]
df = pd.DataFrame([l1,l2,l3], dtype='int32')
# ndarray形式
a1 = np.array([11,12,13])
a2 = np.array([21,22,23])
a3 = np.array([31,32,33,34])
df = pd.DataFrame([a1,a2,a3], dtype='int32')
# Series形式
s1 = pd.Series([11,12,13])
s2 = pd.Series([21,22,23])
s3 = pd.Series([31,32,33,34])
df = pd.DataFrame([s1,s2,s3], dtype='int32')
以上三种形式创建了同样的DataFrame
,结果如下:
0 1 2 3
0 11 12 13 NaN
1 21 22 23 NaN
2 31 32 33 34.0
注意到,我们并没有提供行索引和列索引,这种情况DataFrame
的构造函数会自动为我们添加索引。特殊的,如果我们使用Series
按行创建时,如果Series
设置了name
属性,则name
属性将作为DataFrame
的索引呈现,其中若有为指定name
属性的将按顺序给与默认命名(如:‘Unnamed 0’)。例如:
s1 = pd.Series([11,12,13])
s2 = pd.Series([21,22,23])
s3 = pd.Series([31,32,33,34])
s1.name = 's1'
df = pd.DataFrame([s1,s2,s3], dtype='int32')
这时的df的结果为:
0 1 2 3
s1 11 12 13 NaN
Unnamed 0 21 22 23 NaN
Unnamed 1 31 32 33 34.0
- 按列提供数据
这种方式把DataFrame
当成一个列元组,我们为元组提供每一项元素,这个元素就是单独的一列。列可以是Python
的列表、NumPy
的数组、Pandas
的Series
等。
按列提供数据需要注意的指明每列的索引,在DataFrame
中称之为columns
。如下:
# 列表形式
l1 = [11, 12, 13]
l2 = [21, 22, 23]
df = pd.DataFrame({'c1': l1, 'c2': l2})
# ndarray形式
a1 = np.array([11, 12, 13])
a2 = np.array([21, 22, 23])
df = pd.DataFrame({'c1': a1, 'c2': a2})
上述二者的结果为:
c1 c2
0 11 21
1 12 22
2 13 23
需要注意的是,这种形式提供的每一列必须拥有相同的长度,否则将报异常。
s1 = pd.Series([11,12,13])
s2 = pd.Series([21,22,23])
s3 = pd.Series([31,32,33,34])
结果为:
c1 c2 c3
0 11.0 21.0 31
1 12.0 22.0 32
2 13.0 23.0 33
3 NaN NaN 34
Series
形式提供的数据将会自动对齐,每个索引为一行。若某个Series
中不存在某个索引,则这一列对应位置使用NaN
填充。
访问DataFrame
下方表格展示了几种索引或选择DataFrame
的方法:
索引方法
以下是上表的示例:
DataFrame的索引示例
修改数据的时候也可以应用上述查询方式直接进行赋值,但是需要注意的是所赋的内容的类型需要与表格右方的类型对齐。针对Series
内容,如果赋值时用的是列表或者ndarray
,其长度必须于原来内容的长度一致。例如:
修改值的示例
查询与修改元素可以用二级索引,如df.loc['r2'][0] = 2
。
删除行或者列可以使用DataFrame.drop
函数,它会返回删除后的结果,并不会修改原来的数据。对删除列而言,使用类似del df[0]
的语句可以直接删除源数据。而删除元素对DataFrame
是无意义的,直接用赋值形式就可以替代。
插入列可以直接用DataFrame.insert
函数,与drop
不同,它会在原来的数据中插入内容。(另外,目前我尚未发现有直接插入行的操作。有了解的读者可在下方留下言。)
有关数据对齐
当Series
或者DataFrame
进行操作的时候,如果索引不一致将会进行对齐,然后才操作。下面描述一下这几种情况。
-
两个
Series
参与操作,会根据索引自动对齐元素然后进行操作,如存在某个索引是不在另一个Series
中,则使用NaN
作为结果。 -
两个
DataFrame
参与操作,自动对齐行和列,任何行索引或列索引在另一个操作对象中找不到,结果对应位置的元素用NaN补充。两个DataFrame相加
DataFrame
与Series
参与操作,默认进行行级广播。即把Series
作为一列,Series
的index
对齐到DataFrame
的columns
进行运算。特殊地,索引都是时间的DataFrame
与Series
参与操作会发生列级广播。列级广播的意思就是把Series
当成一个横向的DataFrame
,它的每个索引和对应的值都当成一列。因此操作的时候原来的Series
的时间索引变成了结果的列索引。
DataFrame与Series相加
另外这种情况直接用加号“+”的方式已经不推荐了,而是使用add
函数,同时可以通过指定axis
参数指明Series
广播的维度。如下:
使用add函数
数据可视化
Pandas
数据结构(Series
和DataFrame
)封装了matplotlib.pyplot
,直接调用它们的plot
等函数可以绘制图像。
这些函数简单封装了plt.plot()。你要做的仅仅是导入matplotlib.pyplot
,然后调用plt.show()
展示图像。
下面看例子:
绘制图像
你还可以绘制其他类型的图像,下图展示了其他函数: