一、Pandas简介
Pandas是一个专门用于数据分析的开源Python库,在做相关统计分析和决策时,pandas都是一项重要的基础工具。它以NumPy为基础,不仅使Pandas兼容性更强,也更高效。
Pandas
中有两种独特的数据结构:Series和DataFrame,这两种数据结构设计初衷是用于关系型或带标签的数据。用它们管理与SQL关系型数据库和Excel工作表具有类似特征的数据会非常方便。
本文参考书籍:
Python数据分析实战( by Fabio Nelli)
Python数据分析(by Armando Fandango)
利用Python进行数据分析(by Wes McKinney )
本文不涉及过多细节,力求将Pandas包含的主要功能通过思维导图清晰地展现出来,在工作时可以根据思维导图获得Intuition, 再去找相关的代码详情。
二、Get Some Intuition
直观地了解两种数据结构最好的方式就是看下他们长啥样:
1. Series
import pandas as pd
ser = pd.Series([5, 6, 7, 8], index=['a', 'b', 'c', 'd'])
print(ser)