数据分析工具Pandas
以numpy为基础构建的、用以分析结构化数据的程序包,其功能强大且提供了高级数据结构和数据操作工具。它包含了数据读取、清洗、分析、矩阵运营以及数据挖掘等。因numpy面对大量多位度数据时,转换过程中每行、每列数据的属性或标签将消除,很难记住新数据代表的含义。Pandas适用于对大型数据的操作,Numpy则从其中选择一部分数据。
Pandas的两大重要组成:序列Series和数据框DataFrame。
序列series:类似于Numpy中的一维数组,通过索引标签的方式获取数据,而且具有索引的自动对齐功能。
数据框DataFrame:类似于Numpy中的二维数组,同样可以使用Numpy数组的函数和方法。
1.创建Series
pd.Series(np.arange(10)) 通过一维数组的方式来创建序列
dic1={'a':4,'b'=5} pd.Series(dic1) 通过字典的方式来创建序列
2.创建DataFr