数据分析工具pandas
Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构和 数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一
(1) 一个强大的分析和操作大型结构化数据集所需的工具集
(2) 基础是NumPy,提供了高性能矩阵的运算
(3) 提供了大量能够快速便捷地处理数据的函数和方法
(4)应用于数据挖掘,数据分析
(5)提供数据清洗功能
2. Pandas的索引操作
2.1 索引对象Index
- Series和DataFrame中的索引都是Index对象
import numpy as np
import pandas as pd
#Series和DataFrame中的索引都是Index对象
ps=pd.Series(range(5),index=['a','b','c','d','e'])
#结果为:pandas.core.indexes.base.Index
type(ps.index)
pd1 = pd.DataFrame(np.arange(9).reshape(3,3),index=['a','b','c'],columns=['A','B','C'])
#结果为:pandas.core.indexes.base.Index
print(type(pd1.index))
#结果为:pandas.core.indexes.base.Index
print(type(pd1.columns))
- 索引对象不可变,保证了数据的安全
# 错误代码 索引不可修改
pd1.index[1]=2
- 常见的Index种类
index种类 | 说明 |
---|---|
Index | 索引 |
Int64Index | 整数索引 |
MultiIndex | 层级索引 |
DatatimeIndex | 时间戳类型 |
2.2 索引的一些基本操作
2.2.1 重新索引
#reindex 创建一个符合新索引的新对象 索引f对应的值为NaN
ps2 = ps.reindex(['a','b','c','d',