Pandas入门(学习笔记二)-Pandas的索引操作
Pandas的索引操作
索引对象Index
pandas中的索引对象是用于存储标签和其他元数据的(例如轴名称或标签)。在构造Series和DataFrame时,你所使用的任意数组或者标签序列都可以在内部转换成索引对象。
1.Series和DataFrame中的索引都是Index对象
示例代码:
ser_obj = pd.Series(range(10))
dict_data = {'A': 1,
'B': pd.Timestamp('20170426'),
'C': pd.Series(1, index=list(range(4)),dtype='float32'),
'D': np.array([3] * 4,dtype='int32'),
'E': ["Python","Java","C++","C"],
'F': 'ITCast' }
df_obj2 = pd.DataFrame(dict_data)
print(type(ser_obj.index))
print(type(df_obj2.index))
print(df_obj2.index)
运行结果:
<class 'pandas.indexes.range.RangeIndex'>
<class 'pandas.indexes.numeric.Int64Index'>
Int64Index([0, 1, 2, 3], dtype='int64')
2.索引对象不可变,保证了数据的安全
示例代码:
# 索引对象不可变
df_obj2.index[0] = 2
运行结果:
Traceback (most recent call last):
File "D:/workplace/Python/ML从入门到实践/利用python进行数据分析/Pandas入门/demo02.py", line 20, in <module>
df_obj2.index[0] = 2
File "D:\workplace\Python\ML_Python\venv\lib\site-packages\pandas\core\indexes\base.py", line 3938, in __setitem__
raise TypeError("Index does not support mutable operations")
TypeError: Index does not support mutable operations
常见的Index种类
- Index,索引
- Int64Index,整数索引
- MultiIndex,层级索引
- DatetimeIndex,时间戳类型
其他一些索引对象的方法和属性
方法 | 描述 |
---|---|
append | 将额外的索引对象粘贴到原索引后,产生一个新的索引 |
difference | 计算两个索引的差值 |
intersection | 计算两个索引的交集 |
union | 计算两个索引的并集 |
isin | 计算每一个值是否在传值容器中的布尔数组 |
delete | 将位置i的元素删除,并产生新的索引 |
drop | 根据传参删除指定索引,并产生新的索引 |
insert | 在位置i插入索引,并产生新的索引 |
is_unique | 如果索引序列唯一则返回True |
unique | 计算索引的唯一值序列 |
Series索引
1. index 指定行索引名
示例代码:
ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e'])
print(ser_obj.head())
运行结果:
a 0
b 1
c 2
d 3
e 4
dtype: int64
2. 行索引
ser_obj[‘label’], ser_obj[pos]
示例代码:
print(ser_obj['b'])
print(ser_obj[2])
运行结果:
1
2
3. 切片索引
ser_obj[2:4], ser_obj[‘label1’: ’label3’]
注意,按索引名切片操作时,是包含终止索引的。
示例代码:
print(ser_obj[2:4])
print(ser_obj['b':'d'])
运行结果:
c 2
d 3
dtype: int64
b 1
c 2
d 3
dtype: int64
4. 不连续索引
ser_obj[[‘label1’, ’label2’, ‘label3’]]
示例代码:
print(ser_obj[[0,3,4]])
print(ser_obj[['a','c']])
运行结果:
a 0
d 3
e 4
dtype: int64
a 0
c 2
dtype: int64
5. 布尔索引
示例代码:
ser_bool = ser_obj > 2
print(ser_bool)
print("*"*20)
print(ser_obj[ser_bool])
print("*"*20)
print(ser_obj[ser_obj > 2])
运行结果:
a False
b False
c False
d True
e True
dtype: bool
********************
d 3
e 4
dtype: int64
********************
d 3
e 4
dtype: int64
DataFrame索引
1. columns 指定列索引名
示例代码:
df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])
print(df_obj.head())
运行结果:
a b c d
0 -1.956614 0.396232 0.485422 -1.528516
1 -0.435897 -0.926318 1.033647 -2.322224
2 1.469886 0.584511 0.997910 0.505871
3 0.782513 0.576741 0.331227 0.115152
4 -0.074613 -0.041456 0.073378 -0.726169
2. 列索引
df_obj[[‘label’]]
示例代码:
print(df_obj['a']) # 返回Series类型
print(df_obj[:2]) # 返回DataFrame类型
print(type(df_obj[:2])) # 返回DataFrame类型
运行结果:
0 -1.886087
1 -1.660400
2 0.659249
3 1.429196
4 -0.035209
Name: a, dtype: float64
a b c d
0 -1.886087 -0.676003 0.108215 -1.081081
1 -1.660400 -0.720808 0.587814 -0.306038
<class 'pandas.core.frame.DataFrame'>
3. 不连续索引
df_obj[[‘label1’, ‘label2’]]
示例代码:
print(df_obj[['a','c']])
运行结果:
a c
0 1.103053 -0.248477
1 1.663475 0.134351
2 1.782068 -0.440859
3 -0.749792 -0.547487
4 0.750368 -0.478742
高级索引:标签、位置和混合
1. loc 标签索引
DataFrame 不能直接切片,可以通过loc来做切片
loc是基于标签名的索引,也就是我们自定义的索引名
示例代码:
# Series
print(ser_obj['b':'d'])
print(ser_obj.loc['b':'d'])
# DataFrame
print(df_obj['a'])
# 第一个参数索引行,第二个参数是列
print(df_obj.loc[0:2, 'a'])
运行结果:
b 1
c 2
d 3
dtype: int64
b 1
c 2
d 3
dtype: int64
0 -0.295739
1 -1.311157
2 0.999498
3 -1.142035
4 -0.434774
Name: a, dtype: float64
0 -0.295739
1 -1.311157
2 0.999498
Name: a, dtype: float64
2. iloc 位置索引
作用和loc一样,不过是基于索引编号来索引
示例代码:
# Series
print(ser_obj[1:3])
print(ser_obj.iloc[1:3])
# DataFrame
# 注意和df_obj.loc[0:2, 'a']的区别
print(df_obj.iloc[0:2, 0])
运行结果:
b 1
c 2
dtype: int64
b 1
c 2
dtype: int64
0 0.548807
1 1.730424
Name: a, dtype: float64
3. ix 标签与位置混合索引
ix是以上二者的综合,既可以使用索引编号,又可以使用自定义索引,要视情况不同来使用,
如果索引既有数字又有英文,那么这种方式是不建议使用的,容易导致定位的混乱。
示例代码:
# 混合索引 ix
# Series
print(ser_obj.ix[1:3])
print(ser_obj.ix['b':'c'])
# DataFrame
print(df_obj.loc[0:2, 'a'])
print(df_obj.ix[0:2, 0])
运行结果:
b 1
c 2
dtype: int64
b 1
c 2
dtype: int64
0 0.839655
1 -1.625122
2 0.446696
Name: a, dtype: float64
0 0.839655
1 -1.625122
2 0.446696
Name: a, dtype: float64