Pandas入门（学习笔记二）-Pandas的索引操作

最新推荐文章于 2024-07-22 21:10:20 发布

黑面|书生

最新推荐文章于 2024-07-22 21:10:20 发布

阅读量1k

点赞数

分类专栏： Python数据分析基础文章标签： python数据分析 python pandas

本文链接：https://blog.csdn.net/weixin_44533129/article/details/99624678

版权

Python数据分析基础专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Pandas入门（学习笔记二）-Pandas的索引操作

Pandas的索引操作

Pandas的索引操作

索引对象Index

pandas中的索引对象是用于存储标签和其他元数据的（例如轴名称或标签）。在构造Series和DataFrame时，你所使用的任意数组或者标签序列都可以在内部转换成索引对象。

1.Series和DataFrame中的索引都是Index对象

示例代码：

ser_obj = pd.Series(range(10))
dict_data = {'A': 1,
             'B': pd.Timestamp('20170426'),
             'C': pd.Series(1, index=list(range(4)),dtype='float32'),
             'D': np.array([3] * 4,dtype='int32'),
             'E': ["Python","Java","C++","C"],
             'F': 'ITCast' }
df_obj2 = pd.DataFrame(dict_data)

print(type(ser_obj.index))
print(type(df_obj2.index))

print(df_obj2.index)

运行结果：

<class 'pandas.indexes.range.RangeIndex'>
<class 'pandas.indexes.numeric.Int64Index'>
Int64Index([0, 1, 2, 3], dtype='int64')

2.索引对象不可变，保证了数据的安全

示例代码：

# 索引对象不可变
df_obj2.index[0] = 2

运行结果：

Traceback (most recent call last):
  File "D:/workplace/Python/ML从入门到实践/利用python进行数据分析/Pandas入门/demo02.py", line 20, in <module>
    df_obj2.index[0] = 2
  File "D:\workplace\Python\ML_Python\venv\lib\site-packages\pandas\core\indexes\base.py", line 3938, in __setitem__
    raise TypeError("Index does not support mutable operations")
TypeError: Index does not support mutable operations

常见的Index种类

Index，索引
Int64Index，整数索引
MultiIndex，层级索引
DatetimeIndex，时间戳类型

其他一些索引对象的方法和属性

方法	描述
append	将额外的索引对象粘贴到原索引后，产生一个新的索引
difference	计算两个索引的差值
intersection	计算两个索引的交集
union	计算两个索引的并集
isin	计算每一个值是否在传值容器中的布尔数组
delete	将位置i的元素删除，并产生新的索引
drop	根据传参删除指定索引，并产生新的索引
insert	在位置i插入索引，并产生新的索引
is_unique	如果索引序列唯一则返回True
unique	计算索引的唯一值序列

Series索引

1. index 指定行索引名

示例代码：

ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e'])
print(ser_obj.head())

运行结果：

a    0
b    1
c    2
d    3
e    4
dtype: int64

2. 行索引

ser_obj[‘label’], ser_obj[pos]
示例代码：

print(ser_obj['b'])
print(ser_obj[2])

运行结果：

1
2

3. 切片索引

ser_obj[2:4], ser_obj[‘label1’: ’label3’]

注意，按索引名切片操作时，是包含终止索引的。
示例代码：

print(ser_obj[2:4])
print(ser_obj['b':'d'])

运行结果：

c    2
d    3
dtype: int64
b    1
c    2
d    3
dtype: int64

4. 不连续索引

ser_obj[[‘label1’, ’label2’, ‘label3’]]
示例代码：

print(ser_obj[[0,3,4]])
print(ser_obj[['a','c']])

运行结果：

a    0
d    3
e    4
dtype: int64
a    0
c    2
dtype: int64

5. 布尔索引

示例代码：

ser_bool = ser_obj > 2
print(ser_bool)
print("*"*20)
print(ser_obj[ser_bool])
print("*"*20)
print(ser_obj[ser_obj > 2])

运行结果：

a    False
b    False
c    False
d     True
e     True
dtype: bool
********************
d    3
e    4
dtype: int64
********************
d    3
e    4
dtype: int64

DataFrame索引

1. columns 指定列索引名

示例代码：

df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])
print(df_obj.head())

运行结果：

          a         b         c         d
0 -1.956614  0.396232  0.485422 -1.528516
1 -0.435897 -0.926318  1.033647 -2.322224
2  1.469886  0.584511  0.997910  0.505871
3  0.782513  0.576741  0.331227  0.115152
4 -0.074613 -0.041456  0.073378 -0.726169

在这里插入图片描述

2. 列索引

df_obj[[‘label’]]
示例代码：

print(df_obj['a'])  # 返回Series类型
print(df_obj[:2])  # 返回DataFrame类型
print(type(df_obj[:2]))    # 返回DataFrame类型

运行结果：

0   -1.886087
1   -1.660400
2    0.659249
3    1.429196
4   -0.035209
Name: a, dtype: float64
          a         b         c         d
0 -1.886087 -0.676003  0.108215 -1.081081
1 -1.660400 -0.720808  0.587814 -0.306038
<class 'pandas.core.frame.DataFrame'>

3. 不连续索引

df_obj[[‘label1’, ‘label2’]]
示例代码：

print(df_obj[['a','c']])

运行结果：

          a         c
0  1.103053 -0.248477
1  1.663475  0.134351
2  1.782068 -0.440859
3 -0.749792 -0.547487
4  0.750368 -0.478742

高级索引：标签、位置和混合

1. loc 标签索引

DataFrame 不能直接切片，可以通过loc来做切片
loc是基于标签名的索引，也就是我们自定义的索引名

示例代码：

# Series
print(ser_obj['b':'d'])
print(ser_obj.loc['b':'d'])

# DataFrame
print(df_obj['a'])
# 第一个参数索引行，第二个参数是列
print(df_obj.loc[0:2, 'a'])

运行结果：

b    1
c    2
d    3
dtype: int64
b    1
c    2
d    3
dtype: int64
0   -0.295739
1   -1.311157
2    0.999498
3   -1.142035
4   -0.434774
Name: a, dtype: float64
0   -0.295739
1   -1.311157
2    0.999498
Name: a, dtype: float64

2. iloc 位置索引

作用和loc一样，不过是基于索引编号来索引

示例代码：

# Series
print(ser_obj[1:3])
print(ser_obj.iloc[1:3])

# DataFrame
# 注意和df_obj.loc[0:2, 'a']的区别
print(df_obj.iloc[0:2, 0])

运行结果：

b    1
c    2
dtype: int64
b    1
c    2
dtype: int64
0    0.548807
1    1.730424
Name: a, dtype: float64

3. ix 标签与位置混合索引

ix是以上二者的综合，既可以使用索引编号，又可以使用自定义索引，要视情况不同来使用，
如果索引既有数字又有英文，那么这种方式是不建议使用的，容易导致定位的混乱。

示例代码：

# 混合索引 ix
# Series
print(ser_obj.ix[1:3])
print(ser_obj.ix['b':'c'])

# DataFrame
print(df_obj.loc[0:2, 'a'])
print(df_obj.ix[0:2, 0])

运行结果：

b    1
c    2
dtype: int64
b    1
c    2
dtype: int64
0    0.839655
1   -1.625122
2    0.446696
Name: a, dtype: float64
0    0.839655
1   -1.625122
2    0.446696
Name: a, dtype: float64