Pandas入门(学习笔记二)-Pandas的索引操作

Pandas的索引操作

索引对象Index

pandas中的索引对象是用于存储标签和其他元数据的(例如轴名称或标签)。在构造Series和DataFrame时,你所使用的任意数组或者标签序列都可以在内部转换成索引对象。

1.Series和DataFrame中的索引都是Index对象

示例代码:

ser_obj = pd.Series(range(10))
dict_data = {'A': 1,
             'B': pd.Timestamp('20170426'),
             'C': pd.Series(1, index=list(range(4)),dtype='float32'),
             'D': np.array([3] * 4,dtype='int32'),
             'E': ["Python","Java","C++","C"],
             'F': 'ITCast' }
df_obj2 = pd.DataFrame(dict_data)

print(type(ser_obj.index))
print(type(df_obj2.index))

print(df_obj2.index)

运行结果:

<class 'pandas.indexes.range.RangeIndex'>
<class 'pandas.indexes.numeric.Int64Index'>
Int64Index([0, 1, 2, 3], dtype='int64')

2.索引对象不可变,保证了数据的安全

示例代码:

# 索引对象不可变
df_obj2.index[0] = 2

运行结果:

Traceback (most recent call last):
  File "D:/workplace/Python/ML从入门到实践/利用python进行数据分析/Pandas入门/demo02.py", line 20, in <module>
    df_obj2.index[0] = 2
  File "D:\workplace\Python\ML_Python\venv\lib\site-packages\pandas\core\indexes\base.py", line 3938, in __setitem__
    raise TypeError("Index does not support mutable operations")
TypeError: Index does not support mutable operations

常见的Index种类

  • Index,索引
  • Int64Index,整数索引
  • MultiIndex,层级索引
  • DatetimeIndex,时间戳类型

其他一些索引对象的方法和属性

方法描述
append将额外的索引对象粘贴到原索引后,产生一个新的索引
difference计算两个索引的差值
intersection计算两个索引的交集
union计算两个索引的并集
isin计算每一个值是否在传值容器中的布尔数组
delete将位置i的元素删除,并产生新的索引
drop根据传参删除指定索引,并产生新的索引
insert在位置i插入索引,并产生新的索引
is_unique如果索引序列唯一则返回True
unique计算索引的唯一值序列

Series索引

1. index 指定行索引名

示例代码:

ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e'])
print(ser_obj.head())

运行结果:

a    0
b    1
c    2
d    3
e    4
dtype: int64

2. 行索引

ser_obj[‘label’], ser_obj[pos]
示例代码:

print(ser_obj['b'])
print(ser_obj[2])

运行结果:

1
2

3. 切片索引

ser_obj[2:4], ser_obj[‘label1’: ’label3’]

注意,按索引名切片操作时,是包含终止索引的。
示例代码:

print(ser_obj[2:4])
print(ser_obj['b':'d'])

运行结果:

c    2
d    3
dtype: int64
b    1
c    2
d    3
dtype: int64

4. 不连续索引

ser_obj[[‘label1’, ’label2’, ‘label3’]]
示例代码:

print(ser_obj[[0,3,4]])
print(ser_obj[['a','c']])

运行结果:

a    0
d    3
e    4
dtype: int64
a    0
c    2
dtype: int64

5. 布尔索引

示例代码:

ser_bool = ser_obj > 2
print(ser_bool)
print("*"*20)
print(ser_obj[ser_bool])
print("*"*20)
print(ser_obj[ser_obj > 2])

运行结果:

a    False
b    False
c    False
d     True
e     True
dtype: bool
********************
d    3
e    4
dtype: int64
********************
d    3
e    4
dtype: int64

DataFrame索引

1. columns 指定列索引名

示例代码:

df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])
print(df_obj.head())

运行结果:

          a         b         c         d
0 -1.956614  0.396232  0.485422 -1.528516
1 -0.435897 -0.926318  1.033647 -2.322224
2  1.469886  0.584511  0.997910  0.505871
3  0.782513  0.576741  0.331227  0.115152
4 -0.074613 -0.041456  0.073378 -0.726169

在这里插入图片描述

2. 列索引

df_obj[[‘label’]]
示例代码:

print(df_obj['a'])  # 返回Series类型
print(df_obj[:2])  # 返回DataFrame类型
print(type(df_obj[:2]))    # 返回DataFrame类型

运行结果:

0   -1.886087
1   -1.660400
2    0.659249
3    1.429196
4   -0.035209
Name: a, dtype: float64
          a         b         c         d
0 -1.886087 -0.676003  0.108215 -1.081081
1 -1.660400 -0.720808  0.587814 -0.306038
<class 'pandas.core.frame.DataFrame'>

3. 不连续索引

df_obj[[‘label1’, ‘label2’]]
示例代码:

print(df_obj[['a','c']])

运行结果:

          a         c
0  1.103053 -0.248477
1  1.663475  0.134351
2  1.782068 -0.440859
3 -0.749792 -0.547487
4  0.750368 -0.478742

高级索引:标签、位置和混合

1. loc 标签索引

DataFrame 不能直接切片,可以通过loc来做切片
loc是基于标签名的索引,也就是我们自定义的索引名

示例代码:

# Series
print(ser_obj['b':'d'])
print(ser_obj.loc['b':'d'])

# DataFrame
print(df_obj['a'])
# 第一个参数索引行,第二个参数是列
print(df_obj.loc[0:2, 'a'])

运行结果:

b    1
c    2
d    3
dtype: int64
b    1
c    2
d    3
dtype: int64
0   -0.295739
1   -1.311157
2    0.999498
3   -1.142035
4   -0.434774
Name: a, dtype: float64
0   -0.295739
1   -1.311157
2    0.999498
Name: a, dtype: float64

2. iloc 位置索引

作用和loc一样,不过是基于索引编号来索引

示例代码:

# Series
print(ser_obj[1:3])
print(ser_obj.iloc[1:3])

# DataFrame
# 注意和df_obj.loc[0:2, 'a']的区别
print(df_obj.iloc[0:2, 0])

运行结果:

b    1
c    2
dtype: int64
b    1
c    2
dtype: int64
0    0.548807
1    1.730424
Name: a, dtype: float64

3. ix 标签与位置混合索引

ix是以上二者的综合,既可以使用索引编号,又可以使用自定义索引,要视情况不同来使用,
如果索引既有数字又有英文,那么这种方式是不建议使用的,容易导致定位的混乱。

示例代码:

# 混合索引 ix
# Series
print(ser_obj.ix[1:3])
print(ser_obj.ix['b':'c'])

# DataFrame
print(df_obj.loc[0:2, 'a'])
print(df_obj.ix[0:2, 0])

运行结果:

b    1
c    2
dtype: int64
b    1
c    2
dtype: int64
0    0.839655
1   -1.625122
2    0.446696
Name: a, dtype: float64
0    0.839655
1   -1.625122
2    0.446696
Name: a, dtype: float64
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值