Pandas入门(学习笔记二)-Pandas的索引操作

Pandas的索引操作

索引对象Index

pandas中的索引对象是用于存储标签和其他元数据的(例如轴名称或标签)。在构造Series和DataFrame时,你所使用的任意数组或者标签序列都可以在内部转换成索引对象。

1.Series和DataFrame中的索引都是Index对象

示例代码:

ser_obj = pd.Series(range(10))
dict_data = {'A': 1,
             'B': pd.Timestamp('20170426'),
             'C': pd.Series(1, index=list(range(4)),dtype='float32'),
             'D': np.array([3] * 4,dtype='int32'),
             'E': ["Python","Java","C++","C"],
             'F': 'ITCast' }
df_obj2 = pd.DataFrame(dict_data)

print(type(ser_obj.index))
print(type(df_obj2.index))

print(df_obj2.index)

运行结果:

<class 'pandas.indexes.range.RangeIndex'>
<class 'pandas.indexes.numeric.Int64Index'>
Int64Index([0, 1, 2, 3], dtype='int64')

2.索引对象不可变,保证了数据的安全

示例代码:

# 索引对象不可变
df_obj2.index[0] = 2

运行结果:

Traceback (most recent call last):
  File "D:/workplace/Python/ML从入门到实践/利用python进行数据分析/Pandas入门/demo02.py", line 20, in <module>
    df_obj2.index[0] = 2
  File "D:\workplace\Python\ML_Python\venv\lib\site-packages\pandas\core\indexes\base.py", line 3938, in __setitem__
    raise TypeError("Index does not support mutable operations")
TypeError: Index does not support mutable operations

常见的Index种类

  • Index,索引
  • Int64Index,整数索引
  • MultiIndex,层级索引
  • DatetimeIndex,时间戳类型

其他一些索引对象的方法和属性

方法描述
append将额外的索引对象粘贴到原索引后,产生一个新的索引
difference计算两个索引的差值
intersection计算两个索引的交集
union计算两个索引的并集
isin计算每一个值是否在传值容器中的布尔数组
delete将位置i的元素删除,并产生新的索引
drop根据传参删除指定索引,并产生新的索引
insert在位置i插入索引,并产生新的索引
is_unique如果索引序列唯一则返回True
unique计算索引的唯一值序列

Series索引

1. index 指定行索引名

示例代码:

ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e'])
print(ser_obj.head())

运行结果:

a    0
b    1
c    2
d    3
e    4
dtype: int64

2. 行索引

ser_obj[‘label’], ser_obj[pos]
示例代码:

print(ser_obj['b'])
print(ser_obj[2])

运行结果:

1
2

3. 切片索引

ser_obj[2:4], ser_obj[‘label1’: ’label3’]

注意,按索引名切片操作时,是包含终止索引的。
示例代码:

print(ser_obj[2:4])
print(ser_obj['b':'d'])

运行结果:

c    2
d    3
dtype: int64
b    1
c    2
d    3
dtype: int64

4. 不连续索引

ser_obj[[‘label1’, ’label2’, ‘label3’]]
示例代码:

print(ser_obj[[0,3,4]])
print(ser_obj[['a','c']])

运行结果:

a    0
d    3
e    4
dtype: int64
a    0
c    2
dtype: int64

5. 布尔索引

示例代码:

ser_bool = ser_obj > 2
print(ser_bool)
print("*"*20)
print(ser_obj[ser_bool])
print("*"*20)
print(ser_obj[ser_obj > 2])

运行结果:

a    False
b    False
c    False
d     True
e     True
dtype: bool
********************
d    3
e    4
dtype: int64
********************
d    3
e    4
dtype: int64

DataFrame索引

1. columns 指定列索引名

示例代码:

df_obj = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])
print(df_obj.head())

运行结果:

          a         b         c         d
0 -1.956614  0.396232  0.485422 -1.528516
1 -0.435897 -0.926318  1.033647 -2.322224
2  1.469886  0.584511  0.997910  0.505871
3  0.782513  0.576741  0.331227  0.115152
4 -0.074613 -0.041456  0.073378 -0.726169

在这里插入图片描述

2. 列索引

df_obj[[‘label’]]
示例代码:

print(df_obj['a'])  # 返回Series类型
print(df_obj[:2])  # 返回DataFrame类型
print(type(df_obj[:2]))    # 返回DataFrame类型

运行结果:

0   -1.886087
1   -1.660400
2    0.659249
3    1.429196
4   -0.035209
Name: a, dtype: float64
          a         b         c         d
0 -1.886087 -0.676003  0.108215 -1.081081
1 -1.660400 -0.720808  0.587814 -0.306038
<class 'pandas.core.frame.DataFrame'>

3. 不连续索引

df_obj[[‘label1’, ‘label2’]]
示例代码:

print(df_obj[['a','c']])

运行结果:

          a         c
0  1.103053 -0.248477
1  1.663475  0.134351
2  1.782068 -0.440859
3 -0.749792 -0.547487
4  0.750368 -0.478742

高级索引:标签、位置和混合

1. loc 标签索引

DataFrame 不能直接切片,可以通过loc来做切片
loc是基于标签名的索引,也就是我们自定义的索引名

示例代码:

# Series
print(ser_obj['b':'d'])
print(ser_obj.loc['b':'d'])

# DataFrame
print(df_obj['a'])
# 第一个参数索引行,第二个参数是列
print(df_obj.loc[0:2, 'a'])

运行结果:

b    1
c    2
d    3
dtype: int64
b    1
c    2
d    3
dtype: int64
0   -0.295739
1   -1.311157
2    0.999498
3   -1.142035
4   -0.434774
Name: a, dtype: float64
0   -0.295739
1   -1.311157
2    0.999498
Name: a, dtype: float64

2. iloc 位置索引

作用和loc一样,不过是基于索引编号来索引

示例代码:

# Series
print(ser_obj[1:3])
print(ser_obj.iloc[1:3])

# DataFrame
# 注意和df_obj.loc[0:2, 'a']的区别
print(df_obj.iloc[0:2, 0])

运行结果:

b    1
c    2
dtype: int64
b    1
c    2
dtype: int64
0    0.548807
1    1.730424
Name: a, dtype: float64

3. ix 标签与位置混合索引

ix是以上二者的综合,既可以使用索引编号,又可以使用自定义索引,要视情况不同来使用,
如果索引既有数字又有英文,那么这种方式是不建议使用的,容易导致定位的混乱。

示例代码:

# 混合索引 ix
# Series
print(ser_obj.ix[1:3])
print(ser_obj.ix['b':'c'])

# DataFrame
print(df_obj.loc[0:2, 'a'])
print(df_obj.ix[0:2, 0])

运行结果:

b    1
c    2
dtype: int64
b    1
c    2
dtype: int64
0    0.839655
1   -1.625122
2    0.446696
Name: a, dtype: float64
0    0.839655
1   -1.625122
2    0.446696
Name: a, dtype: float64
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: PandasPython中一个强大的数据分析库,它可以轻松地读取、处理和分析各种数据类型,包括Excel表格。本文将介绍如何使用Pandas操作Excel文件,并提供相应的笔记PDF文件进行参考。 要使用Pandas操作Excel文件,首先需要安装Pandas库。在安装完Pandas之后,我们可以使用"pandas.read_excel"函数来读取Excel文件。该函数可以接受Excel文件路径作为参数,并返回一个Pandas的DataFrame对象,以便我们进行后续的数据操作和分析。 一旦我们读取了Excel文件,就可以使用Pandas提供的各种函数来对数据进行处理和分析。例如,我们可以使用"head"函数来查看数据的前几行,使用"describe"函数来获取数据的统计信息,或者使用"sort_values"函数对数据进行排序等等。这些函数可以帮助我们更好地理解和掌握数据,从而做出更准确的分析和决策。 此外,Pandas还提供了一些函数来进行数据的筛选、修改和计算。我们可以使用"loc"和"iloc"函数来选择特定的行和列,使用"fillna"函数来填充空值,使用"apply"函数对某一列数据进行自定义计算等等。这些函数的使用可以帮助我们快速地完成数据的处理和分析任务。 最后,我们可以将Pandas的DataFrame对象转换为PDF文件,以便记录我们的数据处理和分析过程。可以使用"df.to_pdf"函数将DataFrame对象保存为PDF文件,该文件可以作为笔记使用,方便我们回顾和分享。 总之,Pandas提供了丰富而强大的功能,可以帮助我们轻松地操作Excel文件,并进行相关的数据处理和分析。同时,我们可以将操作过程记录为PDF文件,方便日后参考和分享。 ### 回答2: pandas操作Excel的方法非常方便,可用于读取、写入和操作Excel文件。下面是关于pandas操作Excel的笔记。 1. 读取Excel文件:可以使用`pandas.read_excel()`函数来读取Excel文件,并将其转换为DataFrame对象。可以通过指定文件路径、工作表名称和其他参数来读取不同的工作表和数据。 2. 数据筛选和操作:我们可以使用pandas的各种函数和方法对Excel中的数据进行筛选和操作。例如,`df.drop()`可以删除指定的行或列,`df.loc()`可以按条件选择数据等。这些方法可以帮助我们根据需要对Excel中的数据进行处理和分析。 3. 数据写入Excel:使用`pandas.DataFrame.to_excel()`函数可以将DataFrame对象写入到Excel文件中。可以通过指定文件路径和其他参数来实现对Excel文件的写入操作。 4. 数据统计和计算:pandas提供了许多内置函数和方法来进行数据的统计和计算操作。例如,`df.mean()`可以计算平均值,`df.sum()`可以计算总和等。这些函数和方法可以帮助我们快速计算和分析Excel中的数据。 总之,pandas是一个强大的工具,可以方便地操作Excel文件。它提供了许多函数和方法,可以帮助我们读取、写入和处理Excel中的数据。通过使用pandas,我们可以更高效地进行数据分析和处理工作,在处理大量数据时尤其有用。无论是初学者还是有经验的数据分析师,都可以受益于pandas在Excel操作中的优势。 ### 回答3: pandas是一个在Python中用于数据分析操作的强大库。它提供了大量的函数和方法,方便我们对Excel文件进行读取、写入和处理。下面是关于pandas操作Excel的一些笔记: 1. 读取Excel文件: 我们可以使用pandas的`read_excel()`函数来读取Excel文件。只需要传入Excel文件的路径或URL即可。读取后的数据可以保存在DataFrame对象中,方便后续的操作和分析。 2. 写入Excel文件: 利用pandas,我们可以使用`to_excel()`函数将数据从DataFrame对象写入Excel文件中。我们可以指定文件的输出路径和文件名,还可以设置写入的sheet名称和是否包含行索引。 3. 数据操作和处理: pandas提供了丰富的数据处理功能。我们可以对读取的Excel数据进行选取、过滤、排序、合并、拆分等操作。比如可以使用`df.head()`来获取数据的前几行,使用`df.describe()`来获取数据的基本统计信息。 4. 数据筛选和过滤: 在pandas中,我们可以使用布尔索引来筛选和过滤数据。比如可以使用`df[df['列名'] > 值]`来获取满足条件的数据行。 5. 数据统计和分析: pandas提供了丰富的数据统计和分析函数,可以方便地进行数据聚合、求和、平均值等操作。比如可以使用`df.groupby('列名').mean()`来对数据进行分组并计算平均值。 6. 缺失值处理: 如果Excel文件中存在缺失值,我们可以使用pandas的函数来处理缺失值。比如使用`df.dropna()`来删除包含缺失值的行,使用`df.fillna(value)`来填充缺失值。 总之,pandas提供了丰富的函数和方法,方便我们对Excel文件进行读取、写入和处理。它不仅简化了数据操作的流程,还可以高效地处理大量的数据。通过对pandas学习和应用,我们可以更好地处理和分析Excel数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值