Pandas中高效的选择和替换操作总结

使用正确的工具和技术来最大限度地利用数据是很重要的。Pandas是数据操作、分析和可视化的重要工具,有效地使用Pandas可能具有挑战性,从使用向量化操作到利用内置函数,这些最佳实践可以帮助数据科学家使用Pandas快速准确地分析和可视化数据。

在本文中,我们将重点介绍在DataFrame上经常执行的两个最常见的任务,特别是在数据科学项目的数据操作阶段。这两项任务是有效地选择特定的和随机的行和列,以及使用replace()函数使用列表和字典替换一个或多个值。

在本文中,我们将使用下面的数据集:

扑克牌游戏数据集
婴儿名字数据集
我们使用的第一个数据集是扑克牌游戏数据集,如下所示。

poker_data = pd.read_csv(‘poker_hand.csv’)
poker_data.head()

在每个回合中,每个玩家手里有五张牌,每一张牌都有花色:红心、方块、梅花或黑桃,以及它的数字,范围从1到13。该数据集由一个人可以拥有的五张卡片的每一种可能组合组成。

Sn:第n张牌的符号,其中:1(红心),2(方块),3(梅花),4(黑桃)

Rn:第n张牌的排名,其中:1(王牌),2-10,11(J),12(Q),13(K)

第二个数据集是流行的婴儿名字数据集,其中包括2011年至2016年间最流行的新生儿名字:

names = pd.read_csv(‘Popular_Baby_Names.csv’)
names.head()

该数据集还包括按年份、性别和种族划分的美国最受欢迎的名字。例如,2011年,Chloe 这个名字在所有亚裔和太平洋岛民女性新生儿中排名第二。

下面我们开始进入正题

为什么需要高效的代码?
高效代码是指执行速度更快、计算容量更低的代码。在本文中,我们将使用time()函数来测量计算时间,我们通过在执行前和执行后获取时间,然后计算其差值获得代码的执行时间。下面是一个简单的例子:

import time

record time before execution

start_time = time.time()

execute operation

result = 5 + 2

record time after execution

end_time = time.time()
print(“Result calculated in {} sec”.format(end_time - start_time))
让我们看一个提高代码运行时间并降低计算时间复杂度的示例:我们将计算每个数字的平方,从0到100万。首先,我们将使用列表推导式来执行此操作,然后使用for循环重复相同的过程。

首先使用列表推导式:

#using List comprehension

list_comp_start_time = time.time()
result = [i*i for i in range(0,1000000)]
list_comp_end_time = time.time()
print(“Time using the list_comprehension: {} sec”.format(list_comp_end_time -
list_comp_start_time))

使用for循环来执行相同的操作:

Using For loop

for_loop_start_time= time.time()
result=[]
for i in range(0,1000000):
result.append(i*i)
for_loop_end_time= time.time()
print(“Time using the for loop: {} sec”.format(for_loop_end_time - for_loop_start_time))

可以看到它们之间有很大的差异,我们可以用百分比来计算它们之间的差异:

list_comp_time = list_comp_end_time - list_comp_start_time
for_loop_time = for_loop_end_time - for_loop_start_time
print(“Difference in time: {} %”.format((for_loop_time - list_comp_time)/
list_comp_time*100))

可以看到仅仅使用了不同的方法,但是在执行效率方面有了很大的不同。

使用.iloc[]和.loc[]选择行和列
这里我们将介绍如何使用.iloc[] & .loc[] pandas函数从数据中高效地定位和选择行。我们将使用iloc[]作为索引号定位器,使用loc[]作为索引名定位器。

在下面的例子中,我们选择扑克数据集的前500行。首先使用.loc[]函数,然后使用.iloc[]函数。

rows = range(0, 500)

Time selecting rows using .loc[]

loc_start_time = time.time()
poker_data.loc[rows]
loc_end_time = time.time()
print(“Time using .loc[] : {} sec”.format(loc_end_time - loc_start_time))

rows = range(0, 500)

Time selecting rows using .iloc[]

iloc_start_time = time.time()
poker_data.iloc[rows]
iloc_end_time = time.time()
print(“Time using .iloc[]: {} sec”.format(iloc_end_time - iloc_start_time))

loc_comp_time = loc_end_time - loc_start_time
iloc_comp_time = iloc_end_time - iloc_start_time
print(“Difference in time: {} %”.format((loc_comp_time - iloc_comp_time)/
iloc_comp_time*100))

虽然这两个方法使用的方式是相同的,但iloc[]的执行速度比loc[]快近70%。这是因为.iloc[]函数利用了索引的顺序,索引已经排序因此速度更快。
https://www.xiaohongshu.com/discovery/item/6314bf88000000000900c7ef
https://www.xiaohongshu.com/discovery/item/6313649d000000001101079e
https://www.xiaohongshu.com/discovery/item/63136439000000001303b155

https://www.xiaohongshu.com/discovery/item/631363be000000001201795e
https://www.xiaohongshu.com/discovery/item/631202d90000000012009b62
https://www.xiaohongshu.com/discovery/item/6312047d000000000900f0b2
https://www.xiaohongshu.com/discovery/item/631200df0000000012008a8d

我们还可以使用它们来选择列,而不仅仅是行。在下一个示例中,我们将使用这两种方法选择前三列。

iloc_start_time = time.time()
poker_data.iloc[:,:3]
iloc_end_time = time.time()
print(“Time using .iloc[]: {} sec”.format(iloc_end_time - iloc_start_time))

names_start_time = time.time()
poker_data[[‘S1’, ‘R1’, ‘S2’]]
names_end_time = time.time()
print(“Time using selection by name: {} sec”.format(names_end_time - names_start_time))

loc_comp_time = names_end_time - names_start_time
iloc_comp_time = iloc_end_time - iloc_start_time
print(“Difference in time: {} %”.format((loc_comp_time - iloc_comp_time)/
loc_comp_time*100))

可以看到,使用.iloc[]进行列索引仍然要快80%。所以最好使用.iloc[],因为它更快,除非使用loc[]更容易按名称选择某些列。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值