DataFrame通过修改索引提升查找速度

最新推荐文章于 2022-05-18 17:56:12 发布

Sun_Sherry

最新推荐文章于 2022-05-18 17:56:12 发布

阅读量2.6k

点赞数 2

分类专栏： Python 文章标签： DataFrame 查找速度

本文链接：https://blog.csdn.net/yeshang_lady/article/details/103990634

版权

Python 专栏收录该内容

55 篇文章 17 订阅

订阅专栏

下面以MovieLens-100K(可以在网上自己下载为例)来展示不同语法的查询效果。

import os
import pandas as pd
import time
import random

data=[]
with open(os.path.join('ml_data','u.data'),'r') as r_data:
    for line in r_data:
        data.append(line.split())
data = pd.DataFrame(data,columns=['User_ID','Item_ID','Rating','Timestamp'])
#要求取出每个user_id对每个item_id的timestamp字段
#现将user_id和item_id保存成tuple对
#原始数据共有100000行，这里只随机从中抽取10000个tuple对
user_item=[(user,item) for user,item in data[['User_ID','Item_ID']].values]
random.shuffle(user_item)
#第一种写法
start=time.time()
for i in user_item[:5000]:
    date1=data[(data['User_ID']==i[0])&(data['Item_ID']==i[1])]['Timestamp']
end=time.time()
print("Method 1-total time: ",end-start)
print("Method 2-average time: ",(end-start)/5000)
#第二种写法
user_item_data=data.set_index(['User_ID','Item_ID'])
start=time.time()
for i in user_item:
    date1=user_item_data.loc[i]['Timestamp']
end=time.time()
print("Method 2-total time: ",end-start)
print("Method 2-average time: ",(end-start)/5000)

其代码运行结果如下：

方法1和方法2的区别在于查找方法的不同，方法1没查找一次需要把所有数据都扫描一遍。而方法2通过将要筛选的字段做成索引而大大提升了查询速度。在大批量数据下，这种方法非常有效。

Sun_Sherry

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
DataFrame通过修改索引提升查找速度

下面以MovieLens-100K(可以在网上自己下载为例)来展示不同语法的查询效果。import osimport pandas as pdimport timeimport randomdata=[]with open(os.path.join('ml_data','u.data'),'r') as r_data: for line in r_data: ...
复制链接

扫一扫