1 缘由
最近做一个小项目,pandas加载内存500万条记录,需要做条件查询。单次查询需要300ms,遍历下来是无法忍受的。
2 结论
尝试了许多方法,直接上图吧。留个记录
可以看到速度效率:加索引 > query > 传统方法。
3 参考链接
百度搜索不易,谷歌搜索也茫茫。找到的参考链接如下:
- https://www.shuzhiduo.com/A/GBJrKM1q50/ query和eval用法
- https://www.longzf.com/from_Pandas-wan_to_Pandas-master/ 在这里发现索引方法,之前一直想像数据库那样加索引
- https://www.jianshu.com/p/6de7b6fd3790 数据csv读取再保存pkl,方便下次读取加速,此外还有列计算加速
- https://www.thinbug.com/q/46426875 iloc和iat对比,标量查询iat快70%