sqlite 的数据插入速度问题

最新推荐文章于 2023-06-11 20:59:36 发布

zhongwei_sun

最新推荐文章于 2023-06-11 20:59:36 发布

阅读量536

点赞数

分类专栏：数据库 Python 文章标签：数据库

Python 同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

文章转载自大象笔记

http://www.sunzhongwei.com

昨天写了一个将 5000 万行数据导入 sqlite 的程序。

就是简单的 key， value 型数据，key 为定长字符串，同时以此列为主键，建立索引。

最初的做法是，直接插入单表，每一万行数据为一个事务。用了一个晚上，大概 10 个小时，只插入了 2500万行。只完成了一半。最初的10万行数据，每一万行插入耗时都在1秒内。随着表内的数据增多，插入速度越来越慢，到 400万行时，每一万行数据插入耗时已经接近 20 秒。。。

翻看了 sqlite 官网的 FAQ，有这样的描述，大概意思是：

在非单行事务的情况下，sqlite 在普通 PC 上能轻松达到 5 万行每秒的插入速度；而在单行事务的情况下，7200转的硬盘只能达到 6 条每秒（因为要保证事务性，磁头就需要来回切换写入数据）。

所以，这里插入慢的原因应该是建立索引的耗时。

由于这些数据里有重复数据，所以不方便采用先插入数据，后建立索引的方式。只能进行分表，以减小表的规模。于是，分为 256 个表，以 key 的头两个字母做散列。只用了不到半个小时就插入完毕。

需要注意的是，尽量控制每个分表的每次插入数据在 1 万行以上，减少事务的耗时。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
sqlite 的数据插入速度问题

文章转载自大象笔记 http://www.sunzhongwei.com 昨天写了一个将 5000 万行数据导入 sqlite 的程序。就是简单的 key， value 型数据，key 为定长字符串，同时以此列为主键，建立索引。最初的做法是，直接插入单表，每一万行数据为一个事务。用了一个晚上，大概 10 个小时，只插入了 2500万行。只完成了一半。最初的1...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。