大数据量分页（海量数据分页）的高效实现

最新推荐文章于 2024-06-02 09:47:16 发布

wzhw2008

最新推荐文章于 2024-06-02 09:47:16 发布

阅读量1.1k

点赞数

分类专栏： mysql 文章标签： mysql 存储数据库 json php

mysql 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

海量数据分页，已经无法使用数据库自带的分页机制，比如MySQL的Limit，这会导致严重的性能问题，经过生产环境大数据量千万级数据量分页实现的的总结，目前为止我所使用的大数据量分页机制有两条：

1.　如果表中存在连续的数字列并为索引，那么通过页码即可计算出此字段的范围，直接作范围查询即可：

start = (page-1)*pagesize

end = page*pagesize

select * from table where id >start and id <=end

2. 对大量数据旧的分页数据，实际上是固定的，变化的仅仅是前面数页。那么将旧数据导出成一个特殊表，直接以页码为索引列，即可快速分页。

成功案例：有问必答网(120ask.com)的列表页，目前大约共3000万主题帖，每页显示30条记录，这样大约是100万页。将每页要显示的数据作成一个字段，页码及科室两个字段作主索引，因为业务要求要按科室及页码列出主题，同时科室分类存在层次关系，属性子科室的主题，也需要显示在父科室列表中，这样列表的总记录数实际上是超过3000万的，冗余度大约是2.5，即有7500万条记录，每页显示30，即总共大约有250万页。现在将数据表重新进行设计，每页要显示的数据，作为一条记录，这样此表仅仅就只有250万条记录，也就相当于250万条记录的数据表，可胜任7500万主题的分页需要。表结构大致如下：
page #当前记录的页码

classid #科室id

data #当前页要显示的数据原始主题记录json化或php序列化后的字符串

但此方案的问题就是数据更新及删除的同步问题。建议是较新数据周期性（如每4小时）地重新整理，旧数据可使用较慢的周期（如每天）速度处理。同时删除帖子时应该先删除帖子内容，再使用异步队列机制处理数据的同步和更新。虽然带来维护上的麻烦，但有效地处理了大数据量分页显示的问题。

120ask.com列表页及帖子页，全部使用伪静态方式提供访问，最长的内科列表页，已经达到了30万页。

数据的存储使用三台Dell R610机器存储，每次对列表页或帖子页的访问，均需要从MySQL查询。目前已经胜任每日约900万次访问量。如果有任何疑惑，请联系zhangxugg@163.com。如果你有更好的办法，欢迎一起探讨。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
大数据量分页（海量数据分页）的高效实现

海量数据分页，已经无法使用数据库自带的分页机制，比如MySQL的Limit，这会导致严重的性能问题，经过生产环境大数据量千万级数据量分页实现的的总结，目前为止我所使用的大数据量分页机制有两条： 1.　如果表中存在连续的数字列并为索引，那么通过页码即可计算出此字段的范围，直接作范围查询即可：start = (page-1)*pagesizeend = page*pagesizes
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。