大数据量分页(海量数据分页)的高效实现

海量数据分页,已经无法使用数据库自带的分页机制,比如MySQLLimit,这会导致严重的性能问题,经过生产环境大数据量千万级数据量分页实现的的总结,目前为止我所使用的大数据量分页机制两条:

 

1. 如果表中存在连续的数字列并索引,那么通过页码即可计算出此字段的范围,直接作范围查询即可:

start = (page-1)*pagesize

end = page*pagesize

select * from table where id >start and id <=end

 

2.  对大量数据旧的分页数据,实际上是固定的,变化的仅仅是前面数页。那么将旧数据导出成一个特殊表,直接以页码为索引列,即可快速分页。

 

成功案例:有问必答网(120ask.com)的列表页,目前大约共3000万主题帖,每页显示30条记录,这样大约是100万页。将每页要显示的数据作成一个字段,页码及科室两个字段作主索引,因为业务要求要按科室及页码列出主题,同时科室分类存在层次关系,属性子科室的主题,也需要显示在父科室列表中,这样列表的总记录数实际上是超过3000万的,冗余度大约是2.5,即有7500万条记录,每页显示30,即总共大约有250万页。现在将数据表重新进行设计,每页要显示的数据,作为一条记录,这样此表仅仅就只有250万条记录,也就相当于250万条记录的数据表,可胜任7500万主题的分页需要。表结构大致如下:
page #当前记录的页码

classid #科室id

data #当前页要显示的数据  原始主题记录json化或php序列化后的字符串

 

但此方案的问题就是数据更新及删除的同步问题。建议是较新数据周期性(如每4小时)地重新整理,旧数据可使用较慢的周期(如每天)速度处理。同时删除帖子时应该先删除帖子内容,再使用异步队列机制处理数据的同步和更新。虽然带来维护上的麻烦,但有效地处理了大数据量分页显示的问题

 

120ask.com列表页及帖子页,全部使用伪静态方式提供访问,最长的内科列表页,已经达到了30万页。

数据的存储使用三台Dell R610机器存储,每次对列表页或帖子页的访问,均需要从MySQL查询。目前已经胜任每日约900万次访问量。如果有任何疑惑,请联系zhangxugg@163.com如果你有更好的办法,欢迎一起探讨。


  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值