Django分页慢的问题解决方案

最新推荐文章于 2024-06-02 09:47:16 发布

yinshuwei

最新推荐文章于 2024-06-02 09:47:16 发布

阅读量3.3k

点赞数 1

分类专栏： Django 文章标签： Django 分页分页性能分页慢高效分页

本文链接：https://blog.csdn.net/yinshuwei/article/details/90199070

版权

Django 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在使用Django进行分页的时候，发现数据量大了会变得很慢，有明显的延迟几百万数据延迟竟能达到1-2秒。经过一番分析，本人总结出了几个关键点，并提供了一种实测可行的解决方案。

首先介绍一下环境，本人使用的是layUI后台管理模板。分页layUI已经搞定，后台服务只需要按照layUI的请求，返回正确页面的数据和总数据量。前端请求url类似这样：/use/ship/data?page=632&limit=10，其中page为查询的页码，limit表示每页多少条数据。后台需要根据page和limit，筛选出正确的页面数据，并且还要返回在总数据量。

一开始，本人使用Paginator进行处理，代码如下：

from django.core.paginator import Paginator

ship_list = ShipModel.objects.all()
paginator = Paginator(ship_list , limit)
count=paginator .count
ship_list = paginator.page(page)

其中ShipModel是预定义好的模型。page为查询的页码，limit表示每页多少条数据。

代码不复杂，但是当数据量达到200万的时候，明显感到迟钝。经过分析首先发现最耗时的是count=paginator .count这句话。

这是统计总数据量的操作，数据量大慢一点也算说得过去，实测大约500毫秒。这句话实际上会产生类似select count(*) from shipmodel这样的最简单的SQL，看上去没有可优化的手段了。于是我想到可以使用缓存优化，可以把总数据量结果放到缓存，当然要这么做必须保证应用上可行。除了这个地方慢，发现ShipModel.取数据的时候有一个现象，那就是随着page的增大，变得越来越慢，由几毫秒到几十毫秒最终甚至达到几百毫秒。

这又是为什么呢？实际上，Django分页模型最终将用户请求转化为特定的SQL，在语句后面添加了限定，类似“limit 10 offset 1000”这样的参数。limit 10指出限定选择10条记录，而offset 1000指出，从当前查询条件选中的数据中往后偏移1000条。这样的话就很容易解析这个问题了。数据库的索引是一种数据结构，它可以经过很少次数的判定定位到要找的数据，但是从特定数据往后再偏移多少条记录就不好确定了，这是没有办法直接计算出要找的数据的地址的，因此遍历就再所难免，因此偏移量越大遍历数据就越多，速度自然越慢。好了，我们知道了这个原理就能够理解这个问题的原因，同时还能想出很多解决这个问题的方案。本人给出一种简单实用的方案，可以解决实际问题。

本方案基于这样一种假设，即所有人的操作大部分情况下都是从前面往后翻页，而非从后往前翻（更复杂的方案可以考虑这一点，但考虑这种情况发生概率低，所以不予考虑）。实际上本方案分成了两部分情况来考虑，一种情况是用户已经查看过至少一页，那么用户再查询新的一页的时候，如果这一新页距离上一页不远，也就是相差记录数不多，我们就可以利用上一页最后一条记录的id来往下查找，而非从总数据集的第一条记录开始往下找，这可以大大提高查询效率。另一种情况就是排除了第一种情况之外的各种情况，这种情况下我们没有一个已知id的记录距离目标页面很近，此时我们采用这样一种手段即直接定位出目标页面的起始id和终止id。然后再根据起始id和终止id直接定位，性能同样可控，但比第一种情况还是要差不少。本方案使用了缓存，主要记录总数据量、上次浏览页面的最后一条记录的偏移量以及id。

具体代码如下：

def cacu_page_url_key(url):
'''
该方法将去掉分页请求url中的分页相关的page和limit两个参数
这样的话对于同一查询条件的分页URL，不论请求哪一页，其URL是相同的
进一步可以利用该URL作为缓存的Key
'''
p_page=url.find("?page=")
p_limit=url.find("&limit=",p_page+7)
p_limit_end=url.find("&",p_limit+8)
if p_limit==-1 or p_page==-1:
return None
elif p_limit_end==-1:
return url[:p_page]
else:
return url[:p_page+1]+url[p_limit_end+1:]

def fetch_page(ship_list,page_index , limit):
id_list=ship_list.values('id')[(page_index-1)*limit:page_index*limit-1]
id_len=len(id_list)
start_id=id_list[0]['id']
end_id=id_list[id_len-1]['id']
end_index=(page_index-1)*limit+id_len-1
ship_list=ship_list.filter(id__range=(start_id,end_id))
return (ship_list,end_index,end_id)

def cacu_page_with_cache(ship_list,url,page_index , limit):
'''
计算分页数据，page_index 为页索引号，即第几页，起始值为1，limit 每页大小限制
'''
url_key=cacu_page_url_key(url)
count=1
if url_key :
page_info=cache.get(url_key)
if page_info :
count,end_index,end_id=page_info
begin_index=(page_index-1)*limit
if begin_index>end_index and begin_index-end_index<10000:
ship_list=ship_list.filter(id__gt=end_id)[begin_index-end_index-1:begin_index-end_index-1+limit]
plan_list_len=len(ship_list)
cache.set(url_key,(count,begin_index+plan_list_len-1,ship_list[plan_list_len-1].id))
else:
ship_list,end_index,end_id=fetch_page(ship_list,page_index , limit)
cache.set(url_key,(count,end_index,end_id))
else:
count=ship_list.count()
ship_list,end_index,end_id=fetch_page(ship_list,page_index , limit)
cache.set(url_key,(count,end_index,end_id))
else:
count=ship_list.count()
ship_list,end_index,end_id=fetch_page(ship_list,page_index , limit)
return (count,ship_list)