文 | 某某白米饭
来源:Python 技术「ID: pythonall」
前阵子阿里云盘大火,送了好多的容量空间。而且阿里云盘下载是不限速,这点比百度网盘好太多了。这两天看到一个第三方网站可以搜索阿里云盘上的资源,但是它的资源顺序不是按时间排序的。这种情况会造成排在前面时间久远的资源是一个已经失效的资源。小编这里用 python 抓取后重新排序。
网页分析
这个网站有两个搜索路线:搜索线路一和搜索线路二,本文章使用的是搜索线路二。
打开控制面板下的网络,一眼就看到一个 seach.html 的 get 请求。
上面带了好几个参数,四个关键参数:
page:页数,
keyword:搜索的关键字
category:文件分类,