目录
爬取网站
爬取内容:一份文档,包含所有需要下载的歌曲名称,一行一首,爬取到的MP3或MP4资源会放在Audios文件夹下
网站分析
搜索歌曲
在该网站搜索歌曲会发送一个request请求,url为:
https://www.kumeiwp.com/index/search/data?page=1&limit=50&word=%E5%88%80%E9%83%8E&scope=all
分析:word参数的内容为搜索的歌曲名
搜索结果
网站返回一个json文件,如下
data键包含了当前页面所有歌曲的数据,包括歌曲的id,下载次数,大小,浏览次数,标题,下载连接等等
歌曲详细页面
歌曲的详细页面如下
本地下载就是歌曲的下载链接。
爬虫思路
如此,爬虫的思路明确了
-
获取歌曲名,合成搜索歌曲的url
-
获取搜索结果的json数据
-
获取目标歌曲的详细页面url
-
只爬取第一页的搜索结果,按下载量排序,打印前三的歌曲名,调用input选择歌曲下载
-
-
获取歌曲的下载地址
-
下载歌曲到指定目录
具体代码见github仓库
GitHub - TsuandaoNewone/Python-: 爬取网站:https://www.kumeiwp.com/index/search