在此记录一下自己的爬虫练习之路
我猜来看我这篇文章的基本都是小白或者是有一点基础想要进一步提高自己实力的'爬虫'们
让我们一起共同进步吧!
我会尽量将每一步都讲出来,尽量让大家看得明白,现在开始吧
网址:某狗音乐
分析过程
- 首先打开酷狗音乐网页,然后按F12打开开发者工具,再在搜索框输入任意歌名,
之后按下回车进行搜索 - 进入搜索后网页会持续加载,右边开发者工具不断会有内容出现,当网页加载完成后在下面列表里一个个的点开看,这个过程会很枯燥,加油.在看了一段时间后会找到左边红框的接口,预览里就是网页显示的搜索结果
- 复制cURL,
爬虫工具库-spidertools.cn
去这个网页中转换为python代码去pycharm中看看能不能请求到结果,因为复制cURL的操作无法截图,直接看图吧将复制的cURL粘贴到左边方框,然后全选右边的代码进行复制
- 成功请求,说明接口与请求参数都是有效的
- 删除框中的代码,验证接口是否验证cookie
验证说明不需要cookie也可以请求,nice!因为我不会逆向cookie生成过程,省事了~
- 转回开发者工具,多次请求验证除了框选的参数其他全是固定的,时间戳和搜索参数好解决,剩下加密参数的加密方法现在开始一步步调试出来
- 按shift+ctrl+f打开全局搜索,先搜索mid,会看到多个选项,不知道选哪个的话就每一个都点进去看看,看看代码是否包含mid以及赋值,实在不行就每一个点进去然后点击代码旁边最外面的边框打上断点,然后去搜索框搜不同的内容,按下回车会发现代码停在了断点的位置(俺也打了好几个断点才找到真正的位置)