Python进阶实战爬虫：爬取千千音乐

最新推荐文章于 2021-07-30 15:42:23 发布

学习-永无止境

最新推荐文章于 2021-07-30 15:42:23 发布

阅读量283

点赞数

分类专栏： Python零基础学习教程文章标签：数据挖掘 python

本文链接：https://blog.csdn.net/weixin_45974628/article/details/103647415

版权

本文介绍了如何使用Python爬取千千音乐的歌单，并将其下载到本地。通过分析JS链接，实现类人爬取，旨在提升编程技术。项目代码已上传至GitHub，供详细查看。

摘要由CSDN通过智能技术生成

1.首先千千音乐的robots协议

User-agent: Baiduspider
Allow: /

User-agent: Baiduspider-image
Allow: /

User-agent: YoudaoBot
Allow: /

User-agent: Sogou web spider
Allow: /

User-agent: Sogou inst spider
Allow: /

User-agent: Sogou spider2
Allow: /

User-agent: Sogou blog
Allow: /

User-agent: Sogou News Spider
Allow: /

User-agent: Sogou Orion spider
Allow: /

User-agent: Sosospider
Allow: /

User-agent: 360Spider
Allow: /

User-agent: Sogouspider
Allow: /

User-agent: *
Disallow: /

2.项目目的

对于千千音乐的首页的歌单进行爬取,创建以歌单为名字的文件夹并且下载歌单内的所有歌曲保存至本地

3.项目介绍功能介绍

难点:千千音乐他音频是由JS生成的难点就是找到他的js链接

不要加多进程与多线程进去增加千千音乐的负担,只做类人爬取,对于技术的练习

爬取内容请不要用做商业用途

4.项目链接

https://github.com/a568972484/spider_music

具体查看项目

5.代码展示

import requests
from lxml.html import etree
import os
import re
import json

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36', }
#输出字典形式 歌单名字:url
def musics_name_urls_dict():

    response = requests.get('http://music.taihe.com/',headers= headers)
    response.encoding = 'utf8'
    response_html = etree.HTML(response.text)
    music_xpath = '//*