【Python——爬取网易云相关歌曲信息（多线程）】

最新推荐文章于 2024-10-02 10:53:34 发布

随缘859

最新推荐文章于 2024-10-02 10:53:34 发布

阅读量421

点赞数 4

文章标签： python 开发语言爬虫

本文链接：https://blog.csdn.net/weixin_59638462/article/details/142621295

版权

import re
import requests
import Proxy
import time
from threading import Thread

headers = {省略}
cookies1 = {省略} 
cookies2 = {省略} 
cookies3 = {省略} 
cookies4 = {省略}
proxies = Proxy.get_ip()
url1 = 'https://music.163.com/discover/artist'
response1 = requests.get(url=url1, proxies=proxies, headers=headers, cookies=cookies1)
content1 = response1.content.decode()
# print(content)
# with open('wyy.txt', 'w',encoding='utf8') as f:
#     f.write(content)
datas = re.findall('href="([^"]+)"[^>]*>([^<]+)<', content1)[6:21]
print(datas)


def task(data):
    global proxies
    url2 = 'https://music.163.com'+data[0]
    # print(url2)
    response2 = ''
    for i in range(2):
        try:
            response2 = requests.get(url=url2, proxies=proxies, headers=headers, cookies=cookies2)
            break
        except:
            proxies = Proxy.get_ip()
    content2 = response2.content.decode()
    # print(content2)
    singers = re.findall('<a class="f-tdn" href="(.*?)" title="(.*?)">', content2)
    # print(singers)

    for singer in range(0, len(singers)):
        url3 = 'https://music.163.com' + singers[singer][0]
        # print(url3)
        response3 = ''
        for i in range(2):
            try:
                response3 = requests.get(url=url3, proxies=proxies, headers=headers, cookies=cookies3)
                break
            except:
                proxies = Proxy.get_ip()
        content3 = response3.content.decode()
        # print(content3)
        results = ''.join(re.findall('<a href="(.*?)" hidefocus="true" class="u-btn2 u-btn2-1"><i>查看歌手页</i></a>',
                             content3))
        # print(results)

        url4 = 'https://music.163.com' + results
        # print(url4)
        response4 = ''
        for i in range(2):
            try:
                response4 = requests.get(url=url4, proxies=proxies, headers=headers, cookies=cookies4)
                break
            except:
                proxies = Proxy.get_ip()
        content4 = response4.content.decode()
        # print(content4)
        songs = re.findall(r'<li><a href="/song\?id=[0-9]+">(.*?)</a></li>', content4)
        print(f'{data[1]}---{singers[singer][1]}---{songs}\n')


if __name__ == '__main__':
    start_time = time.time()
    t_list = []
    for i in range(15):
        t = Thread(target=task, args=(datas[i],))
        t.start()
        t_list.append(t)
    for t in t_list:
        t.join()
    print("cost time: ", time.time() - start_time)