python - 酷狗音乐榜单存储本地

# 导入所需模块
import random  # 生成随机数,用于请求间隔
import time  # 时间相关操作,生成时间戳
import hashlib  # 哈希库,用于生成MD5签名
import requests  # HTTP请求库
import re  # 正则表达式,用于文本匹配
import os  # 操作系统接口,处理文件路径
import sys  # 系统相关功能,用于退出程序

# 榜单选项配置
rank_options = [
    {"name": "酷狗飙升榜", "id": "6666"},
    {"name": "酷狗TOP500", "id": "8888"},
    {"name": "蜂鸟流行音乐榜", "id": "59703"},
    {"name": "抖音热歌榜", "id": "52144"},
    {"name": "快手热歌榜", "id": "52767"},
    {"name": "DJ热歌榜", "id": "24971"},
    {"name": "内地榜", "id": "31308"}
]

# 用户交互界面
print("请选择要下载的榜单")
print("0.退出程序")
# 遍历显示榜单选项(从1开始编号)
for index, rank in enumerate(rank_options, 1):
    print(f"{index}.{rank['name']}")

# 输入验证循环
while True:
    choice = input("请输入选择(0-7):")
    if choice in ['0', '1', '2', '3', '4', '5', '6', '7']:
        choice = int(choice)
        break
    print("输入错误,请重新输入!")

# 退出程序处理
if choice == 0:
    sys.exit()

# 获取选择的榜单信息
selected_rank = rank_options[choice - 1]
rank_id = selected_rank['id']
print(f"您选择的是:{selected_rank['name']}")

# 设置下载目录并创建(如果不存在)
MOVIE_DIR = r"D:\Music\酷狗音乐"
os.makedirs(MOVIE_DIR, exist_ok=True)  # exist_ok=True表示目录已存在时不报错

# 请求头配置
headers = {
    'referer': 'https://www.kugou.com/yy/html/rank.html',
    'cookie': '您的cookie信息',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36 Edg/134.0.0.0'
}
max_retries = 3  # 最大重试次数
pages = 1  # 起始页码

# 主循环:处理多页数据
while True:
    # 构造榜单页面URL
    rank_url = f'https://www.kugou.com/yy/rank/home/{pages}-{rank_id}.html?from=rank'

    # 请求榜单页面
    rank_res = requests.get(rank_url, headers=headers)

    # 使用正则表达式提取歌曲eid
    data_eid = re.findall('data-eid="(.*?)">', rank_res.text)
    if not data_eid:  # 没有数据时终止循环
        break

    # 遍历每个歌曲eid
    for eid in data_eid:
        # 生成时间戳(毫秒级)
        Time = int(time.time() * 1000)

        # 构造签名参数列表
        s = [
            "NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt",
            "appid=1014",
            f"clienttime={Time}",
            "clientver=20000",
            "dfid=3x76o93Ae7Fa4QPjcd4TnMat",
            f"encode_album_audio_id={eid}",
            "mid=9722897a4e3934b485c53fac3d282c3b",
            "platid=4",
            "srcappid=2919",
            "token=7bd6e28f3763a7f3762a5eaa39b8e44fa8120fd1f6e35fea7b515d5a9fbf32d0",
            "userid=2190417243",
            "uuid=9722897a4e3934b485c53fac3d282c3b",
            "NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt"
        ]
        # 生成MD5签名
        md5 = hashlib.md5()
        sign_str = ''.join(s)  # 拼接字符串
        md5.update(sign_str.encode('utf-8'))  # 编码并计算哈希
        signature = md5.hexdigest()  # 获取16进制哈希值

        # 构造API请求URL
        api_url = f'https://wwwapi.kugou.com/play/songinfo?srcappid=2919&clientver=20000&clienttime={Time}&mid=9722897a4e3934b485c53fac3d282c3b&uuid=9722897a4e3934b485c53fac3d282c3b&dfid=3x76o93Ae7Fa4QPjcd4TnMat&appid=1014&platid=4&encode_album_audio_id={eid}&token=7bd6e28f3763a7f3762a5eaa39b8e44fa8120fd1f6e35fea7b515d5a9fbf32d0&userid=2190417243&signature={signature}'

        # 请求歌曲信息API
        api_res = requests.get(api_url, headers=headers)

        # 处理歌曲信息
        audio_name = api_res.json()['data']['audio_name']  # 获取歌曲标题
        clean_title = re.sub(r'[\\/*?:"<>|]', "", audio_name)  # 清理非法文件名字符
        play_url = api_res.json()['data']['play_url']  # 获取播放地址

        # 检查必要数据是否存在
        if not clean_title or not play_url:
            break

        # 构造文件路径
        file_path = os.path.join(MOVIE_DIR, f"{clean_title}.mp3")

        # 检查文件是否已存在
        if os.path.exists(file_path):
            print(f"歌曲文件已存在: {clean_title} --- 跳过下载")
            continue

        # 下载重试机制
        success = False
        for attempt in range(max_retries):
            try:
                # 下载音频文件
                audio_data = requests.get(play_url, headers=headers, timeout=20).content

                # 有效性检查(文件大小超过1KB)
                if len(audio_data) > 1024:
                    # 写入文件
                    with open(file_path, 'wb') as audio_file:
                        audio_file.write(audio_data)

                    # 二次验证文件大小
                    if os.path.getsize(file_path) > 1024:
                        success = True
                        break
                    print(f"第{attempt + 1}次下载不完整,重新尝试...")
                else:
                    print(f"第{attempt + 1}次下载失败,重新尝试...")
            except Exception as e:
                print(f"第{attempt + 1}次下载出错: {str(e)}")

            # 重试间隔
            time.sleep(2)

        # 下载结果处理
        if success:
            print(f"成功下载: {clean_title}")
        else:
            print(f"下载失败: {clean_title}")
            continue

        # 随机延时(5-15秒)防止被封禁
        time.sleep(random.uniform(5, 15))

    # 翻页处理
    pages += 1

为了从酷狗音乐爬取数据并保存到CSV文件,你可以按以下步骤操作: 1. **获取库**: - 首先,你需要安装Python的网络爬虫库如`requests`用于发送HTTP请求,以及`BeautifulSoup`或`lxml`解析HTML内容。 - 如果需要处理动态加载的内容,可能还需要`Selenium`或`Scrapy`。 2. **分析网页结构**: - 打开酷狗音乐排行榜页面(例如:http://www.kugou.com/rank/)分析页面源代码,找到数据所在的HTML标签和其数据结构。通常数据会被嵌套在列表、表格或者其他可遍历的元素中。 3. **编写爬虫脚本**: - 使用`requests.get(url)`获取页面内容。 - 解析HTML内容,可以使用BeautifulSoup的`.find_all()`或`.select()`方法查找特定的元素。 - 确定每一条数据的具体字段,比如歌名、歌手、排名等,它们可能会在不同级联的标签中。 4. **数据提取**: - 遍历找到的数据节点,提取出所需的信息。记得检查每个元素是否存在,防止空值。 5. **存储数据**: - 创建一个`csv.writer`对象,指定CSV文件路径,然后逐行写入数据。对于每一项数据,可以使用`writer.writerow([字段1, 字段2, ...])`。 6. **批量抓取**: - 可能需要分批次抓取,因为一次性下载大量数据可能导致服务器限制。每次循环抓取一定数量的数据(如100条),直到达到500条为止。 7. **错误处理**: - 添加适当的异常处理,如网络连接失败、解析错误等,确保程序能够持续运行并处理异常情况。 8. **执行并保存**: - 运行整个爬虫脚本来完成数据抓取和保存过程,最后确认CSV文件是否包含了500条准确的数据。 ```python import requests from bs4 import BeautifulSoup import csv # 分配每批抓取的歌曲数 songs_per_batch = 100 total_records = 500 batch_count = total_records // songs_per_batch + (total_records % songs_per_batch > 0) url = "http://www.kugou.com/rank/" with open('kugou_music_rank.csv', 'w', newline='', encoding='utf-8') as csvfile: fieldnames = ['song_name', 'artist', 'rank'] # 根据实际网页调整字段名称 writer = csv.DictWriter(csvfile, fieldnames=fieldnames) for i in range(batch_count): response = requests.get(url) soup = BeautifulSoup(response.text, 'lxml') # 提取数据并写入csv data_list = [] # 存储每一批数据 song_nodes = soup.select('.song-node') # 示例选择器,替换为实际找到的节点 if song_nodes: for node in song_nodes[:songs_per_batch]: data = {} # 每条数据是一个字典 # 数据填充... data['song_name'] = node.find('a').text # 歌名 data['artist'] = node.find('.artist').text # 歌手 data['rank'] = int(node.find('.rank').text) # 排名 data_list.append(data) writer.writerows(data_list) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值