Python爬虫练习——爬取QQ音乐精彩评论（编码问题请高人指点！）

最新推荐文章于 2024-09-06 17:46:56 发布

徐主任的好孙子

最新推荐文章于 2024-09-06 17:46:56 发布

阅读量1.1k

点赞数 4

文章标签： python 正则表达式数据挖掘编码学调制与编码策略

本文链接：https://blog.csdn.net/weixin_46291428/article/details/104362874

版权

这篇博客记录了作者在2020年使用Python的Requests模块和正则表达式进行QQ音乐精彩评论爬取的过程。在爬取过程中遇到了编码错误，经过两次关键修改，成功解决了问题，实现了无报错的爬取。

摘要由CSDN通过智能技术生成

2020年2月17日，采用Requests模块以及正则表达式完成了一次爬虫练习…

爬取QQ音乐精彩评论

代码如下（欢迎各位指正）：

import requests
import re

#获取网页源代码
def get_code(url):
    headers = {
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:73.0)"
                             " Gecko/20100101 Firefox/73.0"}
    return requests.get(url, headers=headers).text


#从原网页中提取songid
song_url=input('请输入QQ音乐网页版网址（https://y.qq.com/n/yqq/song/x.html形式）：')
song_doc = get_code(song_url)
id = re.findall('"songid":(.*?),"',song_doc)[0]
name = re.findall