前言
利用Python爬取QQ音乐评论。废话不多说。
让我们愉快地开始吧~
开发工具
Python版本: 3.6.4
相关模块:
requests模块;
re模块;
pymysql模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
通过这次爬取,学习了数据库MySQL,因为之前都是在windows上操作,而这回需要在Mac上操作,所以就在Mac上安装了MySQL以及MySQL的管理工具Sequel Pro,最后也是安装成功,数据库连接也没有问题。
接下来创建数据库,表格及主键信息。
import pymysql
# 创建数据库
db = pymysql.connect(host='127.0.0.1', user='root', password='774110919', port=3306)
cursor = db.cursor()
cursor.execute("CREATE DATABASE QQ_Music DEFAULT CHARACTER SET utf8mb4")
db.close()
import pymysql
# 创建表格, 设置主键
db = pymysql.connect(host='127.0.0.1', user='root', password='774110919', port=3306, db='QQ_Music')
cursor = db.cursor()
sql = 'CREATE TABLE IF NOT EXISTS comments (nike VARCHAR(255) NOT NULL, comment VARCHAR(255) NOT NULL, praisenum INT NOT NULL, comment_id VARCHAR(255) NOT NULL, time VARCHAR(255) NOT NULL, PRIMARY KEY (comment))'
cursor.execute(sql)
db.close()
针对QQ音乐中去年夏天的网页进行分析,查看了所有评论的尾页,发现时间缩水了,因为热评中有一条评论的时间7月12号,而所有评论最后一页的时间却是7月16号。很明显,所有评论并不是货真价实的所有评论,不知这算不算QQ音乐的BUG。
还有一个就是直接点击最后一页的时候,并不能直接返回真正的信息,需要从最后一页往前翻,到了真正的信息页时,然后再往后翻,才能得到最后一页的真正信息。
同样是Ajax请求,确认网址后,分析一下请求头,发现主要是三个参数发生变化:jsoncallback
pagenum
lasthotcommentid
pagenum不难理解,就是页数。jsoncallbac