前言
闭关几个月,今天为大家带来利用Python爬虫抓取豆瓣电影《魔女2》影评,废话不多说。
爬取了6月7月25的影片数据,Let’s start happily
开发工具
Python版本: 3.6.4
相关模块:
requests模块
json模块
re模块
os模块
pandas模块
time模块
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
思路分析
本文以爬取豆瓣电影《魔女2》影评,讲解如何爬取豆瓣电影《魔女2》评论!
前期准备
1.获取页面内容
# 爬取页面 url
douban_url = 'https://movie.douban.com/subject/34832354/comments?start=40&limit=20&status=P&sort=new_score'
# requests 发送请求
get_response = requests.get(douban_url)
# 将返回的响应码转换成文本(整个网页)
get_data = get_response.text
2.分析页面内容,获取我们想要的内容
- 浏览器中打开我们要爬取的页面
- 按F12进入开发者工具,查看我们想要的数据在哪里
- 这里我们只要 评论人+评论内
3.利用re模块解析数据
def get_nextUrl(html):
"""抓取下一个页面的 url"""
try:
# 找到下一页的 url
url = html.find('a', 'next').attrs['href']
# print(url)
next_start = re.search(r'[0-9]\d{0,5}', url).group(0<