《阿凡达·水之道》于2022年12月16日上映。第一部的口碑、评分等都非常高,第二部是否能延续呢,本文获取了该电影的豆瓣短评,进行了初步的分析,看下观众都是如何评价的。
数据获取
打开豆瓣首页,搜索电影名,进入《阿凡达·水之道》的详情页。
然后向下滚动页面,找到豆瓣短评。
点击全部短评进入评论详情页面,每一页有20条评论。按F12,鼠标前后翻页抓取网页请求信息。
根据网页信息可以得到请求方式为GET,同时获取到Request URL,Request Headers,Cookies。有了这些信息,就可以写代码爬取短评内容了。
代码中使用requests库向豆瓣发送GET请求,一次请求可以获取一页评论数据,改变URL中的start,循环多次发送请求,即可获取所有的评论数据。
网页爬取成功后,用正则表达式匹配需要用到的数据,依次写到excel中。
本文共获取到了580条评论,豆瓣会优先把点赞(有用)数高的评论排在前面,这580条评论是相对点赞更多的,能满足本文的分析。
评论用户是否看过电影
def is_all_seen():
"""判断是否所有用户都看过"""
df = pd.read_excel('afanda_water_sort_comments.xlsx')
seen = df['是否看过']
seen.value_counts().plot.pie(figsize=(5, 2.4), ylabel='', autopct='%.2f%%', colors=['c', 'b'],
textprops={'fontsize': 12, 'color': 'b'}, pctdistance=1.3, labeldistance=1.8)
plt.show()
在580条评论中,只有个别用户没有看过电影,基本都是看过电影后发表的评论。
评论用户的打星分布
def star_distribution():
"""星级分布"""
df = pd.read_excel('afanda_water_sort_comments.xlsx&#