用Python分析《阿凡达·水之道》的豆瓣短评

《阿凡达·水之道》于2022年12月16日上映。第一部的口碑、评分等都非常高,第二部是否能延续呢,本文获取了该电影的豆瓣短评,进行了初步的分析,看下观众都是如何评价的。

数据获取

打开豆瓣首页,搜索电影名,进入《阿凡达·水之道》的详情页。

然后向下滚动页面,找到豆瓣短评。

点击全部短评进入评论详情页面,每一页有20条评论。按F12,鼠标前后翻页抓取网页请求信息。

根据网页信息可以得到请求方式为GET,同时获取到Request URL,Request Headers,Cookies。有了这些信息,就可以写代码爬取短评内容了。

代码中使用requests库向豆瓣发送GET请求,一次请求可以获取一页评论数据,改变URL中的start,循环多次发送请求,即可获取所有的评论数据。

网页爬取成功后,用正则表达式匹配需要用到的数据,依次写到excel中。

本文共获取到了580条评论,豆瓣会优先把点赞(有用)数高的评论排在前面,这580条评论是相对点赞更多的,能满足本文的分析。

评论用户是否看过电影

def is_all_seen():
    """判断是否所有用户都看过"""
    df = pd.read_excel('afanda_water_sort_comments.xlsx')
    seen = df['是否看过']
    seen.value_counts().plot.pie(figsize=(5, 2.4), ylabel='', autopct='%.2f%%', colors=['c', 'b'],
          textprops={'fontsize': 12, 'color': 'b'}, pctdistance=1.3, labeldistance=1.8)
    plt.show()

 

在580条评论中,只有个别用户没有看过电影,基本都是看过电影后发表的评论。

评论用户的打星分布

 

def star_distribution():
    """星级分布"""
    df = pd.read_excel('afanda_water_sort_comments.xlsx&#
  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值