使用Python分析《我不是药神》电影豆瓣评论

本文使用Python爬取并分析了电影《我不是药神》的豆瓣评论,进行了词频统计并生成词云,揭示了热门讨论话题。同时展示了点赞数最多的评论和15天评论量的分布及走势。
摘要由CSDN通过智能技术生成

小爬怡情,中爬伤身,强爬灰灰。爬虫有风险,使用请谨慎,可能是这两天爬豆瓣电影爬多了,今天早上登录的时候提示号被封了(我用自己帐号爬的,是找死呢还是在找死呢 ...),好在后面发完短信后又解封了,^_^。

之前的文章中,已把电影短评数据装进了Mongo中,今天把数据取出来简单分析一下,当下最火的做法是进行词频统计并生成词云,今天说的就是这个。

读取Mongo中的短评数据,进行中文分词

不知道什么原因,我实际爬下来的短评数据只有1000条(不多不少,刚刚好),我总觉得有什么不对,但我重复爬了几次后,确实只有这么多。可能是我爬虫写的有什么不对吧,文末附源码链接,有兴趣的去看看, 欢迎拍砖(轻拍)。

import pymongoimport jiebafrom jieba import analyse# 网页链接
text = Nonewith pymongo.MongoClient(host='192.168.0.105', port=27017) as client: # 获取集合
comments = client.douban.movie_26752088_comments # 不知道为什么爬虫只取到了1000条评论~
print('count:', comments.estimated_document_count()) # pymongo.cursor.Cursor
curs
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值