python爬虫,爬取豆瓣电影《芳华》电影短评,分词生成云图。

本文介绍了使用Python爬虫爬取豆瓣电影《芳华》的短评,通过jieba分词并利用wordcloud生成电影短评的云图。项目源码可在github找到,包括爬虫基础架构和云图生成的详细步骤。
摘要由CSDN通过智能技术生成

项目github地址:https://github.com/kocor01/spider_cloub/

Python版本为3.6

最近突然想玩玩云图,动手写了个简单的爬虫,搭建了简单的爬虫架构

爬虫爬取最近比较火的电影《芳华》分词后生成云图

使用了 jieba分词,云图用wordcloud生成

用了朋友的2B姿势的自拍照片简单的P了下(为了不暴露,P成全黑的),作为生成云图的底图模板

云图底图模板:



生成的云图效果:



爬虫基础框架


spider_main.py  爬虫入口
url_manager.py  URL管理器
html_downloader.py  网页下载器
html_parser.py  数据提取器
html_outputer.py  数据处理器
word_cloud.py  云图生成器

extra_dict文件夹文件如下:


li.png   云图底图模板

simhei.ttf   生成云图的字体文件

str.txt   爬取的电影短评

stop_words.txt  分词排除的词

cut_str.txt   jieba分词后文件

yun.png  最后生成的云图



代码如下:

spider_main.py  爬虫入口


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值