项目github地址:https://github.com/kocor01/spider_cloub/
Python版本为3.6
最近突然想玩玩云图,动手写了个简单的爬虫,搭建了简单的爬虫架构
爬虫爬取最近比较火的电影《芳华》分词后生成云图
使用了 jieba分词,云图用wordcloud生成
用了朋友的2B姿势的自拍照片简单的P了下(为了不暴露,P成全黑的),作为生成云图的底图模板
云图底图模板:
生成的云图效果:
爬虫基础框架
spider_main.py 爬虫入口
url_manager.py URL管理器
html_downloader.py 网页下载器
html_parser.py 数据提取器
html_outputer.py 数据处理器
word_cloud.py 云图生成器
extra_dict文件夹文件如下:
li.png 云图底图模板
simhei.ttf 生成云图的字体文件
str.txt 爬取的电影短评
stop_words.txt 分词排除的词
cut_str.txt jieba分词后文件
yun.png 最后生成的云图
代码如下:
spider_main.py 爬虫入口