企鹅弹幕提取并制作关键词云2

最新推荐文章于 2024-09-23 21:47:19 发布

人间小苦瓜。

最新推荐文章于 2024-09-23 21:47:19 发布

阅读量327

点赞数

分类专栏： Python 文章标签： python 大数据

本文链接：https://blog.csdn.net/weixin_46670151/article/details/108389595

版权

Python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

-无业游民找工作莫得结果的第四天，继续人间小苦瓜和关键词云的爱恨情仇
-没想到这个还能是一个连续剧(╥╯^╰╥)
快速指路：
1.1腾讯视频弹幕提取并制作关键词云1：弹幕在哪里
1.2腾讯视频弹幕提取并制作关键词云2：scrapy弹幕的获取
1.3企鹅弹幕提取并制作关键词云3：自动爬取全集+sql数据库写入
1.4企鹅弹幕提取并制作关键词云4：jieba分词+collections词频统计+wordcloud制作关键词云
-1.2 scrapy爬取弹幕
scrapy是很早之前跟着巨人的肩膀1b站的教学视频学的，实战的次数很少。每一次实战之后都怀疑自己是不是一个傻子。不过视频是很不错的，如果需要教学视频可以指路巨人的肩膀1。好在研究研究数据还是能够爬下来，赶紧把过程写下来当作日记，也许我哪天又忘了。这回自己当一次自己的巨人。︿(￣︶￣)︿

今天的任务就是先爬取第一集，第一部分。也就是网址：
https://mfm.video.qq.com/danmu?target_id=4048820616%26vid%3Db00318l66nt&timestamp=15
环境：python3
库：scrapy，json
编辑器环境：pycharm
因为苹果电脑的scrapy下载不成功，就先用之前配置好环境的windows来爬了。
对于json包下载的时候，也有可能是因为我没有调好兼容性，所以我用pip命令下载了json包之后，在pycharm中写json代码的时候，发现import json报错，因此我又在pycharm里面下载了json。
其实在运行的时候，采用的是cmd命令行，因此怀疑不在pycharm里面下载应该也没问题，可我见不惯报错，就都下载了。如果只是把pycharm当做编辑器的话而且没有强迫症可以选择不在pycharm里面下载。

1.打开cmd 输入：

F：\>scrapy startprojct pythondanmu

就会在当前所在的目录F:下面生成一个叫做pythondamu的工程目录。里面包括了很多文件。
2.进入该目录。输入：

F:\>cd pythondanmu
F:\pythondanmu>scrapy genspider demo pythondanmu.io

生成一个叫demo的爬虫。这一步会多生成一个文件叫demo.py。

pythondanmu的结构为：
pythondanmu/ ----->外层目录
scrapy.cfg ----->部署Scrapy爬虫的配置文件
pythondanmu/ ----->Scrapy框架的用户自定义python代码
_init.py----->初始化脚本
items.py----->Items代码模板（继承类）
middlewares.py----->Middlewares代码模板（继承类）
pipelines.py----->Pipelines代码模板（继承类）
settings.py----->Scrapy爬虫的配置文件
spiders/ ----->Spiders代码模板目录（继承类）
_init .py ----->初始文件，无需修改
_pycache/----->缓存目录，无需修改
demo.py上面命令生成的文件，爬虫的代码写在这个文件里

3.在写爬虫之前，需要在setting配置文件中将默认的
ROBOTSTXT_OBEY = True
改成
ROBOTSTXT_OBEY = False
（对不起腾讯了TnT，我爬数据只是练手，不做任何商业用处，拜托拜托了）

4.编写简易爬虫代码

class DemoSpider(scrapy.Spider):
    name = 'demo'
    allowed_domains = ['pythondamu.io']
    start_urls = ['https://mfm.video.qq.com/danmu?target_id=4048820616%26vid%3Db00318l66nt&timestamp=15']
    def parse(self, response):
        grous=json.loads(response.text)
        print(grous)