爬取b站视频弹幕时要注意找到该视频的cid,将cid带入:https://comment.bilibili.com/{cid}.xml
打开此xml页面找出弹幕所在位置节点,如图“d”即为要找的
用.text解析内容,再使用jieba分词,传到列表中统计。随后进行简单的词频统计即可。
最后使用WorldCloud(),进行词云图的绘制并保存为.html结尾即可。
注意:最后保存到与该py同目录下,或者直接搜索也可。
直接将文件拖到浏览器中打开即可看到词云图了!
如图:
我在这里使用的是BS4,当然还有其它的选择,包括解析器我选用的为lxml
代码附上: