看动漫的小伙伴应该知道最近出了一部神漫《雾山五行》:
1、极具特色的水墨画风和超燃的打斗场面广受好评
2、首集播出不到 24 小时登顶 B 站热搜第一,豆瓣开分 9.5,
火爆程度可见一斑,就打斗场面而言,说是最炫动漫也不为过,当然唯一有一点不足之处就是集数有点少,只有 3 集。
下面放几张动图,一起欣赏一下。
看过动图之后,是不是觉得我所说的最炫动漫,并非虚言,接下来我们爬取一些评论,了解一下大家对这部动漫的看法,这里我们选取 B 站来爬取数据。
我们先来爬取 B 站弹幕数据,动漫链接为:https://www.bilibili.com/bangumi/play/ep331423,弹幕链接为:http://comment.bilibili.com/186803402.xml,爬取代码如下:
import jieba
import pandas as pd
import requests
from PIL import Image
from bs4 import BeautifulSoup
from wordcloud import WordCloud
url = "http://comment.bilibili.com/218796492.xml"
req = requests.get(url)
html = req.content
html_doc = str(html, "utf-8") # 修改成utf-8
print(html_doc)
# 解析
soup = BeautifulSoup(html_doc, "html.parser")
results = soup.find_all('d')
contents = [x.text for x in results]
# 保存结果
dic = {"contents": contents}
df = pd.DataFrame(dic)
df["contents"].to_csv("bili.csv", encoding="utf-8", index=False)
def jieba_():
# 打开评论数据文件
content = open("bili.csv", "rb").read()
# jieba 分词
word_list = jieba.cut(content)
words = []
# 过滤掉的词
# 需新建文本stopwords
stopwords = open("stopwords.txt", "r", encoding="utf-8").read().split("\n")[:-1]
for word in word_list:
if word not in stopwords:
words.append(word)
global word_cloud
# 用逗号隔开词语
word_cloud = ','.join(words)
def cloud():
# 打开词云背景图
cloud_mask = pd.np.array(Image.open("bg.png"))
# 定义词云的一些属性
wc = WordCloud(
# 背景图分割颜色为白色
background_color='white',
# 背景图样
mask=cloud_mask,
# 显示最大词数
max_words=500,
# 显示中文
font_path='./fonts/simhei.ttf',
# 最大尺寸
max_font_size=60,
repeat=True
)
global word_cloud
# 词云函数
x = wc.generate(word_cloud)
# 生成词云图片
image = x.to_image()
# 展示词云图片
image.show()
# 保存词云图片
wc.to_file('cloud.png')
jieba_()
cloud()
效果如下: