L5&L6&L7 电影词云图-豆瓣-CSDN博客

本文链接：https://blog.csdn.net/weixin_52187285/article/details/117967366

本文介绍了如何使用Python爬取豆瓣电影《飞屋环游记》的短评，并通过jieba分词和pyecharts生成词云图。首先，向网页发送请求并设置User-Agent避免被识别为爬虫。接着，解析HTML获取短评内容，使用jieba进行分词。最后，对分词结果进行词频统计并绘制词云图。

摘要由CSDN通过智能技术生成

L5& L6& L7 电影词云图-豆瓣

从豆瓣上爬取数据，完成电影词云图，共以下5步：

向网页发送请求，获取网页源代码;
解析源代码，提取想要的数据；
使用 jieba 模块将语句切分成词；
运用字典的知识进行词频统计；
将词语生成词云图。

1. 向网页发送请求，获取网页源代码;

1-1 查看目标文本所在位置

在 Google Chrome浏览器中复制粘贴下面的链接，先去看看网页内容
https://movie.douban.com/subject/2129039/comments?sort=new_score&status=P
打开网页后可以看到《飞屋环游记》这部电影的相关短评。

1-2 获取网页中的 HTML 代码

# TODO 使用import导入requests模块
import requests

# TODO 将豆瓣电影评论URL地址，赋值给变量url
url="https://movie.douban.com/subject/2129039/comments?sort=new_score&status=P"

# TODO 使用requests发起GET请求，赋值给response
response=requests.get(url)

# TODO 使用print输出response
print (response)

1-3 状态码418

返回一个状态码 418。
418 其实是一个愚人节玩笑，含义是：当客户端给一个茶壶发送泡咖啡的请求时，茶壶就返回一个 418 错误状态码，表示“我是一个茶壶”。
在这里，状态码 418 也意味着我们的爬虫被豆瓣“发现”了。

1-4 身份信息User-Agent

在进行 HTTP 请求的时候，除了请求指定的 url 信息之外，还会告诉服务端“我是谁”，“我支持哪些特性”。
这些信息就是 HTTP 请求头，其中声明“我是谁”的就是 HTTP 请求头部的 User-Agent 。
由于我们用的是 requests 发起的请求，而不是浏览器，所以我们需要伪装成 Chrome 浏览器。

# 使用import导入requests模块
import requests

# 从bs4中导入BeautifulSoup
from bs4 import BeautifulSoup

# 将URL地址赋值给变量url
url = "https://nocturne-spider.baicizhan.com/2020/08/07/1/"

# 将变量url传入requests.get()，赋值给r
r = requests.get(url)

# TODO 使用print()输出响应消息中的request.headers
print (r.request.headers)

1-5使用身份信息

请求头中的 User-Agent 用来表示产生请求时浏览器的类型。
查看使用响应消息.request.headers 输出的请求头中, User-Agent 的值为 python-requests ，说明此次请求是Python发出的并且能被服务器识别到。

# 使用import导入requests模块
import requests

# 从bs4中导入BeautifulSoup
from bs4 import BeautifulSoup

# 将URL地址赋值给变量url
url = "https://nocturne-spider.baicizhan.com/2020/08/07/1/"

# TODO 将User-Agent以字典键对形式赋值给headers
headers={
   "user-Agent":"JingJing"}

# TODO 将字典headers传递给headers参数，添加进requests.get()中，赋值给r
r=requests.get(url,headers=headers)

# TODO 使用print()输出响应消息中的request.headers
print (r.request.headers)

1-6 获取User-Agent

打开网页，右击-检查-network-（刷新网页）-name-headers-request headers-User-Agent。

1-7 设置请求头

我们用浏览器打开网页，就是浏览器对服务端发送的请求，刚刚查看的请求头就是浏览器的信息。
接下来，可以设置请求头信息，模拟成浏览器去访问网站。
复制浏览器的 User-Agent 的值，粘贴到代码中，以字典key-value的形式赋值给字典 headers。
在 requests.get() 中添加参数 headers，其参数值为字典 headers 。

# 使用import导入requests模块
import requests

# 将豆瓣电影评论URL地址，赋值给变量url
url = "https://movie.douban.com/subject/2129039/comments?sort=new_score&status=P"

# TODO 将User-Agent以字典键对形式赋值给headers
headers={
   "user-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}

# TODO 将字典headers传递给headers参数，添加进requests.get()中，赋值给response
response=requests.get(url,headers=headers)

# TODO 使用.text属性获取网页前1000个字符的内容，并赋值给html
html=response.text[:1000]

# TODO 使用print输出html
print (html)

2. 解析源代码，提取想要的数据；

2-1 给变量 soup赋值

# 使用import导入requests模块
import requests

# TODO 从bs4中导入BeautifulSoup
from bs4 import BeautifulSoup

# 将豆瓣电影评论URL地址，赋值给变量url
url = "https://movie.douban.com/subject/2129039/comments?sort=new_score&status=P"

# 将User-Agent以字典键对形式赋值给headers
headers = {
   "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}

# 将 url 和 headers参数，添加进requests.get()中，将字典headers传递headers参数，给赋值给response
response = requests.get(url, headers=headers)

# 将服务器响应内容转换为字符串形式，赋值给html
html = response.text

# TODO 使用BeautifulSoup()传入变量html和解析器lxml，赋值给soup
soup=BeautifulSoup(html,"lxml")

# TODO 使用print输出soup
print (soup)