使用Python爬取不同类别的豆瓣电影简介
之前做过一点文本分类的工作,从豆瓣上爬取了不同类别的数千条电影的简介。
爬取目标
我们爬取的目标是 豆瓣影视,打开豆瓣网,随便点击一部电影,即可看到电影的介绍、评论等信息,我们需要爬取的是电影的简介部分。
思路
通过Chrome浏览器的调试工具中Network工具,我们可以看出在页面加载的同事,会发送一个Ajax请求查询指定类别的电影列表。
其中url字段即为详情页的链接。
在详情页,通过chrome调试器可以找到对应的标签,并且通过右键查看源代码,并使用ctrl+f (commond+f)可以发现当前页面有且仅有一个property="v:summary"
的标签。
代码实现
由于爬取的数量相对较少,所以我在这里使用了轻量型爬虫工具 BeautifulSoup
$ pip install bs4
第一步是获取电影列表,以及其详情页的url
types = ['爱情', '动作', &