使用Xpath爬取豆瓣电影的相关操作

最新推荐文章于 2024-04-29 14:20:31 发布

爱吃香菜的斌斌

最新推荐文章于 2024-04-29 14:20:31 发布

阅读量1k

点赞数 1

分类专栏：用python写网络爬虫文章标签： python xpath

小斌斌专属

本文链接：https://blog.csdn.net/weixin_45428890/article/details/104554241

版权

用python写网络爬虫专栏收录该内容

4 篇文章

订阅专栏

1、安装lxml库（解析库）
windows:pip install lxml
linux:pip install lxml
在这里插入图片描述安装成功是这样的。

2、想要获取“豆瓣电影250”这个标题，同时想要爬取这个网页的每个电影的名称以及它的评分和评价人数，并将所有的单个数据列入一个大的列表中。
在这里插入图片描述

from lxml import etree
import requests
import re
html=requests.get("https://movie.douban.com/top250").text
selector=etree.HTML(html)
#获取文档的标题“豆瓣电影250”
title=selector.xpath("/html/head/title/text()")[0].strip("\n")
#name=selector.xpath("//div[@class="hd"]/a/span[1]/text()")
#设置一个所有的电影列表
Allmovieslist=[]
Lis=selector.xpath('//ol[@class="grid_view"]/li')
for oneselector in lis:
	name=oneselector.xpath("div/div[2]/div[@class="hd"]/a/span[1]/text()")[0]
	star=oneselector.xpath("div/div[2]/div[@class="bd"]/div/span[2]/text()")[0]
	num=oneselector.xpath("div/div[2]/div[@class="bd"]/div/span[4]/text()")[0]
	num=re.findall("(.*?)人评价",num)[0]
	onemovielist=[name,star,num]  #设置小的电影列表，将一个电影的评分，名称以及评价人数放在一个小列表中，在将网页中的所有电影都爬取放入一个大的列表中，方便查看
	Allmovieslist=Allmovieslist.append(onemovielist)
print(Allmovieslist)

这样的操作虽然可以爬取数据，但是很容易被封ID，为了解决这个问题，下面我们采取这样的方式爬取。
找到network->doc->top250->useragent(复制后面的值)

from lxml import etree
import requests
import re
#设置一个字典myheaders
myheaders={"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.3 "}
url="https://movie.douban.com/top250"
#爬取数据只需要知道第二页第三页的网址即可，把网址存入url中
flag=True
Allmovieslist=[]
while flag:
	html=requests.get("https://movie.douban.com/top250").text
	selector=etree.HTML(html)
	Lis=selector.xpath('//ol[@class="grid_view"]/li')
	for oneselector in Lis:
		name=oneselector.xpath("div/div[2]/div[@class='hd']/a/span[1]/text()")[0]
		star=oneselector.xpath("div/div[2]/div[@class='bd']/div/span[2]/text()")[0]
		num=oneselector.xpath("div/div[2]/div[@class='bd']/div/span[4]/text()")[0]
		num=re.findall("(.*?)人评价",num)[0]
		onemovielist=[name,star,num]  #设置小的电影列表，将一个电影的评分，名称以及评价人数放在一个小列表中，在将网页中的所有电影都爬取放入一个大的列表中，方便查看
		Allmovieslist=Allmovieslist.append(onemovielist)
 		try:
 			next_url=selector.xpath("//span[@class='next']/a/@herf")[0]
 			if next_url:#防止爬取到网页的最后一页发生报错
 				url="https://movie.douban.com/top250"+next_url
 		expect:
 			flag=False
 print(Allmovieslist)