使用xpath爬取校花网
难点:
1.各个分类栏目下的页码url不统一
2.只取前三页,或者后三页
文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒。
所以就…哈哈…
移植到scrapy需要略微修改下。还可以获取校花名称和图片url。废话不多说,上代码,代码注释很多,欢迎留言交流~
from lxml import etree
import requests
url = 'http://www.521609.com/daxuexiaohua/'
headers = {
"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
# 第一次获取初始url的网页内容
response = requests.get(url=url, headers=headers)
content = response.content.decode('gbk')
# 创建xpath对象
mytree = etree.HTML(content)
# 网页里取出各个了栏目分类列表,第一个分类和最后一个分类无用,切片去掉
item_li = mytree.xpath('//ul[@class="nav_content"]/li')[1:-1]
# 遍历循环栏目分类列表
for li in item_li:
item_url = li.xpath('./a/@href')[0] # 取出栏目分类后半段链接
item_url = 'http://www.521609.com' + item_url # 链接拼接,得到完整栏目url
item_name = li.xpath('./a/span/text()')[0] # 栏目分类名称
print(item_url) # 每个分类第一页的url
# 第二次获取栏目分类url的网页内容
response2 = requests.get(url=item_url, headers=headers)
content2 = response2.content.decode('gbk')
mytree2 = etree.HTML(content2)
# 获取栏目网页里面下一页的后半段url
next_page = mytree2.xpath('//div[@class="listpage"]/ol/li/a[contains(text(),"下一页")]/@href')[0]
next_page = item_url + next_page # 通过栏目url和下一页的后半段url拼接,得到完整的下一页url
print(next_page) # 每个分类第二页的url
# 循环获取后面的网页
for i in range(5):
# 因为有些分类栏目里页码很少,防止报错
# 所以做了异常捕获
try:
# 第三次获取栏目分类url的网页内容,和第二次类似,主要是写进了循环
response3 = requests.get(url=next_page, headers=headers)
content3 = response3.content.decode('gbk')
mytree3 = etree.HTML(content3)
next_page = mytree3.xpath('//div[@class="listpage"]/ol/li/a[contains(text(),"下一页")]/@href')[0]
next_page = item_url + next_page
print(next_page) # 每个分类第二页后的url
# 抛出异常
except:
print(f'此分类没有第{i + 3}页,报错了')