前言
聚焦爬虫的意思是爬取页面中指定的页面内容:数据解析包括
- 正则解析
- bs4解析(python独有)
- xpath解析
一、正则解析的案例
我们爬取的是一家图片网站,网址是:
https://desk.zol.com.cn/fengjing/1.html
import requests
import os
import re
if __name__ == "__main__":
if not os.path.exists('./picture_libs'):#如果路径不存在,则用mkdir创建一个单级目录
os.mkdir('./picture_libs')
#UA伪装
headers = {
'User-Agent': 'Mozilla/5.0 (MSIE 10.0; Windows NT 6.1; Trident/5.0)'