使用requests+lxml爬取zol桌面壁纸

明确爬取路线

我们要爬取的是ZOL桌面壁纸的壁纸下载排行榜系列壁纸
在这里插入图片描述
而要获取到每个下载排行榜系列的图片必须点击对应专题进入专题详情页才能看到专题对应的壁纸,这些壁纸就是我们要爬取的对象,归纳一下:

  1. 获取到整个首页html
  2. 定位到各个下载排行榜的系列专题,取出指定专题的标题和详情页链接
  3. 拼接完整链接以循环的方式再次发起对专题详情页的请求
  4. 得到详情页的html,取出每个壁纸的下载链接进行下载保存。
    具体实现步骤请继续往下看

实现技术

requests、lxml、re和os这四个python库,其中requests、lxml是第三方库,需要另行安装,使用pip install requests pip install lxml安装即可

实现与代码解析

  1. 通过检查浏览器源代码发现可以直接看到首页所有代码元素,由此说明ZOL桌面壁纸没有做反爬虫,所以直接发起请求获取首页html
# 主页url
index_url = 'http://desk.zol.com.cn'
# 主页请求头
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}
# 发起主页请求
response = requests.get(url=index_url + '/', headers=header)
  1. response是请求返回体,我们可以通过它得到首页htnml代码,现在我们要定位到下载排行榜代码位置,定位代码我们可以在网站按F12启动开发者模式
    如下图,开启后先点击1处,就能启动定位功能,然后把鼠标定位到2并点击,在3处就能到定位到的代码块了
    在这里插入图片描述
  2. 定位完成后,我们需要得到它的xpath
    如图所示,点击要查询的代码块右键,选择Copy ->Copy full XPath即可得到在这里插入图片描述
  3. 使用获取到的xpath得到各个专题链接再次发起请求
# 将请求回来的数据lxml化,方便使用xpath获取数据
response_lxml = etree.HTML(response.text)
# 通过xpath获取定位到所有壁纸类型下载排行版
side_response = response_lxml.xpath("//div[@class='side']/div[@class='model mt15']")

# 通过循环操作每个壁纸类型下载排行版
for side_item in side_response:
    # 壁纸类型
    side_title = side_item.xpath("./div[@class='mod-header']/text()")[0]
    # 该类型下所有的壁纸专题
    li_response = side_item.xpath("./ul/li")
    # 通过循环操作每个壁纸专题
    for li_item in li_response:
        try:
            # 专题标题
            li_title = li_item.xpath("./a/text()")[0]
            # 专题独立页面url
            li_url = li_item.xpath("./a/@href")[0]
            # 拼接合成专题url
            desk_url = index_url + li_url
            
			# 发起专题页面内容请求
            desk_response = requests.get(url=desk_url, headers=header)
            # 将请求回来的数据lxml化,方便使用xpath获取数据
            desk_lxml = etree.HTML(desk_response.text)
  1. desk_lxml是详情页的html代码,通过desk_lxml我们可以定位和拼接出壁纸的下载链接(代码衔接在步骤4的代码后面
# 正则表达式匹配专题的图片展示数
 img_index_search = re.compile(r"/(\d+))")
 img_index_xpath = desk_lxml.xpath("//h3/span/text()")[1]
 img_index = re.search(img_index_search, img_index_xpath).group(1)

# 正则表达式匹配专题url的独特数字
img_url_index_search = re.compile(r"_(.*?)_(.*?).html")
img_url = index_url + desk_lxml.xpath("//dd[@id='tagfbl']/a[@id='1366x768']/@href")[0]
img_url_index_1 = re.search(img_url_index_search, img_url).group(1)
img_url_index_2 = re.search(img_url_index_search, img_url).group(2)
  1. 这个时候我们要考虑好下载保存方式,因为是有多个下载排行榜的,所以存储时需要区分开来
# 为每个排行榜生成一个目录,判断目录是否存在  这个方法放到全局中
def is_exits(path):
    path = path.strip()
    path = path.rstrip('\\')

    is_exit = os.path.exists(path)
    if not is_exit:
        os.mkdir(path)
        print(path + '创建成功!')
    else:
        print(path + '已经存在!')
#(代码衔接在步骤5的代码后面)
# 调用is_exits判断目录是否存在,不存在则创建目录,存在则不做另外操作
is_exits(dir_name + "\\handle_desk.zol\\wallpaper\\" + li_title + "\\")
  1. 这个时候我们已经得到了所有壁纸的下载链接,因为每个专题的壁纸是多个的,我们页要通过循环来遍历下载(代码衔接在步骤5的代码后面
# 根据每个专题的图片数定义循环次数
for index in range(int(img_index)):
    # 根据获取到的内容拼接每个图片独立的页面url
    img_install_html_url = 'http://desk.zol.com.cn/showpic/1366x768_' + str(int(img_url_index_1) + index) + '_' + img_url_index_2 + '.html'
    # 防止拼接的图片页面url
    try:
        # 请求每个图片的独立页面
        img_install_html_response = requests.get(url=img_install_html_url, headers=header)
        # 将请求回来的数据lxml化,方便使用xpath获取数据
        img_install_lxml = etree.HTML(img_install_html_response.text)
        # 获取到页面中提高的图片下载url
        img_install_url = img_install_lxml.xpath("//body/img[1]/@src")[0]
        # 请求图片下载url
        img_install_url_response = requests.get(url=img_install_url, headers=header)
  1. 最后对每个壁纸的链接发起请求,通过响应体得到图片数据,进行保存
# 根据每个专题的图片数定义循环次数
for index in range(int(img_index)):
    # 根据获取到的内容拼接每个图片独立的页面url
    img_install_html_url = 'http://desk.zol.com.cn/showpic/1366x768_' + str(int(img_url_index_1) + index) + '_' + img_url_index_2 + '.html'
    # 防止拼接的图片页面url
    try:
        # 请求每个图片的独立页面
        img_install_html_response = requests.get(url=img_install_html_url, headers=header)
        # 将请求回来的数据lxml化,方便使用xpath获取数据
        img_install_lxml = etree.HTML(img_install_html_response.text)
        # 获取到页面中提高的图片下载url
        img_install_url = img_install_lxml.xpath("//body/img[1]/@src")[0]
        # 请求图片下载url
        img_install_url_response = requests.get(url=img_install_url, headers=header)
        # 实现图片下载操作,并进行归类
        with open(dir_name + '\\handle_desk.zol\\wallpaper\\' + li_title + '\\' + str(int(img_url_index_1) + index) + '.jpg', 'wb') as f:
            f.write(img_install_url_response.content)
        print("排行版专题:" + side_title + "\n")
        print("图片专题:" + li_title + "\n")
        print("图片url:" + img_install_url + "\n")
        print("下载成功~~~~~~~~")
        print("---------------------------------------------------------")
    except:
        print(side_title + "---->" + li_title + "中请求的图片页面url->" + img_install_html_url + "不存在")
        print("---------------------------------------------------------")
        print("---------------------------------------------------------")
        continue
    break
except Exception as e:
print(e)

优化方向

  1. 可以使用selenium模拟点击操作,这样就能直接进入详情页而不用进行二次请求
  2. 这个方案循环次数太多,可以用asyncio异步或者多线程提高爬取速度

总结

解析可能有点乱,请多包涵,可以直接看源代码 -> 源代码

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 爬虫应对: 由于爬虫的存在,一些网站采取了爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九月镇灵将

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值