Python第一次爬虫三部曲 wallhaven壁纸网站（requests库,re正则库）一看就会

最新推荐文章于 2025-03-03 20:42:00 发布

凉夜热涌

最新推荐文章于 2025-03-03 20:42:00 发布

阅读量5.5k

点赞数 1

分类专栏： python 爬虫

本文链接：https://blog.csdn.net/weixin_43664907/article/details/107332231

版权

python 同时被 2 个专栏收录

8 篇文章

订阅专栏

爬虫

2 篇文章

订阅专栏

工具

工具 pycharm，python版本3.7.0，网站：wallhaven壁纸，这个网站是国外的，可能打开会慢一点。

爬取首页壁纸(第一部)

首页壁纸预览
先把源代码爬下来分析，需导入requests第三方库。用pip下载或者pycharm帮助下载，先保证pycharm用的python和cmd下python是同一个

import requests
import re

url='https://wallhaven.cc/'
respone=requests.get(url)
print(respone.text)

爬下来后，我习惯去用谷歌浏览器的审查元素去看网页源代码。
第一个图片代码：在这里插入图片描述
对链接分析，要获得img src 后面的内容正则这样写：

<a href=".*?"><img src="(.*?)" width=".*?" alt="" /></a>

拿到链接后，我点开，发现是小图，很不清楚的那种。效果这样：
https://th.wallhaven.cc/lg/2e/2em38y.jpg他的大图链接需要点进去详细页面获取是这个https://w.wallhaven.cc/full/2e/wallhaven-2em38y.jpg,他们之间还是有一定的规则的，我观察后发现，其他也有类似的规则，于是用拼接字符串可以获得大图的链接。

import requests
import re

url='https://wallhaven.cc/'
respone=requests.get(url)
pattern=re.compile('<a href=".*?"><img src="(.*?)" width=".*?" alt="" /></a>',re.S)
results=re.findall(pattern,respone.text)
pattern1=re.compile(r'https://th.wallhaven.cc/.*?/(.*?)/(.*)',re.S)
for result in results:
    ss=re.match(pattern1,result)
    print('https://w.wallhaven.cc/full/'+ss.group(1)+"/wallhaven-"+ss.group(2))

这是全部的代码，运行一下看一下效果

D:\Python3.7.0\python.exe "E:/pycharm/Working directory/shubiao/pachong/wallhaven1.py"
https://w.wallhaven.cc/full/2e/wallhaven-2em38y.jpg
https://w.wallhaven.cc/full/dg/wallhaven-dgrgql.jpg
https://w.wallhaven.cc/full/6k/wallhaven-6k8kkx.jpg
https://w.wallhaven.cc/full/39/wallhaven-3911w9.jpg
https://w.wallhaven.cc/full/dg/wallhaven-dg7y23.jpg
https://w.wallhaven.cc/full/zm/wallhaven-zmm7mw.jpg
https://w.wallhaven.cc/full/md/wallhaven-mdzdok.jpg
https://w.wallhaven.cc/full/x1/wallhaven-x1wroo.jpg
https://w.wallhaven.cc/full/ey/wallhaven-eymzjk.jpg
https://w.wallhaven.cc/full/13/wallhaven-13vym3.jpg
https://w.wallhaven.cc/full/g8/wallhaven-g866qq.jpg
https://w.wallhaven.cc/full/md/wallhaven-md5z28.jpg
https://w.wallhaven.cc/full/6k/wallhaven-6k3oox.jpg
https://w.wallhaven.cc/full/lm/wallhaven-lmxmxy.jpg
https://w.wallhaven.cc/full/2e/wallhaven-2evglg.jpg
https://w.wallhaven.cc/full/ym/wallhaven-ymoo2x.jpg
https://w.wallhaven.cc/full/ym/wallhaven-ymojgd.jpg
https://w.wallhaven.cc/full/ox/wallhaven-ox83gp.jpg
https://w.wallhaven.cc/full/ym/wallhaven-ymo837.jpg
https://w.wallhaven.cc/full/dg/wallhaven-dgzj9o.jpg
https://w.wallhaven.cc/full/ox/wallhaven-oxv6gl.jpg
https://w.wallhaven.cc/full/96/wallhaven-96w8e8.jpg
https://w.wallhaven.cc/full/5w/wallhaven-5w82r1.jpg
https://w.wallhaven.cc/full/xl/wallhaven-xl2qgo.jpg
https://w.wallhaven.cc/full/zm/wallhaven-zmr6qv.jpg
https://w.wallhaven.cc/full/r2/wallhaven-r2ze21.jpg
https://w.wallhaven.cc/full/96/wallhaven-96yzg8.jpg
https://w.wallhaven.cc/full/13/wallhaven-13mk9v.jpg

Process finished with exit code 0

这是初步获取到的wallhaven首页图片的代码效果，大部分都是正确的，有的点不进去，因为小图是jpg格式，但是大图可能是png格式的，这时候，我们就无法正确获取图片了。

按页码爬取网站top图片（第二部）

网站：https://wallhaven.cc/toplist，这是壁纸排行榜的网页，在滑动滚轮的时候，他可以一直加载，后来发现网址会不断变化，类似这种https://wallhaven.cc/toplist?page=2，那好了，有思路了，根据不同的链接爬取该链接下全部图片a链接，就是图片的详细链接，在分析详细链接，获取图片的链接，避免了一部曲中部分图片爬错的情况。

获取页面的全部图片详细链接（a链接）

这里，写了一个方法获取

def readUrlOne(url):
    pattern = re.compile(r'<a class="preview" href="(.*?)"  target="_blank"  ></a>', re.S)
    results = re.findall(pattern, requests.get(url).text)
    return results

爬取到全部图片的href链接。

根据爬取到的href网页，获取图片地址

def readUrlTwo(url):
    pattern = re.compile(r'<img id="wallpaper" src="(.*?)"', re.S)
    response = requests.get(url);
    results = re.search(pattern, response.text)
    return results.group(1)

获取某页下的全部图片地址

调用前面的两个方法。

def geturl1(n):
    url='https://wallhaven.cc/toplist?page='+str(n)
    results=readUrlOne(url)
    for result in results:
        print(readUrlTwo(result))

能够输出n页的全部图片地址。

代码不细讲了，参考正则和requests库的教程

geturl1(3)

看一下代码效果：

D:\Python3.7.0\python.exe "E:/pycharm/Working directory/shubiao/pachong/wallhaven2.py"
https://w.wallhaven.cc/full/6k/wallhaven-6krzkw.png
https://w.wallhaven.cc/full/ym/wallhaven-ymprz7.jpg
https://w.wallhaven.cc/full/73/wallhaven-7357lo.jpg
https://w.wallhaven.cc/full/kw/wallhaven-kwqyvm.jpg
https://w.wallhaven.cc/full/q6/wallhaven-q6yvdq.jpg
https://w.wallhaven.cc/full/13/wallhaven-13zm9g.png
https://w.wallhaven.cc/full/2e/wallhaven-2eqpzm.png
https://w.wallhaven.cc/full/ox/wallhaven-oxrep9.jpg
https://w.wallhaven.cc/full/ey/wallhaven-eymqxr.png
https://w.wallhaven.cc/full/73/wallhaven-735kje.png
https://w.wallhaven.cc/full/73/wallhaven-735qz3.jpg
https://w.wallhaven.cc/full/md/wallhaven-mdkm79.jpg
https://w.wallhaven.cc/full/5w/wallhaven-5w9qe9.jpg
https://w.wallhaven.cc/full/ym/wallhaven-ympdwg.png
https://w.wallhaven.cc/full/73/wallhaven-735kwo.jpg
https://w.wallhaven.cc/full/96/wallhaven-96l7lk.png
https://w.wallhaven.cc/full/96/wallhaven-96l761.jpg
https://w.wallhaven.cc/full/ey/wallhaven-eymk6r.jpg
https://w.wallhaven.cc/full/83/wallhaven-83y6qk.jpg
https://w.wallhaven.cc/full/73/wallhaven-735vg3.jpg
https://w.wallhaven.cc/full/r2/wallhaven-r2l55j.jpg
https://w.wallhaven.cc/full/zm/wallhaven-zmeeoj.jpg
https://w.wallhaven.cc/full/j5/wallhaven-j5g3pw.jpg
https://w.wallhaven.cc/full/ey/wallhaven-eymgrk.jpg

Process finished with exit code 0