写个爬虫，爬图片，mzitu

最新推荐文章于 2021-01-10 19:37:30 发布

super_vab

最新推荐文章于 2021-01-10 19:37:30 发布

阅读量2.4k

点赞数

分类专栏： python 初级算法文章标签： python 正则表达式

本文链接：https://blog.csdn.net/weixin_44022018/article/details/110874166

版权

本文介绍了一个使用Python进行网页爬虫的实例，目标是抓取Mzitu网站上的图片。在代码中，作者通过设置headers以应对网站的反爬机制，并利用requests库和正则表达式进行数据清洗。re.search用于查找匹配，group方法用于获取匹配内容，而re.sub则用于替换操作。虽然urllib.request也常用，但作者认为requests库更加简洁易用。

摘要由CSDN通过智能技术生成

直接上代码：

值得注意的是这个网站有反爬机制，我在headers里加了"Referer": “https://www.mzitu.com/”。
很多网站站也有，比如哔哩哔哩动画

在这里插入图片描述

个人觉得requests比urllib.request好用一点，更简洁。
用到了re模块来清洗数据
search返回match对象，用group获取内容，
m.group() == m.group(0) == 所有匹配的字符(即匹配正则表达式整体结果)
group(1) 列出第一个括号匹配部分，group(2) 列出第二个括号匹配部分，group(3) 列出第三个括号匹配部分。
m.groups() 返回所有括号匹配的字符，以tuple格式。m.groups() == (m.group(0), m.group(1), …)

没有匹配成功的，re.search（）返回None
当然正则表达式中没有括号，group(1)肯定不对了。

re.sub(pattern, repl, string, count=0, flags=0)

其中三个必选参数：pattern, repl, string

两个可选参数：count, flags

# -*- coding = utf-8 -*-
# @time:2020/12/7 22:05
# Author:Vab
# @File:mzitu.py
# @Software:PyCharm
import re
import requests
import os.path


headers = {
   
    "Referer": "https://www.mzitu.com/"

最低0.47元/天解锁文章

super_vab

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
写个爬虫，爬图片，mzitu

直接上代码：# -*- coding = utf-8 -*-# @time:2020/12/7 22:05# Author:Vab# @File:mzitu.py# @Software:PyCharmimport reimport requestsimport os.pathheaders = { "Referer": "https://www.mzitu.com/", 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64
复制链接

扫一扫