直接上代码:
值得注意的是这个网站有反爬机制,我在headers里加了"Referer": “https://www.mzitu.com/”。
很多网站站也有,比如哔哩哔哩动画
个人觉得requests比urllib.request好用一点,更简洁。
用到了re模块来清洗数据
search返回match对象,用group获取内容,
m.group() == m.group(0) == 所有匹配的字符(即匹配正则表达式整体结果)
group(1) 列出第一个括号匹配部分,group(2) 列出第二个括号匹配部分,group(3) 列出第三个括号匹配部分。
m.groups() 返回所有括号匹配的字符,以tuple格式。m.groups() == (m.group(0), m.group(1), …)
-
没有匹配成功的,re.search()返回None
-
当然正则表达式中没有括号,group(1)肯定不对了。
re.sub(pattern, repl, string, count=0, flags=0)
其中三个必选参数:pattern, repl, string
两个可选参数:count, flags
# -*- coding = utf-8 -*-
# @time:2020/12/7 22:05
# Author:Vab
# @File:mzitu.py
# @Software:PyCharm
import re
import requests
import os.path
headers = {
"Referer": "https://www.mzitu.com/"