一.分析代码
对比两个链接
标题正则表达式:
r'<a href="(/a/jingdianmingyan/.*?/\d+\.html)" class="title">(.*?)</a>'
每个标题的内容正则表达式:
r'<div class="content">.*?<td>.*?</div>(.*?)</td>.*?</div>'
二.代码展示
import urllib.request
import urllib.parse
import re
import os
def handle_request(url, page=None): # 设置默认值,可以二次使用(get_text函数)
if page != None:
url = url + str(page) + '.html'
headers =