import requests import re for i in range(1,1111): url = "https://www.qb5.tw/top/monthvisit/%d"%i+'.html' headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36" } resp = requests.get(url,headers=headers) page_content = resp.text #.*?惰性匹配 #re.S 让.能匹配换行符 obj = re.compile(r'.*?<span class="l1">(?P<leibie>.*?)</span>' r'<span class="l2">(?P<shuming>.*?)</span>' r'<span class="l3">(?P<zuozhe>.*?)</span>' r'<span class="l4">(?P<zuixin>.*?)</span>' r'<span class="l5">(?P<zongshu>.*?)</span>' r'<span class="l6">(?P<zongtui>.*?)</spa
python爬虫小说源码
最新推荐文章于 2024-06-24 18:45:00 发布
这段代码使用Python的requests库和正则表达式re进行网络请求和网页内容解析,目标是从网站https://www.qb5.tw/抓取每月访问量前1111名的小说的类别、名称、作者、最新章节、总章节和总推荐等信息。
摘要由CSDN通过智能技术生成