python爬虫小说源码

最新推荐文章于 2024-06-24 18:45:00 发布

weixin_51418252

最新推荐文章于 2024-06-24 18:45:00 发布

阅读量770

点赞数

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_51418252/article/details/128954689

版权

这段代码使用Python的requests库和正则表达式re进行网络请求和网页内容解析，目标是从网站https://www.qb5.tw/抓取每月访问量前1111名的小说的类别、名称、作者、最新章节、总章节和总推荐等信息。

摘要由CSDN通过智能技术生成

import requests
import  re



for i in range(1,1111):
    url = "https://www.qb5.tw/top/monthvisit/%d"%i+'.html'

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36"
}

resp = requests.get(url,headers=headers)
page_content = resp.text

#.*?惰性匹配
#re.S 让.能匹配换行符
obj = re.compile(r'.*?<span class="l1">(?P<leibie>.*?)</span>'
                 r'<span class="l2">(?P<shuming>.*?)</span>'
                 r'<span class="l3">(?P<zuozhe>.*?)</span>'
                 r'<span class="l4">(?P<zuixin>.*?)</span>'
                 r'<span class="l5">(?P<zongshu>.*?)</span>'
                 r'<span class="l6">(?P<zongtui>.*?)</spa