python使用requests和正则表达式简单爬取糗事百科的搞笑段子

最新推荐文章于 2023-11-24 23:11:19 发布

置顶雷姆天下第一

最新推荐文章于 2023-11-24 23:11:19 发布

阅读量522

点赞数 2

分类专栏：第三方库爬虫文章标签： python

本文链接：https://blog.csdn.net/yingshengdi/article/details/105954550

版权

第三方库同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

爬虫

2 篇文章 0 订阅

订阅专栏

一、熟悉你要爬取的页面

1，按键盘上的：F12 打开

2，选择All刷新界面，F5刷新。

3，复制下面的 Request URL的数据也就是我们要访问的url地址；

4，获取页面的请求头

前段代码如下：

import requests
import re
url = 'https://www.qiushibaike.com/text/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'
}
response = requests.get(url,headers=headers)
info = response.text
print(info)

二，使用re这个正则表达式获取我们想要的数据

右键点击检查，可以看到

所有得到正则表达式为：

infos = re.findall(r'<div class="content">\s*<span>\s*(.+)\s*</span>',info)

三、保存数据即可

所有完整的代码如下：

import requests
import re
urls = 'https://www.qiushibaike.com/text/page/{}/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'
}

i = 0
#使用死循环，获取页数
while True:
    url = urls.format(i +1)
    response = requests.get(url,headers=headers)
    info = response.text
    # print(info)
    infos = re.findall(r'<div class="content">\s*<span>\s*(.+)\s*</span>',info)
    # print(infos)
    for info in infos:
#保存数据
        with open('qiushi.txt','a',encoding='utf-8') as f:

           f.write(info + "\n\n\n")
    i += 1
    print('已经打印了',i,"页")

雷姆天下第一

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
4
评论
python使用requests和正则表达式简单爬取糗事百科的搞笑段子

一、熟悉你要爬取的页面1，按键盘上的：F12 打开2，选择All刷新界面，F5刷新。3，复制下面的 Request URL的数据也就是我们要访问的url地址；4，获取页面的请求头前段代码如下：import requestsimport reurl = 'https://www.qiushibaike.com/text/'headers = { ...
复制链接

扫一扫