小白爬虫笔记（3）| 糗事百科段子提取

最新推荐文章于 2021-04-14 17:38:11 发布

不太累的码农

最新推荐文章于 2021-04-14 17:38:11 发布

阅读量73

点赞数

分类专栏：爬虫笔记文章标签： url 正则表达式 python

本文链接：https://blog.csdn.net/weixin_52720197/article/details/115309136

版权

爬虫笔记专栏收录该内容

9 篇文章 2 订阅

订阅专栏

本文是小白的爬虫学习笔记，通过Python使用正则表达式从糗事百科网页抓取段子。博客中介绍了如何分析页面URL、提取信息及展示抓取结果。

摘要由CSDN通过智能技术生成

大家好，作为一名互联网行业的小白，写博客只是为了巩固自己学习的知识，但由于水平有限，博客中难免会有一些错误出现，有不妥之处恳请各位大佬指点一二！
博客主页：链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.5343

1.导入包

# 用requests库来发送请求
import requests
from fake_useragent import UserAgent
# 使用正则
import re

2，分析页面，写url

在这里插入图片描述

# 要发送的地址
url = 'https://www.qiushibaike.com/text/'
headers = {"User-Agent": UserAgent().chrome}
# 发送请求，将url，headers扔进去，resp作出相应
resp = requests.get(url, headers=headers)
print(resp.text)

3，用正则提取信息

右键-检查
在这里插入图片描述

发现有两个span 标签，所以要取第一个span标签


contents = re.findall(r'<div class="content"><span>(.+)</span>', resp.text)

for info in contents:
    print(info)

结果：
在这里插入图片描述

发现数据

# 正则
contents = re.findall(r'<div class="content">\s*<span>\s*(.+)', resp.text)
with open('duanzi.txt','a',encoding='utf-8') as f:
    for info in contents:
        f.write(info+"\n\n")

4，代码

# 用requests库来发送请求
import requests
from fake_useragent import UserAgent
import re

# 要发送的地址
url = 'https://www.qiushibaike.com/text/'
headers = {"User-Agent": UserAgent().chrome}
# 发送请求，将url，headers扔进去，resp作出相应
resp = requests.get(url, headers=headers)
print(resp.text)
# 正则
contents = re.findall(r'<div class="content">\s*<span>\s*(.+)', resp.text)
with open('duanzi.txt','a',encoding='utf-8') as f:
    for info in contents:
        f.write(info+"\n\n")

结果：
在这里插入图片描述

不太累的码农

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
小白爬虫笔记（3）| 糗事百科段子提取

大家好，作为一名互联网行业的小白，写博客只是为了巩固自己学习的知识，但由于水平有限，博客中难免会有一些错误出现，有不妥之处恳请各位大佬指点一二！博客主页：链接: https://blog.csdn.net/weixin_52720197?spm=1018.2118.3001.53431.导入包# 用requests库来发送请求import requestsfrom fake_useragent import UserAgent# 使用正则import re2，分析页面，写url#.
复制链接

扫一扫

专栏目录