用正则表达式爬取古诗文网站，边玩边学

最新推荐文章于 2024-09-05 13:52:17 发布

过分的规定

最新推荐文章于 2024-09-05 13:52:17 发布

阅读量847

点赞数

文章标签：正则表达式 python 开发语言爬虫学习

本文链接：https://blog.csdn.net/weixin_43740011/article/details/130617211

版权

用正则表达式爬取古诗文网站，边玩边学

古诗文网站是一个充满了文化气息的网站，里面收录了大量的古代诗词和文章，对于喜欢文化和历史的人来说是一个非常不错的学习资源。但是如果需要大量下载或者获取古诗文网站上的内容，手动复制粘贴显然是不现实的。那么，如何通过编程的方式来获取这些内容呢？本文将介绍如何使用正则表达式来爬取古诗文网站的内容。

正则表达式的基本语法

在开始介绍如何使用正则表达式爬取古诗文网站之前，我们先来了解一下正则表达式的基本语法。正则表达式是一种用于匹配字符串的工具，它可以用来判断一个字符串是否符合某种规则。在正则表达式中，有一些特殊的字符和符号，它们代表了不同的含义，比如：

.：表示匹配任意一个字符，除了换行符。
****：表示匹配前面的字符出现 0 次或多次。
+：表示匹配前面的字符出现 1 次或多次。
?：表示匹配前面的字符出现 0 次或 1 次。
[ ]：表示匹配方括号内的任意一个字符。
[^ ]：表示匹配除了方括号内的任意一个字符。
{n}：表示匹配前面的字符出现 n 次。
{n,}：表示匹配前面的字符出现至少 n 次。
{n,m}：表示匹配前面的字符出现 n 到 m 次。

这些符号可以组合使用，形成复杂的匹配规则，下面我们将通过实例来详细介绍。

使用正则表达式爬取古诗文网站

现在我们已经了解了正则表达式的基本语法，接下来我们将使用 Python 语言和正则表达式来爬取古诗文网站的内容。首先，我们需要先分析一下古诗文网站的页面结构，找出我们需要爬取的内容。

打开古诗文网站，我们可以看到主页上有一个“诗词”菜单，点击进入后就可以看到各种古代诗词的列表。我们的目标是爬取这个列表中每一首诗的标题和作者。

接下来，我们打开 Chrome 浏览器的开发者工具，切换到 Network 标签页，并刷新一下页面。这样就可以看到浏览器发出的所有请求和响应，我们可以找到与诗词列表相关的请求，进而分析出网页中诗词标题和作者的 HTML 代码。

通过分析 HTML 代码，我们可以看到每首诗词都被包含在一个 class 为“typecont”的 div 元素中。而每首诗词的标题和作者则分别被包含在一个 class 为“son2”的 div 元素中。因此，我们可以使用正则表达式来匹配这些 div 元素，进而获取到每首诗词的标题和作者。

下面是完整的 Python 程序：

import requests
import re

url = '<https://www.gushiwen.org/>'
response = requests.get(url)
response.encoding = 'utf-8'

pattern = re.compile('<div class="typecont">(.*?)</div>', re.S)
result = pattern.findall(response.text)

for poem in result:
    pattern = re.compile('<div class="son2">(.*?)</div>', re.S)
    result = pattern.findall(poem)
    title = result[0].strip()
    author = result[1].strip()
    print(title, author)

程序中首先通过 requests 库获取网页内容，并使用 re 模块中的 compile() 方法编译正则表达式。然后使用 findall() 方法匹配出每个包含诗词的 div 元素，再在每个 div 元素中匹配出标题和作者的 div 元素，并使用 strip() 方法去除空格和换行符。最后将标题和作者打印出来。

总结

本文介绍了如何使用正则表达式来爬取古诗文网站的内容。通过分析网页的 HTML 代码，我们可以找到需要爬取的内容，并使用正则表达式来匹配和提取这些内容。正则表达式是一种非常强大的工具，可以用于处理各种文本数据。对于爬虫开发者来说，掌握正则表达式技术是非常重要的。当然，正则表达式也有一定的局限性，当网页结构较为复杂时，可能需要使用其他的技术来进行数据的抓取和处理。希望本文能够对大家有所帮助。

过分的规定

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
用正则表达式爬取古诗文网站，边玩边学

本文介绍了如何使用正则表达式来爬取古诗文网站的内容。通过分析网页的 HTML 代码，我们可以找到需要爬取的内容，并使用正则表达式来匹配和提取这些内容。正则表达式是一种非常强大的工具，可以用于处理各种文本数据。对于爬虫开发者来说，掌握正则表达式技术是非常重要的。当然，正则表达式也有一定的局限性，当网页结构较为复杂时，可能需要使用其他的技术来进行数据的抓取和处理。希望本文能够对大家有所帮助。
复制链接

扫一扫