【python】python红楼梦小说数据抓取合并（源码+数据）【独一无二】

米码收割机

已于 2024-05-12 17:09:59 修改

阅读量574

点赞数 15

文章标签： python 开发语言

于 2024-05-12 17:09:19 首次发布

CSDN-米玛收割机专用版权

本文链接：https://blog.csdn.net/weixin_44244190/article/details/138759257

版权

👉博__主👈：米码收割机
👉技__能👈：C++/Python语言
👉公众号👈：测试开发自动化【获取源码+商业合作】
👉荣__誉👈：阿里云博客专家博主、51CTO技术博主
👉专__注👈：专注主流机器人、人工智能等相关领域的开发、测试技术。

【python】python红楼梦数据抓取合并（源码+数据）【独一无二】

目录

【python】python红楼梦数据抓取合并（源码+数据）【独一无二】
一、设计要求
二、设计思路
三、运行结果

一、设计要求

1）抓取红楼梦第一回至第一百二十回的原文，将原文分别保存在txt中，例如：第一回.txt。
2）将保存的txt，合并成一个红楼梦.txt。

网页如下：
在这里插入图片描述

👉👉👉 源码获取关注【测试开发自动化】公众号，回复 “红楼梦” 获取。👈👈👈

小说内容如下：
在这里插入图片描述

👉👉👉 源码获取关注【测试开发自动化】公众号，回复 “红楼梦” 获取。👈👈👈

代码是红楼梦抓取脚本，旨在从一系列网页中提取内容，这些网页与一个文本相关《红楼梦》。

导入库：脚本开始时导入必要的库：requests 用于发起 HTTP 请求，lxml 用于解析 HTML。
遍历URL：它在一个范围内进行迭代，从1到120（包括1和2）。每次迭代都会使用字符串格式化形成一个URL，以访问类似 http://xxx.xxxx 的页面。
获取和解析：对于每个URL，它发送一个HTTP GET请求来获取页面的HTML内容。然后将编码设置为’gbk’（可能是因为页面上的中文文本）。它打印了获取的HTML内容。
提取内容：然后使用XPath表达式从HTML中提取特定内容。标题从<html><body><p[2]><font><b>标签中提取，内容从<html><body><center><table>//font标签中提取。
写入文件：它将提取的标题和内容分别写入以数字命名的文本文件中（如’1.txt’，‘2.txt’ …）。
合并文本文件：在提取了每个页面的内容之后，它定义了一个名为merge_txt()的函数，用于将所有提取的内容合并到一个名为’红楼梦.txt’的单个文本文件中。它遍历目录中的所有文件，读取每个文件的内容，并将其追加到合并的文件中。
清理：合并后，它打印每个单独文件的内容，然后写入合并的文件，并在其中添加了几个换行字符以分隔内容。

👉👉👉 源码获取关注【测试开发自动化】公众号，回复 “红楼梦” 获取。👈👈👈

在这里插入图片描述

👉👉👉 源码获取关注【测试开发自动化】公众号，回复 “红楼梦” 获取。👈👈👈

在这里插入图片描述

👉👉👉 源码获取关注【测试开发自动化】公众号，回复 “红楼梦” 获取。👈👈👈

关注