爬虫小试-将某网站内的试题爬取出来并保存到本地word

最新推荐文章于 2024-07-12 17:01:23 发布

莫莫先生

最新推荐文章于 2024-07-12 17:01:23 发布

阅读量3.2w

点赞数 25

分类专栏： # Python爬虫学习文章标签： python爬虫爬虫学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44835732/article/details/103047765

版权

本文介绍了如何使用Python爬虫技术，结合requests、lxml和python-docx库，从特定网站抓取试题并保存到本地Word文档中，方便查找和阅读。首先请求网页HTML，通过Xpath解析获取试题内容，去除干扰字符，最后利用docx模块将内容写入Word文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

emmm，因为要刷作业的试题（QWQ题目实在是太多了），在机缘巧合之下竟发现老师上传的题目全部是某网站上的，于是乎哈哈哈，爬下来做题库方便查询（Ctrl+F），下面进入正题，爬

使用到的模块
requests
Xpath（lxml）
docx（python-docx）

首先给出目标网页的URL：http://www.manongjc.com/detail/7-tyzzyvdyjzszbif.html
然后，肯定是让咱瞧瞧这个网页的真面目（源码结构）是什么，操作很简单，我使用的是Google浏览器开发者工具，源码部分如下图所示

在这里插入图片描述
很显然，我们需要的试题都在<div class='article-content' id="code_example"><p>里
知道了需要的东西在哪，接下来就好办了，问题是怎么获取到它了

先使用requests请求获得网页的HTML文rs = requests.get(url=url, headers=headers)

进一步，对获取得到的rs进行处理解析，这里使用到Xpath的知识

root = etree.HTML(rs.content)
texts = root.xpath('//div[@class="article-content"]/p/text()')

我们在控制台看看texts有没有成功解析出来
在这里插入图片描述
很不错，到这里，我们的目的已经实现了一大半了ÿ

最低0.47元/天解锁文章

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。