爬虫小试-将某网站内的试题爬取出来并保存到本地word

emmm,因为要刷作业的试题(QWQ题目实在是太多了),在机缘巧合之下竟发现老师上传的题目全部是某网站上的,于是乎哈哈哈,爬下来做题库方便查询(Ctrl+F),下面进入正题,爬 使用到的模块requestsXpath(lxml)docx(python-docx) 首先给出目标网页的URL:http://www.manongjc.com/detail/7-tyzzyvdyjzszbif...
摘要由CSDN通过智能技术生成

emmm,因为要刷作业的试题(QWQ题目实在是太多了),在机缘巧合之下竟发现老师上传的题目全部是某网站上的,于是乎哈哈哈,爬下来做题库方便查询(Ctrl+F),下面进入正题,爬


使用到的模块
requests
Xpath(lxml)
docx(python-docx)


首先给出目标网页的URL:http://www.manongjc.com/detail/7-tyzzyvdyjzszbif.html
然后,肯定是让咱瞧瞧这个网页的真面目(源码结构)是什么,操作很简单,我使用的是Google浏览器开发者工具,源码部分如下图所示

在这里插入图片描述
很显然,我们需要的试题都在<div class='article-content' id="code_example"><p>
知道了需要的东西在哪,接下来就好办了,问题是怎么获取到它了

先使用requests请求获得网页的HTML文rs = requests.get(url=url, headers=headers)

进一步,对获取得到的rs进行处理解析,这里使用到Xpath的知识

root = etree.HTML(rs.content)
texts = root.xpath('//div[@class="article-content"]/p/text()')

我们在控制台看看texts有没有成功解析出来
在这里插入图片描述
很不错,到这里,我们的目的已经实现了一大半了ÿ

  • 25
    点赞
  • 128
    收藏
    觉得还不错? 一键收藏
  • 11
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值