爬虫 | 正则表达式提取腾讯教育新闻链接及图片链接

本文介绍了如何利用正则表达式从腾讯教育网站中抓取新闻链接和图片链接。首先分析链接特点,然后编写正则表达式进行匹配,最后展示提取的链接数量,强调了正则表达式在爬虫中的灵活性和实用性。
摘要由CSDN通过智能技术生成

前面的爬虫都是通过标签来爬取的,今天就分享一个小例子使用正则表达式来提取网页信息。如果你对正则表达式不熟悉,可以查看我之前写的R正则表达式这篇文章。它对R几个常用正则表达式进行了详尽的解释,包括参数说明,函数区别,正则表达式转义等都有介绍。

今天通过爬取腾讯教育(http://edu.qq.com/)网页的所有关于教育新闻的链接,另外也爬取图片链接。

提取新闻链接

首先我们来分析一些教育类新闻链接的特点。

"http://edu.qq.com/a/20180509/003811.htm"

最明显的特点就是http://edu.qq.com/a/开头,以.htm结尾。我们可以根据这个特点来写正则表达式。http://edu.qq.com/a/+[0-9.*]+[/]+[0-9.*]+[.]+htm

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值