Python爬虫 - rss解析器feedparser

本篇博客介绍一个利器,叫做feedparser,这个库使我们轻松实现从任何RSS或者Atom订阅源得到一些我们想要的内容。想对比原网页,rss返回的数据更简洁。另外,要注意,这个库只适用于支持rss的网站

一、安装

pip install feedparser

二、简单测试

测试链接为我的csdn博客rss订阅,测试的时候遇到了一个坑:可以看到下面代码中的链接是没有www.的,这样写在Windows上是没有问题的,但是在Linux(我的服务器为Centos7)上返回的会是一个空list,大家复制链接的时候一定要注意。

import feedparser

def rss():
    file = feedparser.parse('https://blog.csdn.net/weixin_44110998/rss/list')
    for i in file.entries:
    	print(i.title,':',i.link)
说明:
  1. 返回的数据经过.entries处理后的结果是一个list;
  2. list里是多个字典,每个字典就是每篇文章的一些主要内容(详情请运行上述代码)
  3. 直接使用字典获取value的方法即可,比如我想获取文章标题,只需要.title即可
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值