关于newspaper的使用

1、Newspaper框架是Python爬虫框架中在GitHub上点赞排名第三的爬虫框架,适合抓取新闻网页。它的操作非常简单易学,即使对完全没了解过爬虫的初学者也非常的友好,简单学习就能轻易上手,因为使用它不需要考虑header、IP代理,也不需要考虑网页解析,网页源代码架构等问题。这个是它的优点,但也是它的缺点,不考虑这些会导致它访问网页时会有被直接拒绝的可能。

​ 总得来说,Newspaper框架并不适用于实际工程类新闻信息爬取工作,框架不稳定,爬取过程中会有各种bug,例如获取不到url、新闻信息等,但对于想获取一些新闻语料的朋友不妨一试,简单方便易上手,且不需要掌握太多关于爬虫方面的专业知识。
newspaper的功能

多线程文章下载框架
新闻网址识别
从html中提取文本
从html中提取顶部图像
从html中提取所有图像
从文本中提取关键字
从文本中提取摘要
从文本中提取作者
Google趋势术语提取。
2**、如何使用newspaper**
cmd 安装

pip install newspaper3k

Pycharm 安装
在这里插入图片描述
在这里插入图片描述3、抓取
随机找一篇新闻网站去请求就可以了
可以获取 新闻标题
新闻正文
新闻作者
新闻图片
著作时间等
原理:先去请求网页,将网页请求后进行解析。用newspaper的属性直接获取信息就OK
获取中国新闻网:http://www.chinanews.com/auto/2020/08-20/9269800.shtml

在这里插入图片描述
完整代码:

from newspaper import Article

url = 'http://www.chinanews.com/auto/2020/08-20/9269800.shtml'
news = Article(url, language='zh')
news .download()  #先下载
news .parse()    #再解析
print(news.text) #新闻正文
print(news.title) #新闻标题
# print(news.html)   #未修改的原始HTML
print(news.authors)  #新闻作者
print(news.images) #本文的“最佳图像”的URL
# print(news.movies)  #本文电影url
# print(news.keywords) #新闻关键词
print(news.summary)   #从文章主体txt中生成的摘要print(news.images) #本文中的所有图像url
# for i in news.images:
#     print(i)
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值