关于newspaper的使用

最新推荐文章于 2024-06-18 09:35:38 发布

蓝色的胖猫

最新推荐文章于 2024-06-18 09:35:38 发布

阅读量1.9k

点赞数 2

分类专栏： python爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_45822314/article/details/108284124

版权

python爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、Newspaper框架是Python爬虫框架中在GitHub上点赞排名第三的爬虫框架，适合抓取新闻网页。它的操作非常简单易学，即使对完全没了解过爬虫的初学者也非常的友好，简单学习就能轻易上手，因为使用它不需要考虑header、IP代理，也不需要考虑网页解析，网页源代码架构等问题。这个是它的优点，但也是它的缺点，不考虑这些会导致它访问网页时会有被直接拒绝的可能。

总得来说，Newspaper框架并不适用于实际工程类新闻信息爬取工作，框架不稳定，爬取过程中会有各种bug，例如获取不到url、新闻信息等，但对于想获取一些新闻语料的朋友不妨一试，简单方便易上手，且不需要掌握太多关于爬虫方面的专业知识。
newspaper的功能

多线程文章下载框架
新闻网址识别
从html中提取文本
从html中提取顶部图像
从html中提取所有图像
从文本中提取关键字
从文本中提取摘要
从文本中提取作者
Google趋势术语提取。
2**、如何使用newspaper**
cmd 安装

pip install newspaper3k

Pycharm 安装
在这里插入图片描述
3、抓取
随机找一篇新闻网站去请求就可以了
可以获取新闻标题
新闻正文
新闻作者
新闻图片
著作时间等
原理：先去请求网页，将网页请求后进行解析。用newspaper的属性直接获取信息就OK
获取中国新闻网：http://www.chinanews.com/auto/2020/08-20/9269800.shtml

在这里插入图片描述
完整代码:

from newspaper import Article

url = 'http://www.chinanews.com/auto/2020/08-20/9269800.shtml'
news = Article(url, language='zh')
news .download()  #先下载
news .parse()    #再解析
print(news.text) #新闻正文
print(news.title) #新闻标题
# print(news.html)   #未修改的原始HTML
print(news.authors)  #新闻作者
print(news.images) #本文的“最佳图像”的URL
# print(news.movies)  #本文电影url
# print(news.keywords) #新闻关键词
print(news.summary)   #从文章主体txt中生成的摘要print(news.images) #本文中的所有图像url
# for i in news.images:
#     print(i)