1、Newspaper框架是Python爬虫框架中在GitHub上点赞排名第三的爬虫框架,适合抓取新闻网页。它的操作非常简单易学,即使对完全没了解过爬虫的初学者也非常的友好,简单学习就能轻易上手,因为使用它不需要考虑header、IP代理,也不需要考虑网页解析,网页源代码架构等问题。这个是它的优点,但也是它的缺点,不考虑这些会导致它访问网页时会有被直接拒绝的可能。
总得来说,Newspaper框架并不适用于实际工程类新闻信息爬取工作,框架不稳定,爬取过程中会有各种bug,例如获取不到url、新闻信息等,但对于想获取一些新闻语料的朋友不妨一试,简单方便易上手,且不需要掌握太多关于爬虫方面的专业知识。
newspaper的功能
多线程文章下载框架
新闻网址识别
从html中提取文本
从html中提取顶部图像
从html中提取所有图像
从文本中提取关键字
从文本中提取摘要
从文本中提取作者
Google趋势术语提取。
2**、如何使用newspaper**
cmd 安装
pip install newspaper3k
Pycharm 安装
3、抓取
随机找一篇新闻网站去请求就可以了
可以获取 新闻标题
新闻正文
新闻作者
新闻图片
著作时间等
原理:先去请求网页,将网页请求后进行解析。用newspaper的属性直接获取信息就OK
获取中国新闻网:http://www.chinanews.com/auto/2020/08-20/9269800.shtml
完整代码:
from newspaper import Article
url = 'http://www.chinanews.com/auto/2020/08-20/9269800.shtml'
news = Article(url, language='zh')
news .download() #先下载
news .parse() #再解析
print(news.text) #新闻正文
print(news.title) #新闻标题
# print(news.html) #未修改的原始HTML
print(news.authors) #新闻作者
print(news.images) #本文的“最佳图像”的URL
# print(news.movies) #本文电影url
# print(news.keywords) #新闻关键词
print(news.summary) #从文章主体txt中生成的摘要print(news.images) #本文中的所有图像url
# for i in news.images:
# print(i)