新闻平台聚合之新浪新闻爬虫发布

月小水长

于 2021-03-12 22:34:44 发布

阅读量698

点赞数 1

分类专栏： Python3 爬虫数据分析文章标签：新浪新闻 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ygdxt/article/details/114710995

版权

Python3 爬虫同时被 2 个专栏收录

25 篇文章 10 订阅

订阅专栏

9 篇文章 2 订阅

订阅专栏

idea of startproject

对于 web 开发者而言，目前各大新闻门户网站，新浪新闻，百度新闻，腾讯新闻，澎湃新闻，头条新闻并没有提供稳定可用的 feed api。
对于 nlper，缺乏足够的新闻语料数据集来供训练。
对于新闻传播/社会学/心理学等从业者，缺乏获取新闻数据的简单易用途径来供分析。
如果上面三点是某见识所限，其实并不存在的话，第 4 点，则是某的私心，某以为互联网的记忆太短了，热搜一浪盖过一浪，所以试图定格互联网新闻的某些瞬间，最后会以网站的形式发布出来。

project 的 Github：https://github.com/Python3Spiders/AllNewsSpider

继承自新闻平台聚合之腾讯新闻爬虫发布
，本篇是新闻系列的第三篇，以新浪新闻为目标网站

新浪新闻爬虫

该爬虫实现的主要功能罗列如下：

全自动爬取新浪新闻全站新闻内容，包括娱乐、军事、科技、财经四大 category。
可以自定义输入爬取的最大页码，默认是 20 页
字段信息齐全，如下表格

字段名	字段含义
recode_time	该条新闻被抓取的时间
news_title	新闻标题
news_summary	新闻概括
news_url	新闻链接
news_author	新闻作者
news_keywords	新闻关键词，以；分隔
news_time	新闻发布的时间
news_content	新闻具体内容

再说说如何使用（默认读者均有 python3.6+ 环境）

将仓库 sina 文件夹下的 sina_news_spider.pyd 文件下载到本地，新建项目，把 pyd 文件放进去
项目根目录下新建 runner.py，写入以下代码即可运行并抓取
```
import sina_news_spider
sina_news_spider.main()
```

开始运行时会提示输入爬取到哪一页，默认是 20 页

爬取结束了，会在当前目录下生成一个 新浪新闻.xlsx文件，里面保持了四个 category 的所有网站上可浏览的文本新闻，一个 category 对应一个 sheet_name。

本系列预告

1、nytimes 纽约时报爬虫

2、thetimes 泰晤士报爬虫

阅读原文即可直达该爬虫的 Github 地址。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

月小水长 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。