新闻平台聚合之新浪新闻爬虫发布

idea of startproject

  1. 对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。

  2. 对于 nlper,缺乏足够的新闻语料数据集来供训练。

  3. 对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。

  4. 如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。

project 的 Github:https://github.com/Python3Spiders/AllNewsSpider

继承自 新闻平台聚合之腾讯新闻爬虫发布
,本篇是新闻系列的第三篇,以新浪新闻为目标网站

新浪新闻爬虫

该爬虫实现的主要功能罗列如下:

  1. 全自动爬取新浪新闻全站新闻内容,包括 娱乐军事科技财经 四大 category。
  2. 可以自定义输入爬取的最大页码,默认是 20
  3. 字段信息齐全,如下表格
字段名字段含义
recode_time该条新闻被抓取的时间
news_title新闻标题
news_summary新闻概括
news_url新闻链接
news_author新闻作者
news_keywords新闻关键词,以 ;分隔
news_time新闻发布的时间
news_content新闻具体内容

再说说如何使用(默认读者均有 python3.6+ 环境)

  1. 将仓库 sina 文件夹下的 sina_news_spider.pyd 文件下载到本地,新建项目,把 pyd 文件放进去

  2. 项目根目录下新建 runner.py,写入以下代码即可运行并抓取

    import sina_news_spider
    sina_news_spider.main()
    

开始运行时会提示输入爬取到哪一页,默认是 20 页

爬取结束了,会在当前目录下生成一个 新浪新闻.xlsx文件,里面保持了四个 category 的所有网站上可浏览的文本新闻,一个 category 对应一个 sheet_name。

本系列预告

1、nytimes 纽约时报爬虫

2、thetimes 泰晤士报爬虫

阅读原文即可直达该爬虫的 Github 地址。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

月小水长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值