「雪球」新闻feed流爬虫!

最新推荐文章于 2021-08-14 21:43:48 发布

yscoder

最新推荐文章于 2021-08-14 21:43:48 发布

阅读量1.1k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/yscoder/article/details/83869222

版权

原创文章，转载请注明出处：https://blog.csdn.net/yscoder/article/details/83869222

具体代码见 github雪球信息流爬虫,欢迎fork＆star

雪球是一个什么样的网站？

雪球股票,聪明的投资者都在这里 - 雪球提供沪深港美股票实时行情、实战交流、实盘交易。

雪球的Feed流样式

在这里插入图片描述

如上图所示为用户为从雪球首页截取出来的信息流，从图中可以看出雪球的信息流包含如下几个模块:

头条
直播
沪深
房产
港股
基金
美股
私募
汽车
保险

雪球首页的信息流采用XML请求进行数据的异步加载，其请求地址为 feed流请求地址，该请求中包含着几个重要的参数，分别如下：

since_id : 信息流数据所请求的新闻起始id
max_id : 信息流数据所请求的新闻的最大id
count : 本次请求的数据条数
category : 请求分类
下图所示为通过开发者工具截取的信息流异步请求过程：

在这里插入图片描述
　　对于网站来说，通常这种接口数据需要较为复杂的权限认证才可以进行数据的抓取，而笔者在实验过程当中发现，只要在请求时在请求头部附带会话的Cookie即可，(当用户访问雪球首页的时候，雪球的服务器会自动将Cookie发回给浏览器)。
使用Scrapy抓取雪球的信息流时的步骤如下：

枚举雪球信息流所有的分类，如下：

_category = {
   
    '-1': "头条",
    '6': "直播",
    '105': "沪深",
    '111': "房产",
    '102': "港股"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yscoder

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用 Scrapy 爬取雪球股票数据——完整教程

2201_76125261的博客

03-11

1259

本文重点讲解了如何解析接口返回的 JSON 数据，如何配置 Scrapy 项目和设置请求头，如何存储和处理数据。如前所述，雪球网股票数据的获取依赖于 API 请求。通过本文的学习，读者将能够掌握如何使用 Scrapy 处理 API 请求，如何解析 JSON 格式的数据，如何进行数据清洗和存储，最终实现雪球网股票数据的爬取与分析。在本教程中，我们将重点关注股票的实时行情数据，包括股票的价格、涨跌幅、成交量等信息。框架爬取雪球网的股票数据，重点介绍如何解析接口返回的 JSON 数据，如何高效地爬取并存储数据。

今日头条信息流_signature

李玺

12-09

3456

import execjs import requests '''今日头条信息流''' headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36"} js_sign = ''' const jsdom = require("jsdom"); const { JSDOM } = js

2 条评论您还未登录，请先登录后发表或查看评论

雪球 feed流爬虫

yscoder的博客

12-01

1242

雪球是一个什么样的网站？雪球股票,聪明的投资者都在这里 - 雪球提供沪深港美股票实时行情、实战交流、实盘交易。雪球的Feed流样式如上图所示为用户为从雪球首页截取出来的信息流，从图中可以看出雪球的信息流包含如下几个模块: 头条直播沪深房产港股基金美股私募汽车保险雪球首页的信息流采用XML请求进行数据的异步加载，其请求地址为feed流请求地址，该请求中包含着几个重要的参数，分别如下： since_id : 信息流数据所请求的新闻起始id max.

python爬虫-雪球咨询

MKKKKAA的博客

10-29

708

需注意的点： 1、雪球需要携带cookie才能访问，用session访问首页，拿到cookie保存后抓取数据； 2、解析json是一开始遇到比较难的问题，经过多次尝试后，掌握了剥洋葱的方法，将字典层层剥开即可；源码 import requests headers = { 'User-Agent': 'Mozilla/5.0' } session = requests.Session() main_url = 'https://xueqiu.com/' session.get(main_url,

爬虫抓取雪球网用户动态（Tweets）作者 Runsen 代码可用

06-27

**@Author：Runsen** #### 介绍爬虫抓取雪球网用户动态（Tweets），接口：https://xueqiu.com/v4/statuses/user_timeline.json #### 使用说明 1. 使用前对脚本关键位置进行如下修改：打开浏览器并登录雪球网账号，获取cookie并替换代码中的相应部分 userid填写你要爬取的账号id 2. 双击“xueqiu_getTweets.py”进行爬取或控制台运行 3. 结果保存至脚本所在目录以所爬取账号昵称命名的CSV文件中

常用Feed流架构实现

weixin_30788731的博客

08-23

700

业务中很多需求都会用到类似feed流的架构。例如微信朋友圈微博动态 1对N消息。一般feed流的架构实现有下面几种。假如现在的业务场景是微博，然后当前的数据情况是：用户A关注了用户B和C，用户D关注了用户B 用户B发了微博A，B，用户C发了微博C，D 1. 拉数据表微博表（字段有：微博ID，微博内容，发布人）代码逻辑：用户 B发布微博接口，插入记录到微博表...

爬取雪球网房产新闻

silencekinght的博客

08-15

322

xueqiu.py import requests import json import mysql_test def xueqiu_urllib(num): max_id = -1 count = 10 mc = mysql_test.mysql_connect() for i in range(num): url = 'https://xu...

一文搞懂各大APP！网站python网络爬虫！

Pythoncxy的博客

09-03

1686

1）爬取汽车之家数据，利用论坛发言的抓取以及NLP，对各种车型的车主做画像。 2 ）抓取各大电商的评论及销量数据，对各种商品（颗粒度可到款式）沿时间序列的销量以及用户的消费场景进行分析。 Python资源共享群：626017123 3）还可以根据用户评价做情感分析，实时监控产品在消费者心目中的形象，对新发布的产品及时监控，以便调整策略。 4 ）抓取房产买卖及租售信息，对热热闹闹的房价问...

python爬虫可以爬取哪些有用的东西_有哪些网站用爬虫爬取能得到很有价值的数据？...

weixin_39924573的博客

12-03

2970

有哪些网站用爬虫爬取能得到很有价值的数据？题主是个web程序员，最近想转去做数据分析，先练习的爬虫(python)，各种爬取技巧以及多网站爬取等已经掌握，但发现转方向最无奈的是方向(要抓什么数据来干什么)比较迷茫，希望有前辈给予指导，哪些网站的数据抓取下来能获得有分析价值的数据，或者前辈的经验。更新神器：1.下面提到的Quandl网站有一个他们自己的Python库，叫Quandl，可惜也是收费的。...

爬取私募排排网历史净值和破解加密数值(完整版)

AI悦创·编程私教1v1

08-14

5921

爬取私募排排网历史净值和破解加密数值你好，我是悦创。最近，手里有个单子，但是奈何自己实习公司事情太多。所以就把我一对一学员的项目，介绍给 Panda4u 。最后他遇到加密就头疼了。本文将会对这个系列的爬虫进行分析和抓取。仅供学习交流使用！近期爬取了私募排排网上的历史净值，写一下爬取过程中的一些心得体会。原本，思考的时候觉得，selenium 是“万能的”，应该可以一力破万法，结果果然栽跟头了。上面有很多的难点，例如直接利用 selenium 会被检测出反爬、爬取的数值被加密（页面上看到的和 htm

Python爬取雪球7*24小时信息

卡卡

06-07

3362

目的由于工作需要，尝试爬取雪球7*24小时信息。需要的数据就是下图红框框起来的部分。运行环境操作系统：windows 10 浏览器：Chrome Python版本：3.8 使用的第三方库：requests、json、time 查看数据我们需要知道目标数据是一次性加载全部，还是动态地从某个特定的接口不断的获取数据，所以我们需要先在浏览器上查看一些数据。将页面往下翻一段之后，发现网页内容是动态加载的，往下翻一段加载一段。继续往下翻，发现网页停住了，出现了一个加载更多的按钮。点一次按钮就会加载一部分

【python爬虫入门】私募排排网“最大回撤”数据爬取

qq_41202532的博客

09-19

2513

年更选手来了~ 想要在私募排排网爬数据，首先你要有一个账号。然后我们可以随便点进一个基金产品看到它的回撤曲线，无法复制粘贴… 打开源代码，也没有。进入开发者工具…在哪藏着也找不到！！！？不要着急不是有公式嘛？不就是从高点跌倒低点的最大值吗？我们只要知道基金成立以来每日净值或者收益率不就行了（说的好像很容易的样子:)）感谢fundNavTrend救我狗命，就你了！首先看看这个url是个啥？是个post啊，那连接的条件是什么呢？只要知道这些就可以了！ def get_max_retrea

Python 算法交易实验6 获取雪球数据

yukai08008的博客

05-02

2754

说明市场上肯定是存在质量足够好、足够多的市场行情数据的，否则那么多券商，支付宝的交易数据哪里来？不过目前这些数据的透明性和便利性不够好，并不市场化。未来随着改革开放的深入，一方面市场的服务商不仅仅是内资，另一方面算法交易必然兴起，一定会有一家类似电信的公司来进行基础数据的廉价标准付费服务的。立帖为证，5年内必然出现。当下可以通过一些量化平台获取数据，最近看到似乎也可以获取雪球的数据，下面实验一下。内容 1 安装 1 首先要登录雪球，然后在chrome调试下打开网络->XHR，然后随便找一个q

详解如何用python批量采集今日头条信息流数据

weixin_30526593的博客

12-12

1486

本文介绍如何使用后羿采集器的智能模式，免费采集今日头条的文章标题、文章内容、文章评论等信息数据。采集工具简介：后羿采集器（www.houyicaiji.com）是一款基于人工智能技术的网页采集器，只需要输入网址就能够自动识别网页数据，无需配置即可完成数据采集，是业内首家支持三种操作系统（包括Windows、Mac和Linux）的网络爬虫软件。该软件是一款真正免费的数据采集软件...

2018年度盘点 | 隐藏在“信息流”里的那些明争暗斗

脑极体

12-30

551

2018年，谨慎成了资本的代名词，因此拥有可控、可预期的现金流，就像在零下二十度的哈尔滨穿着貂皮大衣走过中央广场，绝对是人群中最闪亮的崽。当互联网公司顺着现金流的甜香味游...

常用社交网络（SNS、人人网、新浪微博）动态新闻（feed、新鲜事、好友动态）系统浅析

Fred Lee的程序人生

02-07

5202

最近见几个朋友都在说人人网新鲜事排序的问题，恰巧对这方面也较感兴趣，于是打算顺便把手头收集到的资料梳理学习一下。由于本人也只是新手，很多内容仅仅是参阅资料后的个人猜测与纸上谈兵故难免存有错误与纰漏，感谢大家指正。一、什么是feed “Feed，本意是“饲料、饲养、（新闻的）广播等”，RSS订阅的过程中会用到的“Feed”，便是在这个意义上进行引申，表示这是用来接收该信息来源更新的接

爬虫：Scrapy9 - Feed exports

weixin_30497527的博客

09-18

196

实现爬虫时最经常提到的需求就是能合适的保存爬取到的数据，或者说，生成一个带有爬取数据的“输出文件”（通常叫“输出 feed”），来供其它系统使用。 Scrapy 自带了 Feed 输出，并且支持多种序列化格式（serialization format）及存储方式（storage backends）。序列化方式（serialization formats） feed 输出使用到了 Item ...

雪球网Python爬虫技术详解与应用

在雪球网上编写Python爬虫通常是为了自动化地获取股票行情、论坛讨论、新闻资讯等数据。这类爬虫能够帮助用户快速分析市场趋势，监控特定股票或行业的讨论热度，或者构建个人财经知识库。不过，值得注意的是，抓取...