实时爬取斗鱼直播时的弹幕消息

本文介绍了如何实时爬取斗鱼直播的弹幕消息,通过研究发现斗鱼弹幕基于TCP协议,而非HTTP。作者利用套接字(socket)技术连接斗鱼服务器,遵循斗鱼弹幕服务器的协议标准进行数据抓取,并提供了相关教程链接和代码示例。
摘要由CSDN通过智能技术生成

最近想爬取实时消息,上网查了下,所以爬取斗鱼直播的弹幕消息做了下练习,这个开源的代码有很多,但是具体是怎么爬取到的还是要仔细地研究下。想爬取斗鱼的弹幕消息,按照常用的做法是打开网页用抓包工具抓包,但是用抓包工具抓到的信息没有找到有关弹幕信息的接口。上网查找抓取教程,了解到斗鱼弹幕是基于TCP协议的,用我个人的话来说就是要通过基于TCP/UDP服务器协议抓包。
要想抓取弹幕信息就得,就得从斗鱼的服务器上抓取数据,想起之前学过的套接字socket,正好这里可以练习下怎么使用。抓取斗鱼服务器上的信息,也得按照斗鱼弹幕服务器的标准协议来连接。
https://max.book118.com/html/2017/0922/134705266.shtm这是斗鱼弹幕服务器的pdf文件。
下面附上代码,关于登录斗鱼服务器的具体讲解可以参考网上的博客有很多讲的都不错。

import socket
import re
import json
import requests
import time
import multiprocessing
from pymongo import MongoClient
#首先第一步建立与服务器的连接
# 初始化socket
# 利用socket库中的connect方法建立连接,connect方法中的参数Host通过ip地址来获取
global s
s = socket.socket(socket.AF_INET,socket.SOCK_STREAM)
host = socket.gethostbyname("openbarrage.douyutv.com")
port = 8601
s.connect((host,port))
print('我已经连接上弹幕服务器了')
#第二步登录及进入房间
# 登录,客户端向弹幕服务器发送登录请求,登录弹幕服务器,弹幕服务器接受到客户端请求并完成登录后,
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值