python3 [爬虫入门实战]爬取熊猫直播用户信息

本文记录了一位初学者使用Python爬取熊猫直播用户信息的过程。最初尝试使用Scrapy框架,但发现直接处理返回的JSON串更简单。通过Httpfox工具抓取数据,发现获取数据的主要难点在于时间戳的生成。分享了初步的代码实现,但遇到使用format和range混合设置URL参数时的报错问题,期待读者的帮助。最后,作者将项目上传至GitHub,邀请大家关注其后续的直播爬虫系列。
摘要由CSDN通过智能技术生成

爬取国内各大直播平台直播信息是以后要做的一个功课,还必须是做成一个系列的,可能远没有其他大神那么厉害,毕竟自己经历过的就是有用的,在此做个记录一下

首先我们需要爬取的内容:

这里写图片描述

这里我们要爬取的有 直播房间名称,直播主播,直播等级,直播第一截屏(这个是动态的图片,要想获取最新的,必须重新进行爬取),直播人数,直播标签,直播类型(分类),暂且就提取了这些,这些内容都可以进行提取。


本来一开始是用scrapy框架进行提取的,也可以进行提取,后来发现有点大才了,直接找到返回的json 串就可以了 。

第一次使用Httpfox 感觉真吊,挺爽的,也不用一个一个的标签下面进行解析去了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值