python3 [爬虫入门实战]爬取熊猫直播用户信息

xudailong_blog

于 2017-08-06 10:07:00 发布

阅读量3.6k

点赞数 1

分类专栏： # python3爬虫我的python3爬虫之路文章标签： python 爬虫图片标签 class

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xudailong_blog/article/details/76748042

版权

本文记录了一位初学者使用Python爬取熊猫直播用户信息的过程。最初尝试使用Scrapy框架，但发现直接处理返回的JSON串更简单。通过Httpfox工具抓取数据，发现获取数据的主要难点在于时间戳的生成。分享了初步的代码实现，但遇到使用format和range混合设置URL参数时的报错问题，期待读者的帮助。最后，作者将项目上传至GitHub，邀请大家关注其后续的直播爬虫系列。

摘要由CSDN通过智能技术生成

爬取国内各大直播平台直播信息是以后要做的一个功课，还必须是做成一个系列的，可能远没有其他大神那么厉害，毕竟自己经历过的就是有用的，在此做个记录一下

首先我们需要爬取的内容：

这里写图片描述

这里我们要爬取的有 直播房间名称，直播主播，直播等级，直播第一截屏（这个是动态的图片，要想获取最新的，必须重新进行爬取），直播人数，直播标签，直播类型（分类），暂且就提取了这些，这些内容都可以进行提取。

本来一开始是用scrapy框架进行提取的，也可以进行提取，后来发现有点大才了，直接找到返回的json 串就可以了。

第一次使用Httpfox 感觉真吊，挺爽的，也不用一个一个的标签下面进行解析去了。

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。