微博数据抓取教学

一 . 介绍微博:
(1)网页端:http://http://weibo.com
(2)手机端:http://http://m.weibo.cn
(3)移动端:http://weibo.cn 以下是三种方式的页面:
爬取难度:网页端>手机端>移动端(页面最丑,最好爬)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文选取难度适中的手机端。
二. 分析
在这里插入图片描述

因为微博是动态加载的,所以下拉页面就会出url是不同的,我们需要做到找到共同的规律。发现max_id的值不同,max_id_type也是不同的
在这里插入图片描述

而max_id和max_id_type在返回的json文件里面有出现。
所以此处URL是由https://m.weibo.cn/comments/hotflow?用户id&midid&max_id&max_id_type组成
获取相关数据层层“拨开”
如获取评论者“昵称”
data_name=html.json()[‘data’][‘data’][0]['user][‘screen_name’]
在这里插入图片描述

三. 程序
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四.结果
在这里插入图片描述

了解更多分析及数据抓取可查看:
http://cloud.yisurvey.com:9081/html/529942a8-212c-4c85-9c92-9c56beb4a299.html?ly=csdn
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系我们删除处理。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值