一 . 介绍微博:
(1)网页端:http://http://weibo.com
(2)手机端:http://http://m.weibo.cn
(3)移动端:http://weibo.cn 以下是三种方式的页面:
爬取难度:网页端>手机端>移动端(页面最丑,最好爬)
本文选取难度适中的手机端。
二. 分析
因为微博是动态加载的,所以下拉页面就会出url是不同的,我们需要做到找到共同的规律。发现max_id的值不同,max_id_type也是不同的
而max_id和max_id_type在返回的json文件里面有出现。
所以此处URL是由https://m.weibo.cn/comments/hotflow?用户id&midid&max_id&max_id_type组成
获取相关数据层层“拨开”
如获取评论者“昵称”
data_name=html.json()[‘data’][‘data’][0]['user][‘screen_name’]
三. 程序
四.结果
了解更多分析及数据抓取可查看:
http://cloud.yisurvey.com:9081/html/529942a8-212c-4c85-9c92-9c56beb4a299.html?ly=csdn
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系我们删除处理。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。