![](https://img-blog.csdnimg.cn/20191024093216211.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
微博-python
文章平均质量分 89
微博协议 微博爬虫 微博移动端
考古学家lx(李玺)
[ 笃信仁厚 , 慎思勤勉 ] 《爬虫逆向进阶实战》作者
展开
-
CNN识别微博验证码
captcha_trainer 是基于深度学习的图片验证码的解决方案 - 该项目能够秒杀字符粘连重叠/透视变形/模糊/噪声等各种干扰情况,足以解决市面上绝大多数复杂的验证码场景,目前也被用于其他OCR场景。...原创 2021-01-11 09:11:22 · 1524 阅读 · 0 评论 -
微博登陆爬取用户影响力
下面的操作针对于 m.weibo.cn :这里要实现的是对微博用户的影响力抓取,我本文以广电时评为例。点击查看,里面的数据会更多一点。未登陆时:这里是需要微博用户登陆之后才可以查看的,所以为了实现我们的需求,我们开始模拟登陆。首先来到微博移动端的登陆页面然后选择使用账号密码登陆先输入一个错误的账号来查看一下登陆的接口错误的账号返回了retcode查看下 Fo...原创 2019-10-24 09:27:30 · 1352 阅读 · 0 评论 -
微博指数爬虫
百度搜索下进入页面发现需要使用移动端我们打开控制台,F12,点击移动版,然后刷新页面可以进入搜索界面。可以看到有一个post的接口,参数正是我们输入的关键词当这个关键词被收录的时候。会有提示,我们点击下面的蓝色关键词,进入详情页面。点击30天,会出现新的请求。参数是wid 和 1month而这个wid,就是在之前搜索页面输入已经被收录的关键词后,返回的respons...原创 2019-10-21 12:57:46 · 2578 阅读 · 1 评论 -
新浪微博 418 咖啡壶控制协议
抓微博话题的时候,在第27次请求后,http状态码从200变成了418.我也是头一次见这个状态码。百度了一下,茶壶?418 ( I’m a teapot):我是一个茶壶这个代码是在1998年作为传统的IETF April Fools jokes被定义的在RFC2324,超文本咖啡罐控制协议,但是并没有被实际的HTTP服务器实现。RFC指定了这个代码应该是由茶罐返回给速溶咖啡。意义是:当...原创 2019-08-02 11:57:10 · 3597 阅读 · 8 评论 -
m.微博各种接口分析
1.微博用户搜索接口。https://m.weibo.cn/api/container/getIndex?containerid=100103type%3D3%26q%3D乐队的夏天%26t%3D0一般我们搜索目标的知名度是靠前的,这里先暂时以第一个为主。user_name = weibo_json['data']['cards'][1]['card_group']['user']['sc...原创 2019-07-22 17:12:26 · 15148 阅读 · 20 评论 -
微博数据各字段的含义
最近在写微博的爬虫,框架已经基本稳定,但是在解析各字段含义的环节卡了好几天,因为不清楚各个字段的含义,官网的api注释好像有点过时,很多字段没有注释,所以只能自己一点一点分析了移动端得到的微博数据是json格式的,获得一个页面的数据以后,设为data,则data[‘cards’][0][‘card_group’]能够获得一个数组,数组内每个元素都是一行微博,里面包含了发布时间,微博内容,发布...原创 2019-06-27 11:18:24 · 4760 阅读 · 0 评论