抖音用户主页视频数据爬虫详解(点赞,收藏,分享等)

一.

首先进行抓包分析,,,随便找个主页,f12,关键词搜索,发现这个包是以post开头

二.查看请求参数:

我们复制curl在spiderbox里面快速形成请求

对headers,params进行尝试删减,最后发现只需要这些参数,其中只有sec_user_id是加密的

修改count变为100发现他发的包并没有100个,原因在于

post?device。。。的包中有个max_cursor参数,请求载荷中也有一个这样的参数,每次请求的数据中max_cursor是下一个请求的载荷,,,同时has_more为1时候代表还能请求,0为不能请求,我们做如下判断

对于sec_user_id这个参数是作者本身的表示,在url一栏中体现

我们通过自动化drissionpage获取,通过re进行匹配,最终得到最后的载荷

最后进行抓包,发现

点赞,收藏等都在这里,进行提取,最后用pandas转化为execl

最后发现cookie很容易过期,批量爬取有点困难,,,,我们采用drissoinpage进行自动化获取

完美解决。

完整代码在:

知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具知识星球是创作者连接铁杆粉丝,实现知识变现的工具。任何从事创作或艺术的人,例如艺术家、工匠、教师、学术研究、科普等,只要能获得一千位铁杆粉丝,就足够生计无忧,自由创作。社群管理、内容沉淀、链接粉丝等就在知识星球。https://articles.zsxq.com/id_jij4guge1t1x.html

api解释:

请你第一次运行先按0,进行登录(或者触发反爬的时候),登录完成之后,按1进行爬取,

choose为你要爬取的博主,为方便爬取,请你每次爬2个。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值