记___拼多多spider

我自己很怂,代码我就不公布了,我把自己核心笔记拿过来,如果有问题可以留言,我会回答

  • 拼多多 商店 抓取。经过 一些分析,初步知道。拼多多,没有类似于美团,淘宝这样的网站设计。拼多多还是注重于 移动平台,这是一个趋势,意味着爬虫会越来越难了。比如 请求不是常见的get或者post
  • 在分类里爬取,是无法获取完整的数据。个人觉得就像是前门和后门一样,分类里大概十几万的商品数据,商铺去重以后就剩下几千个了,所以我是没办法行了
  • 在搜索里找,就像拿了钥匙开门,这就需要登入了,能拿到所有的数据。但是URL是更换的,只能访问两次,是js加载
  • 最主要的是有两个响应,options和get。这里没研究

  • 一次响应59个值,无限滑动的知道最后一个值,取代了分页,也就是说这是ajax加载的。
  • 一开始自己不会弄的时候,就是拿page=1或者2,一直类推。size=50或者100,一直类推,为什么呢?因为anti_content的原因只能使用两次,每一个URL。对于很多高手来说,定然是不屑于我的说法,很正常
  • 这里可以找js加载的方法,生成token,也就是anti_conient。加上python可以运行js代码,这是我后面才知道做的,刚开始弄拼多多的时候我不知道。
  • 再有一个因为是登入的原因,意味着这个账号被实时监测,尽管换ip和cookies,也是不可避免的会被验证码处理。换账号模拟登入就是需要截取短信验证码。我用的是selenium取cookies,后面我自己找到了token,就是用app爬取
  • 这是我自己取出的店铺ip

  • 拼多多的代码相对要少的多,就是token的问题,还有账号模拟登入。

 

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 29
    评论
评论 29
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值