关于taobao 爬取 下面做一个分享,大家一起研究
1. taobao, tmall 店铺数据
在官网上我们可以通过 search 接口 (
https://shopsearch.taobao.com/search?app=shopsearch&q=iphone )获取前 1020 页数据,界面展示是 100页数据 每页数据 20条,即2000条,现在通过
2. item 接口(
又称之为 商品接口 json)
该接口可以快速的获取店铺商品信息,获取店铺是第 1 步,第2步通过该 接口获取所有店铺商品信息, 以下展示 2 个接口
(1. old :
http://s.m.taobao.com/search?m=api4h5&nick=%E7%92%90%E7%92%90%E5%98%89%E5%98%89&n=40&page=1 ) // 通过店铺 昵称
(2. new :
http://api.s.m.taobao.com/search.json?m=shopitemsearch&sellerId=263817957&n=40&page=1
) //
通过卖家 sellerId
以上两个接口可以很轻松的返回店铺所有商品数据,这样对收集店铺数据就显的十分重要,为进一步获取 sku 数据打下关键的基本,他是一个 一对多接口 (一个接口多对数据)
3. sku 数据 (json 数据)
sku 数据即 detail 数据,在这里可以获取商品的所有信息 价格,库存,销量 ,运费等信息,我们先看一个 pc 端接口
1. pc ( https://mdskip.taobao.com/core/initItemDetail.htm?tmallBuySupport=true&itemId=itemId ) // itemId 即上面获取的 店铺 items 所有数据
这个接口直接访问不行,需要添加一定的 http 头消息 如 Referer, UpgradeInsecureRequests , CacheControl 等信息,启用 tls 请求即可 返回 json 数据
这是一个非常高效的接口 cache 接口,未有任何校验直接取数 如下
这个接口直接请求即可获取详细的 json 数据, 这里包括 商品价格,sku 信息,销量, 运费, 支付方式,店铺,促销信息等
该接口很正常的返回页面数据,在页面数据中,包函完整的 sku 全部信息,这是直接可以解析与处理的,访问一个手机页面未有什么校验直接即可以获取 建议添加用户信息检验与加密算法
4. app client
在早期 taobao app 中,曾经有人破解出收费 app key
appKey = "12278902";
secret = "744e7d7e7028b817bd9f8f3c6f28a8d3";
通过这个 appkey 我们可以大方的使用 open.api 了如获取以下信息
5.
关于动态IP
现在通过与运营商合作可以方便的建立N多 ADSL接入服务,在机房动态的获取B段的IP池,对各电商平台进行数据爬取
总结: 通过以上接口我们就可以很方便的快速的获取 taobao ,tmall 平台开放的一些数据,在IP足量的情况下,做到即时更新,类似 双11 数据直播平台一样,展现数据销量分部等业务数据模型
keyword -> shop -> items -> sku 以这样的爬取路径 可以获取
大量的实时数据, 在密算法与请求交互认证中 注意 https, tls,自动cookies 等,自动话的爬取处理只能在一定程度上模拟用户操作. 在 ip 被屏临界值 蔽时 做 ip 切换。