阿里系列网站(淘宝、天猫、1688等)封IP是出了名的,动辄就让你重新登录,动辄就出验证码。(如下图所示)
淘宝访问验证-登录验证
淘宝访问验证-验证码保护
尤其是淘宝(天猫)在对商品搜索结果列表页、成交记录列表页和评论列表页的防护上!
技术人员通过使用“ADSL代理”的海量IP资源,成功解决了这一限制。
我们的思路如下:
1)通过PPP-LIST接口获取当前Token的所有可用账号(如下图所示),假设有N个账号。采集程序启动N个线程,每个线程固定使用一个账号。
2)每个线程内通过RE-DIAL接口让服务器重拨对应的账号获取一个新的代理IP(如下图所示)。并使用这个代理IP进行淘宝数据(主要是评论和成交记录)的采集。
3)如果线程内出现IP被封的情况(例如 提示让登陆,出现验证码,或出现403错误),则再重复步骤2)。
了解更多分析及数据抓取可查看:
http://cloud.yisurvey.com:9081//html/37be8794-b79e-4511-9d0a-81f082bac606.html
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。