事情是这样的
亚马逊是全球最大的购物平台
很多商品信息、用户评价等等都是最丰富的。
今天,手把手带大家,越过亚马逊的反爬虫机制
爬取你想要的商品、评论等等有用信息
反爬虫机制
但是,我们想用爬虫来爬取相关的数据信息时
像亚马逊、TBao、JD这些大型的购物商城
他们为了保护自己的数据信息,都是有一套完善的反爬虫机制的
先试试亚马逊的反爬机制
我们用不同的几个python爬虫模块,来一步步试探
最终,成功越过反爬机制。
一、urllib模块
代码如下:
# -*- coding:utf-8 -*-
import urllib.request
req = urllib.request.urlopen('https://www.amazon.com')
print(req.code)
返回结果:状态码:503。
分析:亚马逊将你的请求,识别为了爬虫,拒绝提供服务。
本着科学严谨的态度,我们拿万人上的百度试一下。