需求:电商业务找同款货源,爬虫业务找相似商品等
准备条件:http代理IP池(必要)
第一步:先简单封装一下requests模块,能在主要逻辑里少写几行代码。代理IP池是必须要有的,阿里系包括1688、淘宝都对IP做了请求的限制,单位时间内超过一定次数会弹出登录,自动登录是另一码事儿,这里不解决。
class myRequests:
headers = {
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
} # 请求头
sess = requests.Session()
def __init__(self):
self.proxies = myProxies # 代理IP池换成自己的
def post(self, url, form_data, files=None):
return self.sess.post(url, data=form_data, headers=self.headers, files=files)
def get(self, url, params=None):
return self.sess.get(url, params=params, headers=self.headers)
第二步:处理目标图片,进行请求得到access_key和签名等字段,并拼接好图搜的最终请求地址result_url