最近学习网络爬虫关注了不少技术大牛,前两天看见崔庆才老师公众号发了一个绕过淘宝验证的新方法,今天我就按照那篇文章进行实践
之前大牛们写的文章进行淘宝抓取都是使用selenium
但我自己使用的时候经常出错封IP,对于淘宝这类文章也很苦恼
而崔大介绍一款新工具——pyppeteer
这也是一款简单的自动化测试工具,使用的是Chromium
安装也十分简单
只需在Powershell里
pip3 install pyppeteer
这里简单介绍几个方法,这几个方法足以让我们通过淘宝验证
launcher.launch 这是实现浏览器的打开,里面有许多参数
ignoreHTTPSErrors (bool): 是否要忽略 HTTPS 的错误,默认是 False。
headless (bool): 是否启用 Headless 模式,即无界面模式,如果 devtools 这个参数是 True 的话,那么该参数就会被设置为 False,否则为 True,即默认是开启无界面模式的。
executablePath (str): 可执行文件的路径,如果指定之后就不需要使用默认的 Chromium 了,可以指定为已有的 Chrome 或 Chromium。
slowMo (int|float): 通过传入指定的时间,可以减缓 Pyppeteer 的一些模拟操作。
args (List[str]): 在执行过程中可以传入的额外参数。
ignoreDefaultArgs (bool): 不使用 Pyppeteer 的默认参数,如果使用了这个参数,那么最好通过 args 参数来设定一些参数,否则可能会出现一些意想不到的问题。这个参数相对比较危险&