由于Selenium启动的Chrome中,有几十个特征可以被识别,所以在爬虫界已经没有以前那么受欢迎了。模拟浏览器的新秀Puppeteer异军突起,逐渐受到了爬虫界的关注。Puppeteer需要使用JavaScript来控制,如果你是用Python,那么就需要使用Pyppeteer.
如果你使用模拟浏览器爬淘宝,你会发现,无论怎么修改参数,Selenium总是可以立刻被识别。但是如果你使用了本文的方法,用Pyppeteer抓取淘宝,你就会发现另外一个广阔的天地。
今天,我们来讲讲如何在Pyppeteer中隐藏window.navigator.webdriver
首先,我们使用下面的代码,通过Pyppeteer打开浏览器窗口:
import asyncio
from pyppeteer import launch
async def main():
browser = await launch(executablePath='/Applications/Google Chrome.app/Contents/MacOS/Google Chrome',
headless=False)
page = await browser.newPage()
await page.goto('http://exercise.kingname.info')
input('测试完成以后回到这里按下回车...')
await browser.close()
asyncio.get_event_loop().run_until_complete(main())
复制代码
代码运行以后,会打开Chrome浏览器,并访问