如何避免Puppeteer被反爬

最新推荐文章于 2025-03-14 11:05:15 发布

心伽玛

最新推荐文章于 2025-03-14 11:05:15 发布

阅读量3k

点赞数 2

分类专栏： NLP工程实践文章标签： Puppeteer navigator.webdriver 反爬虫 UserAgent 浏览器伪装

本文链接：https://blog.csdn.net/weixin_45114252/article/details/112264147

版权

NLP工程实践专栏收录该内容

6 篇文章

订阅专栏

思路

避免Puppeteer的浏览器特征被检测
即去掉 “webdriver” in navigator 特征

方法1

    await page.setUserAgent(
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5")
    await page.evaluateOnNewDocument('() =>{ Object.defineProperties(navigator,'
                                      '{ webdriver:{ get: () => false } }) }')
    await page.goto('http://abc.com/')

方法2

	await page.goto('http://abc.com/')
    await page.evaluate("""
     () =>{
     Object.defineProperties(navigator,{
     webdriver:{
     get: () => false
     }
     })
     }
     """)

方法3

    browser = await launch({'headless': True, 'args': [
        '--disable-extensions',
        '--hide-scrollbars',
        '--disable-bundled-ppapi-flash',
        '--mute-audio',
        '--no-sandbox',
        '--disable-setuid-sandbox',
        '--disable-gpu',
        '--disable-web-security',
        '--disable-infobars',

    ],
      'ignoreDefaultArgs': ["--enable-automation"], #反爬
                            'devtools': True,
                            'dumpio': True, })