pyppeteer

最新推荐文章于 2024-06-24 22:42:23 发布

木下瞳

最新推荐文章于 2024-06-24 22:42:23 发布

阅读量3.4k

点赞数 4

分类专栏： pyppeteer

本文链接：https://blog.csdn.net/zjkpy_5/article/details/96722422

版权

pyppeteer 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

"Chrome 正受到自动测试软件的控制" 关闭这个提示

page.querySelector(。。。)

await asyncio.sleep(6)

await page.waitForSelector('.code img')

拉到页面最底部

获取网页源代码

文档

https://miyakogi.github.io/pyppeteer/reference.html

案例：

https://www.cnblogs.com/zhang-zi-yi/p/10820813.html

安装

pip install pyppeteer

第一次运行会自动安装对应的 chromium

爬取结构

url：http://quotes.toscrape.com/js/ ，为 JavaScript 渲染的

import asyncio
from pyppeteer import launch
from pyquery import PyQuery as pq

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('http://quotes.toscrape.com/js/')
    doc = pq(await page.content())
    print('Quotes:', doc('.quote').length)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

Pyppeteer 里面进行了异步操作，所以需要配合 async/await 关键词来实现
launch 方法会新建一个 Browser 对象，然后赋值给 browser
browser 调用 newPage 方法相当于浏览器中新建了一个选项卡，同时新建了一个 Page 对象
Page 对象调用了 goto 方法就相当于在浏览器中输入了这个 URL，浏览器跳转到了对应的页面进行加载
加载完成之后再调用 content 方法，返回当前浏览器页面的源代码
asyncio 的 get_event_loop 等方法的相关操作则属于 Python 异步 async 相关的内容了，大家如果不熟悉可以了解下 Python 的 async/await 的相关知识

浏览器截图

await page.screenshot(path='example.png')

另外还可以指定保存格式 type、清晰度 quality、是否全屏 fullPage、裁切 clip 等各个参数实现截图。

保存为 PDF

await page.pdf(path='example.pdf')

执行 JavaScript

await page.evaluate('''() => {
        return {
            width: document.documentElement.clientWidth,
            height: document.documentElement.clientHeight,
            deviceScaleFactor: window.devicePixelRatio,
        }
    }''')

括号里面为 JavaScript 语句，返回 json

{'width': 800, 'height': 600, 'deviceScaleFactor': 1}

启动时看到浏览器界面

launch 里面设置

broswer = await launch(headless=False)

调试窗口

browser = await launch(devtools=True)

写爬虫的时候会经常需要分析网页结构还有网络请求，所以开启调试工具还是很有必要的，我们可以将 devtools 参数设置为 True，这样每开启一个界面就会弹出一个调试窗口，非常方便. devtools 这个参数如果设置为了 True，那么 headless 就会被关闭了，界面始终会显现出来

"Chrome 正受到自动测试软件的控制" 关闭这个提示

browser = await launch(headless=False, args=['--disable-infobars'])

浏览器窗口比显示的内容窗口大小调整

 browser = await launch(headless=False,
                           args=[f'--window-size={width},{height}'])

防止被检测为自动控制工具

淘宝为例

import asyncio
from pyppeteer import launch


async def main():
    browser = await launch(headless=False, args=['--disable-infobars'])
    page = await browser.newPage()
    await page.goto('https://login.taobao.com/member/login.jhtml?redirectURL=https://www.taobao.com/')
    await page.evaluate(
        '''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')
    await asyncio.sleep(100)

asyncio.get_event_loop().run_until_complete(main())

恢复上次登录状态

在每次启动 Selenium 或 Pyppeteer 的时候总是是一个全新的浏览器，那就是没有设置用户目录，如果设置了它，每次打开就不再是一个全新的浏览器了，它可以恢复之前的历史记录，也可以恢复很多网站的登录信息

设置 userDataDir 就好了

import asyncio
from pyppeteer import launch

async def main():
    browser = await launch(headless=False, userDataDir='./userdata', args=['--disable-infobars'])
    page = await browser.newPage()
    await page.goto('https://www.taobao.com')
    await asyncio.sleep(100)

asyncio.get_event_loop().run_until_complete(main())

获取元素

xpath

<span class="title">肖申克的救赎</span>

# 获取其中文本
name = await page.xpath('//span[@class="title"]')
await (await name.getProperty("textContent")).jsonValue()

<div class="p-name p-name-type-2">
    <a target="_blank" title="此商品将于2019-07-27,00点结束闪购特卖，女神价到30期"         
     href="//item.jd.com/7019143.html" 
     onclick="searchlog(1,7019143,1,1,'','flagsClk=1094718088')">
		<em>Apple <font class="skcolor_ljg">iPad</font> 
        平板电脑 2018年新款9.7英寸（128G WLAN版/A10 芯片/Touch ID MRJP2CH/A）金色
        </em>
	    <i class="promo-words" id="J_AD_7019143">
        此商品将于2019-07-27,00点结束闪购特卖，女神价到30期  
        </i>
	</a>
</div>

# 获取 title 对应字段
name  = await num.xpath("./div[@class='p-name p-name-type-2']/a")
name = await (await name.getProperty("title")).jsonValue()

getProperty：为获取标签内的字段的值

page.querySelector(。。。)

css 选择方法：https://www.runoob.com/cssref/css-selectors.html

<i class="iconfont static" id="J_Quick2Static" data-spm-anchor-id="a2107.1.0.i4.44d211d9RgKFmD"></i>

获取这个标签，点击

pwd_login = await page.querySelector('#J_Quick2Static')
# print(await (await pwd_login.getProperty('textContent')).jsonValue())
await pwd_login.click()