pyppeteer自动化库

最新推荐文章于 2024-06-24 22:41:37 发布

《落神》

最新推荐文章于 2024-06-24 22:41:37 发布

阅读量1k

点赞数

分类专栏：自动化工具文章标签：自动化

本文链接：https://blog.csdn.net/zuo199606184810/article/details/88733164

版权

自动化工具专栏收录该内容

12 篇文章

订阅专栏

写这篇主要也是为了能让自己多一种爬取动态网页的思路，不至于仅仅局限于selenum。

也是在简书上看到了相关文章，觉得不错，本篇文章主要引用于（https://www.jianshu.com/p/611ed6b75d47）这篇文章。

有兴趣的可以去官方文档查看（https://miyakogi.github.io/pyppeteer）

Pyppeteer是一个无头JavaScript的基于Chrome/Chromium浏览器自动化库，可以用于对渲染网页的抓取。

pyppeteer是与python3.6版本以上配合使用的，不支持以下版本。安装也是以pip install pyppepteer的方式。

import asyncio
from pyppeteer import launch

async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        # headless=False
    )
    
    page = await browser.newPage()
    
    # 设置页面视图大小
    await page.setViewport(viewport={'width':1280, 'height':800})
    
    # 是否启用JS，enabled设为False，则无渲染效果
    await page.setJavaScriptEnabled(enabled=True)
    
    await page.goto('https://www.toutiao.com/')
    
    # 打印页面cookies
    print(await page.cookies())
    
    # 打印页面文本
    print(await page.content())
    
    # 打印当前页标题
    print(await page.title())
    
    # 抓取新闻标题
    title_elements = await page.xpath('//div[@class="title-box"]/a')
    for item in title_elements:
        # 获取文本
        title_str = await (await item.getProperty('textContent')).jsonValue()
        print(await item.getProperty('textContent'))
        # 获取链接
        title_link = await (await item.getProperty('href')).jsonValue()
        print(title_str)
        print(title_link)
    
    # 关闭浏览器
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

import time
import asyncio
from pyppeteer import launch

async def main():
    browser = await launch(headless=False)
    page = await browser.newPage()
    await page.setViewport({'width': 1200, 'height': 800})
    await page.goto('https://www.baidu.com')
    # 在搜索框中输入python
    await page.type('input#kw.s_ipt','python')
    # 点击搜索按钮
    await page.click('input#su')
    
    # 等待元素加载，第一种方法，强行等待5秒
    # await asyncio.sleep(5)
    
    # 第二种方法，在while循环里强行查询某元素进行等待
    while not await page.querySelector('.t'):
        pass

    # 滚动到页面底部
    await page.evaluate('window.scrollBy(0, window.innerHeight)')

    # 这些等待方法都不好用
    # await page.waitForXPath('h3', timeout=300)
    # await page.waitForNavigation(waitUntil="networkidle0")
    # await page.waitForFunction('document.getElementByTag("h3")')
    # await page.waitForSelector('.t')
    # await page.waitFor('document.querySelector("#t")')
    # await page.waitForNavigation(waitUntil='networkidle0')
    # await page.waitForFunction('document.querySelector("").inner‌Text.length == 7')

    title_elements = await page.xpath('//h3[contains(@class,"t")]/a')
    for item in title_elements:
        title_str = await (await item.getProperty('textContent')).jsonValue()
        print(title_str)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

积少成多，努力，加油！！！