playwright教程（二）适合小白

最新推荐文章于 2024-09-13 14:23:22 发布

小白白学爬虫

最新推荐文章于 2024-09-13 14:23:22 发布

阅读量2.5k

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/weixin_45674080/article/details/125453597

版权

本文是Playwright教程的第二部分，适合初学者。讲解如何模拟浏览器获取多页面、不同标签下的数据，包括打开浏览器、选择器选择内容、遍历数据并存储到Excel，同时提供了一个练习网站Scrape Center。

摘要由CSDN通过智能技术生成

上一篇介绍过在单页面中获取数据，这次加上click页面跳转

一、介绍

本文获取多页面，不同小标签下的数据

1.推荐爬虫小白练习网址

Scrape Centerhttps://scrape.center/适合初学者练习，里面资源挺多，页面也不是非常复杂

上代码！

import xlwt
from playwright.sync_api import sync_playwright

def run(playwright):
    browser = playwright.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()
    page.goto("https://spa5.scrape.center/page/502")
    listMsg =[]
    # 这里的range(3)代表0，1，2也就是遍历三次，自己可以设置
    for i in range(3)  :
        # page.wait_for_timeout(2000)
        # 因为循环中遍历三次数据，每个数据获取完都要进行页面跳转，
        # 如果不设置页面等待，则未加载完的数据将获取不到，直接error
        page.wait_for_load_state("networkidle")
        # xpath选择器获取大标签下的内容
        msgs = page.query_selector_all("//*[@id='index']/div[1]/div/div/div")
        print(f"第{i+1}页，共{len(msgs)}条：")