Python+Selenium-driver.page_source获取页面源码

driver.page_source

selenium的page_source方法可以获取到页面源码

跟爬虫有点相似,获取到页面资源,提取出我们需要的信息
案例
以煎蛋网为例,获取首页的全部title(获取页面源码 – 使用re正则提取需要的title)

代码

在这里插入图片描述

祝大家学习python顺利!

Python中,结合Selenium获取网络请求的数据后,通常需要通过`requests`库或其他方式解析HTML内容并提取你需要的信息。以下是一个简单的示例,展示如何使用BeautifulSoup库来筛选数据: ```python # 首先安装必要的库(如果尚未安装) import selenium from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.common.by import By from bs4 import BeautifulSoup import requests # 初始化Chrome浏览器服务 service = Service('path/to/chromedriver') # 替换为实际的chromedriver路径 driver = webdriver.Chrome(service=service) # 让浏览器打开某个网页并等待页面加载完成 url = 'https://example.com' # 替换为你想要抓取的网站 driver.get(url) driver.implicitly_wait(10) # 等待一段时间,让页面完全加载 # 获取网络请求的HTML源码(这一步取决于目标网站是否允许爬虫访问) page_source = driver.page_source # 使用requests获取页面源码,适用于不允许Selenium直接访问的情况 # page_source = requests.get(url).text # 解析HTML源码 soup = BeautifulSoup(page_source, 'html.parser') # 定义要查找的CSS选择器(根据实际需要调整) selector = '#data-table' # 假设我们找的是ID为'data-table'的table # 使用BeautifulSoup找到匹配元素 table_rows = soup.select(selector) # 筛选数据 filtered_data = [] for row in table_rows: # 每行数据可能是字典、列表等,这里假设每一行是一组键值对组成的字典 data_dict = {cell.text.strip(): cell['data-value'] for cell in row.find_all(['td', 'th'])} filtered_data.append(data_dict) # 打印或保存筛选后的数据 print(filtered_data) # 关闭浏览器 driver.quit()
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

主打Python

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值