爬虫初阶(五)—— 动态HTML与selenium

1. 动态HTML

  • 什么是动态HTML

2. Selenium

  • Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏。

2.1 selenium 安装

  • 使用selenium需要安装两部分内容,一部分是selenium库,另一部分是浏览器驱动(以Chrome为例)。
    • selenium库可以通过pip直接安装:pip install selenium
    • Chrome的浏览器驱动为chromedriver,其安装要与Chrome的版本一致。
    1. 首先在Chrome浏览器地址栏输入chrome://version/ 查看浏览器版本。
    2. 在以下地址中下载对应版本和对应操作系统chromedriver
      http://chromedriver.storage.googleapis.com/index.html
      https://npm.taobao.org/mirrors/chromedriver/
      在这里插入图片描述
    3. 配置环境变量
      将下载好的压缩包解压,放到自定义文件夹中,并将文件夹添加进环境变量。
    4. 若未配置环境,则在使用时指定路径即可(下文会详细说明)。

2.2 selenium 基本使用

import time
from selenium import webdriver

# 实例化一个浏览器,模拟打开
# 未配置环境变量
# chromedriver = r"D:\Chromedriver\chromedriver"
# driver = webdriver.Chrome(chromedriver)
# 已配置环境变量
driver = webdriver.Chrome()

# 设置窗口大小
# driver.set_window_size(1920, 1080)
driver.maximize_window()  # 最大化

# 发送请求
driver.get('https://www.baidu.com/')

# 元素定位方法
driver.find_element_by_id('kw').send_keys('python')
driver.find_element_by_id('su').click()

# 等待加载完毕
time.sleep(3)
f = driver.find_element_by_xpath("//*[@id='1']//a").get_attribute("href")
print(f)
# 获取html字符串
# print(driver.page_source)

# 获取cookie
cookies = driver.get_cookies()
cookie_dict = {i['name']:i['value'] for i in cookies}
print(cookie_dict)

# 获取当前url地址
url = driver.current_url
print(url)

# 进行页面截屏
time.sleep(3)
driver.save_screenshot('./python.png')

# 关闭当前窗口
driver.close()
# 退出
driver.quit()

2.3 selenium 常用页面元素定位方法

  • 用法:
    find_element_by_id (返回一个)
    find_elements_by_xpath (返回一个列表)
    find_elements_by_link_text
    find_elements_by_partial_link_text
    find_elements_by_tag_name
    find_elements_by_class_name
    find_elements_by_css_selector
  • 注意点:
    find_element 和find_elements的区别:返回一个和返回一个列表
    by_link_text和by_partial_link_text的区别:全部文本和包含某个文本
    by_css_selector的用法: #food span.dairy.aged
    by_xpath中获取属性和文本需要使用get_attribute() 和.text
使用优化算法,以优化VMD算法的惩罚因子惩罚因子 (α) 和分解层数 (K)。 1、将量子粒子群优化(QPSO)算法与变分模态分解(VMD)算法结合 VMD算法背景: VMD算法是一种自适应信号分解算法,主要用于分解信号为不同频率带宽的模态。 VMD的关键参数包括: 惩罚因子 α:控制带宽的限制。 分解层数 K:决定分解出的模态数。 QPSO算法背景: 量子粒子群优化(QPSO)是一种基于粒子群优化(PSO)的一种改进算法,通过量子行为模型增强全局搜索能力。 QPSO通过粒子的量子行为使其在搜索空间中不受位置限制,从而提高算法的收敛速度与全局优化能力。 任务: 使用QPSO优化VMD中的惩罚因子 α 和分解层数 K,以获得信号分解的最佳效果。 计划: 定义适应度函数:适应度函数根据VMD分解的效果来定义,通常使用重构信号的误差(例如均方误差、交叉熵等)来衡量分解的质量。 初始化QPSO粒子:定义粒子的位置和速度,表示 α 和 K 两个参数。初始化时需要在一个合理的范围内为每个粒子分配初始位置。 执行VMD分解:对每一组 α 和 K 参数,运行VMD算法分解信号。 更新QPSO粒子:使用QPSO算法更新粒子的状态,根据适应度函数调整粒子的搜索方向和位置。 迭代求解:重复QPSO的粒子更新步骤,直到满足终止条件(如适应度函数达到设定阈值,或最大迭代次数)。 输出优化结果:最终,QPSO算法会返回一个优化的 α 和 K,从而使VMD分解效果最佳。 2、将极光粒子(PLO)算法与变分模态分解(VMD)算法结合 PLO的优点与适用性 强大的全局搜索能力:PLO通过模拟极光粒子的运动,能够更高效地探索复杂的多峰优化问题,避免陷入局部最优。 鲁棒性强:PLO在面对高维、多模态问题时有较好的适应性,因此适合海上风电时间序列这种非线性、多噪声的数据。 应用场景:PLO适合用于优化VMD参数(α 和 K),并将其用于风电时间序列的预测任务。 进一步优化的建议 a. 实现更细致的PLO更新策略,优化极光粒子的运动模型。 b. 将PLO优化后的VMD应用于真实的海上风电数据,结合LSTM或XGBoost等模型进行风电功率预测。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值