python+selenium 采集动态加载(下拉加载)的页面内容,自动下拉滚动条

软件版本:

python 3.7.2
selenium 3.141.0
pycharm 2018.3.5

具体实现代码如下:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time

# 创建chrome浏览器驱动,无头模式
chrome_options = Options()
# chrome_options.add_argument('--headless')
chrome_options.add_argument("--start-maximized");
driver = webdriver.Chrome("D://googleDever//chromedriver.exe",chrome_options=chrome_options)

# 加载界面
driver.get("https://wenku.baidu.com/search?lm=0&od=0&ie=utf-8&word=csdn")
time.sleep(3)

# 获取页面初始高度
js = "return action=document.body.scrollHeight"
height = driver.execute_script(js)

# 将滚动条调整至页面底部
driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
time.sleep(5)

#定义初始时间戳(秒)
t1 = int(time.time())

#定义循环标识,用于终止while循环
status = True

# 重试次数
num=0

while status:
	# 获取当前时间戳(秒)
    t2 = int(time.time())
    # 判断时间初始时间戳和当前时间戳相差是否大于30秒,小于30秒则下拉滚动条
    if t2-t1 < 30:
        new_height = driver.execute_script(js)
        if new_height > height :
            time.sleep(1)
            driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
            # 重置初始页面高度
            height = new_height
            # 重置初始时间戳,重新计时
            t1 = int(time.time())
    elif num < 3:                        # 当超过30秒页面高度仍然没有更新时,进入重试逻辑,重试3次,每次等待30秒
        time.sleep(3)
        num = num+1
    else:    # 超时并超过重试次数,程序结束跳出循环,并认为页面已经加载完毕!
        print("滚动条已经处于页面最下方!")
        status = False
        # 滚动条调整至页面顶部
        driver.execute_script('window.scrollTo(0, 0)')
        break
        
# 打印页面源码
content = driver.page_source
print(content)

以上代码为selenium采集动态下拉加载页面,使用上述代码执行后,可通过其他方式进行页面元素获取!

  • 7
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 使用PythonSelenium可以通过以下步骤下拉滚动条: 1. 导入Selenium库和WebDriver 2. 打开网页 3. 使用JavaScript代码滚动滚动条 4. 等待页面加载完成 具体代码如下: ```python from selenium import webdriver import time # 打开浏览器 driver = webdriver.Chrome() # 打开网页 driver.get("https://www.example.com") # 模拟滚动条下拉 driver.execute_script("window.scrollTo(, document.body.scrollHeight);") # 等待页面加载完成 time.sleep(5) # 关闭浏览器 driver.quit() ``` 其中,`execute_script()`方法可以执行JavaScript代码,`window.scrollTo(, document.body.scrollHeight);`表示将滚动条滚动到页面底部,`time.sleep(5)`表示等待5秒钟,以确保页面加载完成。 ### 回答2: Pythonselenium是一个自动化测试框架,可以使用它来模拟用户在浏览器中的操作。其中,下拉滚动条是一个常见的操作,实现这个过程可以通过下面的几个步骤: 1. 导入selenium模块并启动浏览器: ```python from selenium import webdriver browser = webdriver.Chrome() # 以Chrome浏览器为例 ``` 2. 打开网页,并通过js代码来获取页面的高度: ```python browser.get(url) # url是你要操作的页面 scroll_height = browser.execute_script('return document.body.scrollHeight') # 获取页面高度 ``` 3. 循环滚动屏幕:可以通过循环不断地执行js代码来实现滚动屏幕的效果。例如,下面的代码可以实现每次滚动一定的距离,并控制滚动的次数。 ```python scroll_distance = 500 # 每次滚动的像素距离 scroll_times = int(scroll_height/scroll_distance) # 滚动的次数 for i in range(scroll_times): js = 'window.scrollTo(0, document.body.scrollHeight/{}*{})'.format(scroll_times, i+1) # 计算滚动距离 browser.execute_script(js) # 执行js代码 time.sleep(1) # 滚动后等待一段时间,让页面加载完成 ``` 这样,就可以利用pythonselenium完成下拉滚动条的操作了。需要注意的是,在实际操作中,还需要考虑到网页中可能存在一些异步加载内容,例如图片、视频等,可能需要一定的等待时间来等待页面加载完成。 ### 回答3: Python是一种非常流行的编程语言,提供了各种各样的库和框架,包括SeleniumSelenium是一个用于Web应用程序自动化测试的开源工具,它可以自动化浏览器的工作,模拟用户的操作。在Selenium中,下拉滚动条是一个常见的任务,本文将介绍如何在Python中使用Selenium下拉滚动条。 在Python中,我们需要安装Selenium库,我们可以使用pip工具来安装它。仅需要使用以下命令即可安装: ``` pip install selenium ``` 在安装好Selenium库之后,我们需要获得一个WebDriver对象。WebDriver是Selenium库用于控制网页浏览器的工具,它可以用于模拟人的操作,例如单击按钮,填写表单和下拉滚动条,在Python中我们可以使用以下代码来创建一个Chrome浏览器的WebDriver对象: ``` from selenium import webdriver driver = webdriver.Chrome() ``` 现在,我们已经获得了WebDriver对象,接下来,我们可以使用它来访问一个网站并执行下拉滚动条的操作。假设我们要访问百度首页,并将滚动条下拉页面的底部,我们可以使用以下代码: ``` driver.get("http://www.baidu.com") driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") ``` 在这段代码中,我们首先使用get方法来打开百度首页,然后使用execute_script方法来执行JavaScript代码,其中我们将滚动条向下滚动到页面的底部。代码中的window.scrollTo(0, document.body.scrollHeight)将滚动条的位置设置为文档的底部,scrollTo方法是JavaScript中的方法,它可以用于控制滚动条的位置。 除了将滚动条下拉页面底部之外,我们还可以将滚动条向上滚动到页面顶部,方法是将document.body.scrollHeight替换为0,如下所示: ``` driver.execute_script("window.scrollTo(0, 0);") ``` 在Selenium中,我们可以使用其他方法来控制滚动条,例如scrollBy方法可以控制滚动条滚动的距离,如下所示: ``` driver.execute_script("window.scrollBy(0, 100);") ``` 在这段代码中,我们将滚动条向下滚动100个像素,如果要向上滚动,将100替换为-100即可。 总之,在Python中使用Selenium下拉滚动条是一个非常简单的任务,只需要使用execute_script方法并提供相应的JavaScript代码即可实现。PythonSelenium的结合使得我们可以非常方便地自动化Web应用程序,从而节省时间和精力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

举个栗子の不容易

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值