Python如何写自动化（selenium）爬虫程序

黑色史莱姆

已于 2024-02-10 11:49:18 修改

阅读量621

点赞数 9

分类专栏：爬虫实习期文章标签： python selenium 爬虫

于 2024-02-09 08:29:25 首次发布

本文链接：https://blog.csdn.net/weixin_63304209/article/details/136084756

版权

爬虫实习期专栏收录该内容

17 篇文章 1 订阅

订阅专栏

当然，让我们深入一些Selenium的功能和方法，并通过一个具体的案例来解释它们是如何在爬虫程序中使用的。

初始化WebDriver：
首先，我们需要初始化一个WebDriver实例，这是与浏览器进行交互的主要方式。以Chrome为例：

from selenium import webdriver

# 注意替换这里的'path-to-chromedriver'为你的Chromedriver路径
driver = webdriver.Chrome(executable_path='path-to-chromedriver')

打开网页：
你可以通过.get()方法让浏览器导航到你想要爬取的网页。

driver.get('https://www.example.com')

元素定位：
为了与网页上的元素交互，你需要先定位它们。Selenium提供了多种定位元素的方法：

# 通过ID定位
element = driver.find_element_by_id('element_id')

# 通过name定位
element = driver.find_element_by_name('element_name')

# 通过class name定位
element = driver.find_element_by_class_name('element_class')

# 通过tag name定位
element = driver.find_element_by_tag_name('element_tag')

# 通过link text定位
element = driver.find_element_by_link_text('Link Text')

# 通过partial link text定位
element = driver.find_element_by_partial_link_text('Part of Link Text')

# 通过XPath定位
element = driver.find_element_by_xpath('//tagname[@attribute="value"]')

# 通过CSS Selector定位
element = driver.find_element_by_css_selector('tagname[attribute="value"]')

以XPath为例，这是一个非常强大且常用的定位方式，尤其在处理复杂的HTML结构时。

等待元素加载：
Web页面通常需要时间来动态加载内容，Selenium可以让我们等待直到需要的元素加载完成：

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 显式等待，直到找到ID为'myDynamicElement'的元素
element = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, "myDynamicElement"))
)

获取元素信息：
一旦定位了元素，就可以获取它的信息，如文本内容、属性等。

# 获取元素的文本内容
text = element.text

# 获取元素的属性
attribute_value = element.get_attribute('attribute')

点击元素：
对于需要交互的元素，如按钮或链接，你可以执行点击操作：

# 点击操作
element.click()

填写表单：
在处理登录页面或其他需要输入数据的表单时，你可以使用send_keys方法：

# 找到输入框并输入文字
input_element = driver.find_element_by_name('username')
input_element.send_keys('my_username')

# 找到密码框并输入密码
password_element = driver.find_element_by_name('password')
password_element.send_keys('my_password')

# 提交表单
submit_button = driver.find_element_by_id('submit_button')
submit_button.click()

滚动页面：
在需要爬取的数据在页面下方时，你可能需要滚动页面：

from selenium.webdriver.common.keys import Keys

# 滚动到页面底部
driver.find_element_by_tag_name('body').send_keys(Keys.END)

关闭浏览器：
完成所有操作后，不要忘记关闭浏览器：

driver.close()

以上就是Selenium在网页爬虫中一些常用功能的简介和示例。这些方法在爬取动态加载的内容、自动化表单提交、页面导航等场景中非常有用。而selenium本身是用于web应用开发测试使用的，对于爬虫来说，非必要一般还是通过requests请求网络接口效率会更高，可以减少很多性能损耗（网络请求爬虫【requests】和自动化爬虫【selenium】）。

黑色史莱姆

关注

9
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Python如何写自动化（selenium）爬虫程序

而selenium本身是用于web应用开发测试使用的，对于爬虫来说，非必要一般还是通过requests请求网络接口效率会更高，可以减少很多性能损耗。当然，让我们深入一些Selenium的功能和方法，并通过一个具体的案例来解释它们是如何在爬虫程序中使用的。首先，我们需要初始化一个WebDriver实例，这是与浏览器进行交互的主要方式。以XPath为例，这是一个非常强大且常用的定位方式，尤其在处理复杂的HTML结构时。一旦定位了元素，就可以获取它的信息，如文本内容、属性等。方法让浏览器导航到你想要爬取的网页。
复制链接

扫一扫