selenium库的进阶与爬虫结合

最新推荐文章于 2023-10-17 14:19:57 发布

江流儿的斗笠

最新推荐文章于 2023-10-17 14:19:57 发布

阅读量253

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_45643814/article/details/107916697

版权

本文介绍了selenium库的高级用法，包括如何与爬虫结合，控制浏览器进行自动化操作，如自动打开、输入和点击。讲解了获取数据、提取数据的方法，与BeautifulSoup的协同工作，并探讨了selenium的优缺点及其在爬虫项目中的应用。

摘要由CSDN通过智能技术生成

senium

selenium-强大的Python库。用几行代码，控制浏览器，做出自动打开、输入、点击等操作，就像是有一个真正的用户在操作一样。

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器

把Chrome浏览器设置为引擎，然后赋值给变量driver。driver是实例化的浏览器
selenium的脚本可以控制所有常见浏览器的操作，在使用之前，需要安装浏览器的驱动。我推荐的是Chrome浏览器，打开下面的链接，就可以下载Chrome的安装包了，Windows和Mac都有。浏览器的驱动下载

获取数据

import time

# 本地Chrome浏览器设置方法
from selenium import webdriver #从selenium库中调用webdriver模块
driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器

driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 打开网页
time.sleep(1)
driver.close() # 关闭浏览器

get(URL)是webdriver的一个方法，它的使命是为你打开指定URL的网页。刚才说过driver在这里是一个实例化的浏览器，因此，就是通过这个浏览器打开网页。driver.close()是关闭浏览器驱动，每次调用了webdriver之后，都要在用完它之后加上一行driver.close()用来关闭它。就像是，每次打开冰箱门，把东西放进去之后，都要记得关上门，使用selenium调用了浏览器之后也要记得关闭浏览器。

提取数据

在这里插入图片描述
提取单个元素的方法：

# 以下方法都可以从网页中提取出'你好，蜘蛛侠！'这段文字

find_element_by_tag_name：通过元素的名称选择
# 如<h1>你好，蜘蛛侠！</h1> 
# 可以使用find_element_by_tag_name('h1')

find_element_by_class_name：通过元素的class属性选择
# 如<h1 class="title">你好，蜘蛛侠！</h1>
# 可以使用find_element_by_class_name('title')

find_element_by_id：通过元素的id选择
# 如<h1 id="title">你好，蜘蛛侠！</h1> 
# 可以使用find_element_by_id('title')

find_element_by_name：通过元素的name属性选择
# 如<h1 name="hell

最低0.47元/天解锁文章

江流儿的斗笠

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
selenium库的进阶与爬虫结合

这里写自定义目录标题senium获取数据提取数据BeautifulSoup的工作方式自动操作浏览器seniumselenium-强大的Python库。用几行代码，控制浏览器，做出自动打开、输入、点击等操作，就像是有一个真正的用户在操作一样。# 本地Chrome浏览器设置方法from selenium import webdriver #从selenium库中调用webdriver模块driver = webdriver.Chrome() # 设置引擎为Chrome，真实地打开一个Chrome浏览器
复制链接

扫一扫