利用 Selenium 和 Python 实现网页新闻链接抓取

Token_w

已于 2024-07-19 08:57:53 修改

阅读量1.7k

点赞数 17

分类专栏： Python 网络爬虫文章标签： selenium python 测试工具

于 2024-07-09 14:53:48 首次发布

本文链接：https://blog.csdn.net/weixin_61587867/article/details/140295865

版权

Python 同时被 2 个专栏收录

84 篇文章

订阅专栏

网络爬虫

16 篇文章

订阅专栏

在这里插入图片描述

在网络数据分析和信息检索中，爬虫是一项非常重要的技术。爬虫可以自动化地从网页中提取信息，极大地提升数据收集的效率。本文将以一个具体的代码实例，讲解如何使用 Selenium 库进行网页新闻链接的抓取。

前期准备

在开始之前，需要确保系统已经安装了 Python 以及 Selenium 库。可以通过以下命令进行安装：

pip install selenium

此外，还需要下载适用于浏览器的驱动程序。本文示例中使用的是 Firefox 驱动程序。如果使用的是 Chrome 浏览器，需要下载相应的 Chrome 驱动程序。下载完成后，将驱动程序放在系统的 PATH 路径中。

代码实现

以下是实现从网页中抓取新闻链接的完整代码：

from selenium import webdriver  
import time

# 此处下载的是Firefox驱动，所以用Firefox()函数打开浏览器，
# 若下载的是Chrome驱动，则利用Chrome()函数打开浏览器
driver = webdriver.Firefox()  
  
# 将提取的新闻链接保存在listhref列表中
listhref = []  
url = "https://www.163.com/search?keyword=中国芯片"  

# 通过分析网页结构可知，网页的所有新闻都存放在”class”=”keyword_list”的节点下，
# 右键复制该节点XPath路径，为”/html/body/div[2]/div[2]/div[1]/div[2]”，
# 再对某一个新闻进行分析，得到新闻链接存放的节点a的XPath路径，
# 此时不用添加标号，就可以查询到所有满足条件的新闻链接
xpath_name = "/html/body/div[2]/div[2]/div[1]/div[2]/div/h3/a"  
  
# 根据网页链接打开浏览器
driver.get(url=url)  
  
# 这里设计了两个临时变量，分别保存现在滚动条距离页面顶层的高度和上一次滚动条的高度，
# 用来判断是否滚动条已经到达页面底部，无法继续下滑
nowTop = 0  
tempTop = -1  

# 不断向下滚动滚动条并且保存新闻链接
while True:  
  # 保存网页链接存取在的位置节点
  name = driver.find_elements_by_xpath(xpath_name)  
  # 遍历各个节点
  for j in range(len(name)):  
    # 判断当前下标有没有文本  
    if name[j].text:  
      # 有则添加进列表，通过get_attribute函数获得’href’属性的值，获得新闻链接 
      listhref.append(name[j].get_attribute('href'))  
    else:  
      pass  

  # 执行下拉滚动操作
  driver.execute_script("window.scrollBy(0,1000)")  
  # 睡眠让滚动条反应一下
  time.sleep(5)  
	  
  # 获得滚动条距离顶部的距离
  nowTop = driver.execute_script("return document.documentElement.scrollTop || window.pageYOffset || document.body.scrollTop;")  
  
  # 如果滚动条距离顶部的距离不再变化，意味着已经到达页面底部，可以退出循环
  if nowTop == tempTop:  
    break  
  tempTop = nowTop  
     
# 完成后关闭浏览器  
driver.close()  

# 检查新闻链接是否保存成功
print(listhref)