python爬虫编程实践 Task4--大作业(某网站新闻爬取)

本文介绍如何使用Python的Selenium库爬取一个网站的新闻热点精选。通过监控网络请求并分析,利用Selenium的execute_script()执行JavaScript来实现页面滚动,从而获取不可见元素。滚动到底部的JS代码为window.scrollTo(0,document.body.scrollHeight),滚动到顶部则为window.scrollTo(0,0)。注意在使用find_all()后需加[0]以避免AttributeError。" 114094487,10553088,Java SSL加密详解:从密钥到SSL上下文,"['Java安全', 'SSL/TLS', 'HTTPS连接', '证书管理', '加密算法']
摘要由CSDN通过智能技术生成

爬虫作业

用selenium爬取某网站新闻的热点精选

  • 通过chrome的开发者工具,监控网络请求,并分析
  • 用selenium完成爬虫
  • 了解ajax加载

Selenium调用js(execute_script)实现滚动页面

python-selenium提供的execute_script(),可以直接执行js的脚本

当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的。这时候需要借助滚动条来拖动屏幕,使被操作的元素显示在当前的屏幕上。滚动条是无法直接用定位工具来定位的。selenium里面也没有直接的方法去控制滚动条,这时候只能借助JS了,还好selenium提供了一个操作js的方法

  • 滚动到底部:window.scrollTo(0,document.body.scrollHeight)
  • 滚动到顶部:window.scrollTo(0,0)

说明:window.scrollTo()方法用于设置浏览器窗口滚动条的水平位置和垂直位置,第一个参数表示水平左边距,第二个参数表示垂直上边距。

1.window:js的window对象

2.scrollTo():window的方法,可以滚到页面的任何位置

scrollHeight:是dom元素的通用属性,document.body.scrollHeight会返回body元素的高度,基本上就是页面的高度
scrollLeft:获取位于对象左边界和窗口目前可见内容的最左端之间的距离
scrollTop:获取位于对象最顶端和窗口中可见内容的最顶端之间的距离
scrollWidth:获取对象滚动的宽度

3.用法:execute_script方法可以调用原生JavaScript的api

driver.execute_script(js)
#通过JavaScript设置浏览器窗口的滚动条位置
js = "window.scrollTo(0,document.body.scrollHeight);" #滚动到浏览器底部
js = "window.scrollTo(0,document.body.scrollTop=0);" #滚动到顶部
  • window.scrollX 返回文档/页面水平方向滚动的像素值

参考资料:https://developer.mozilla.org/zh-CN/docs/Web/API/Window/scrollTo

import time
from  selenium 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值