被低估的selenium,轻松跳过登录验证获取数据,保姆级

        公司为弹性打卡制,平均每天8H即可,初学爬虫想获取考勤数据,无论如何都绕不过登录,经过多番尝试,selenium可轻松绕过登录,最终也是成功获取打卡数据,实现一键计算工时的成果。

1、安装Chrome浏览器,下载chromedriver.exe

2、将chromedriver.exe分别放在浏览器和python可执行文件相同目录下,如图:

        

3、增加环境变量,Path->C:\Users\lenovo\AppData\Local\Google\Chrome\Application,为浏览器安装目录,根据自己实际情况修改。

4、给chrome.exe创建或复制一个桌面快捷方式,右键-属性-目标chrome.exe最后新增:

 --remote-debugging-port=9222 --auto-open-devtools-for-tabs

5、准备好以上步骤后,几行代码轻松获取想要的免登录数据,具体使用步骤如下:

启动刚才配置好的chrome.exe,为了区分开,我将名字修改为调试模式。

登录自己要爬取数据的网址,依次登录,登录后停留在当前页。

代码如下:

from selenium import webdriver
from selenium.webdriver.common.by import By


chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
driver = webdriver.Chrome(options=chrome_options)

url = '自己的url'
driver.get(url)
driver.maximize_window()

xpath: str = '/html/body/div[1]/div/div[5]/div[2]/div'
# 使用 XPath 定位元素
element = driver.find_element(by=By.XPATH, value=xpath)

# 获取元素的文本内容
element_text = element.text

print(element_text)

xpath取要爬内容的即可,浏览器右键-检查-要爬取的元素

使用Selenium可以非常方便地获取网站的cookies,从而实现跳过登录的效果。以下是一个简单的示例代码: ```python from selenium import webdriver # 启动浏览器 driver = webdriver.Chrome() # 访问网站并登录 driver.get("http://example.com/login") username_input = driver.find_element_by_name("username") password_input = driver.find_element_by_name("password") submit_button = driver.find_element_by_css_selector("button[type='submit']") username_input.send_keys("your_username") password_input.send_keys("your_password") submit_button.click() # 获取cookies cookies = driver.get_cookies() # 关闭浏览器 driver.quit() # 使用cookies访问需要登录的页面 new_driver = webdriver.Chrome() new_driver.get("http://example.com/protected_page") for cookie in cookies: new_driver.add_cookie(cookie) new_driver.get("http://example.com/protected_page") ``` 这个示例代码中,我们首先启动了一个Chrome浏览器,并访问了一个需要登录的网站。然后,我们使用`find_element_by_*`系列方法找到了登录表单的输入框和提交按钮,并填入了用户名和密码,最后点击了提交按钮。接着,我们使用`get_cookies()`方法获取了登录后的cookies。最后,我们关闭了第一个浏览器,并启动了一个新的浏览器。在新的浏览器中,我们使用`add_cookie()`方法将之前获取到的cookies添加到了浏览器中,然后访问了需要登录才能访问的另一个页面,这样就实现了跳过登录的效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

波小冰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值