selenium解决web页面缺口验证码滑动问题

 

话不多说,直接上图上代码:

import base64
import os
from time import sleep
import requests
from selenium.webdriver import Chrome
from selenium.webdriver.common.action_chains import ActionChains
 
try:
    import cv2
except:
    os.system("pip install opencv-python")
    import cv2
 
 
"""
破解思路为:
1、先获取到背景图片和缺口图片,我这里是一张网络图片和一张base64的图片,请自行根据图片来源选择保存方式;
2、得到图片后,用cv2库,进行图片比对,自动找出最合适的位置,无需手动调整;
3、得到比对后的坐标后,拿到x轴的坐标,就是需要滑动的距离;
4、开始执行鼠标操作,按住元素,移动距离。完事。
5、如果验证码还有加速度验证等机制,给我留言或者自行找资料。
"""
 
 
b = Chrome()
 
# -------------------------------------------------------
# 打开的网址
# 网址隐藏下,防止你们干坏事。
url = "https://***********/register"
 
# 验证码背景图名称
code_background = "code_background.jpg"
# 验证码缺口图名称
code_gap = "code_gap.jpg"
 
 
# -------------------------------------------------------
b.implicitly_wait(20)
b.get(url)
 
 
def identify_gap(bg, tp):
    """ bg: 背景图片 tp: 缺口图片 out:输出图片 """
    # 读取背景图片和缺口图片
    bg_img = cv2.imread(bg)  # 背景图片
    tp_img = cv2.imread(tp)  # 缺口图片
    # 识别图片边缘
    bg_edge = cv2.Canny(bg_img, 100, 200)
    tp_edge = cv2.Canny(tp_img, 100, 200)
    # 转换图片格式
    bg_pic = cv2.cvtColor(bg_edge, cv2.COLOR_GRAY2RGB)
    tp_pic = cv2.cvtColor(tp_edge, cv2.COLOR_GRAY2RGB)
    # 缺口匹配
    res = cv2.matchTemplate(bg_pic, tp_pic, cv2.TM_CCOEFF_NORMED)
    # 寻找最优匹配
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(res)
    # 左上角点的坐标
    tl = max_loc
 
    return tl[0]
 
 
while 1:
    # 尝试删除历史图片
    try:
        os.remove(code_background)
        os.remove(code_gap)
    except:
        pass
    # 需要重新生成动作,否则会导致操作累计执行
    Action = ActionChains(b)
    while 1:
        try:
            sleep(0.2)
            # 下拉一下,方便滑动
            target = b.find_element_by_xpath('// a[text() = "《用户服务协议》"]')
            b.execute_script("arguments[0].scrollIntoView();", target)
            # 获取背景图url
            code_url = b.find_element_by_xpath('//div[@class="drag-section"]//img').get_attribute("src")
            # print(code_url)
            # 如果验证码没加载,则会获取到空的值,则跳过,再来一遍
            if len(code_url) > 5:
                # 保存图片
                img = requests.get(code_url)
                f = open(code_background, 'ab')
                f.write(img.content)
                f.close()
                # 保存缺口图片
                code2_base64 = b.find_element_by_xpath('//div[@class="drag-section"]/div/img[2]').get_attribute("src")
 
                with open(code_gap, 'wb') as f:
                    # 图片数据前部是“”,需要去掉前面非图片数据部分
                    f.write(base64.b64decode(code2_base64[22:]))
                break
        except:
            pass
    # 开始计算缺口位置
    a = identify_gap(code_background, code_gap)
    print("缺口位置:", a)
    ele = b.find_element_by_xpath('//div[@class="drag-bar"]/div[2]')
    print("开始拖拽")
    Action.move_to_element(ele)
    # 拖拽位置+1是为了防止当识别出来的位置为0时,则不执行拖拽,则会卡在这里。亲测必须加上。
    Action.drag_and_drop_by_offset(ele, a+1, 0).perform()
    sleep(0.2)
    # 获取滑块在滑动后的位置,看下滑块有没有回去,没回去,则破解成功
    left = b.find_element_by_xpath('//div[@id="drag-btn"]').get_attribute('style')
    # print("---", left)
    # 判断下时候验证成功,你们断言可能不同,都是聪明人,自己修改下。
    if "not-allowed" in left:
        print("验证成功")
        break
    else:
        pass
 
 
 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Selenium 是一个流行的自动化测试工具,但也可以用于网页抓取,包括抓取图片。如果你想通过 Selenium 抓取网站的原始图片,而不是显示的缩略图或经过处理的图片,你需要确保执行以下步骤: 1. **初始化 Webdriver**:首先,你需要选择一个浏览器驱动(如 ChromeDriver、FirefoxDriver),这将让你的 Python 程序能够控制实际的浏览器。 ```python from selenium import webdriver # 创建一个新的 Chrome 驱动实例 driver = webdriver.Chrome() ``` 2. **导航到网页**:然后,使用 `get` 方法加载包含原始图片的页面。 ```python driver.get('http://example.com/with_original_image') ``` 3. **找到图片元素**:定位到你想要抓取的图片元素。通常,这可以通过查找图像的 `src` 或 `data-src` 属性来实现。比如,HTML 中图片标签可能是这样的: ```html <img src="/path/to/original/image.jpg" alt="Original Image"> ``` 4. **获取原始 URL**:获取该元素的 `src` 或 `data-src` 属性值,这就是原始图片链接。 ```python image_url = driver.find_element_by_xpath('//img[alt="Original Image"]').get_attribute('src') ``` 5. **保存图片**:使用 Python 的 `webdriver.ActionChains` 或 `requests` 库下载图片。这里是一个示例,使用 `requests` 下载图片: ```python import requests response = requests.get(image_url, stream=True) with open('original_image.jpg', 'wb') as file: for chunk in response.iter_content(1024): file.write(chunk) ``` 6. **清理**:在完成抓取后,别忘了关闭浏览器驱动。 ```python driver.quit() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值