selenium+opencv之豆瓣滑块验证登录

安于长情_

已于 2023-12-12 21:05:25 修改

阅读量726

点赞数 7

分类专栏：网络爬虫学习文章标签： selenium opencv

于 2023-12-12 20:54:36 首次发布

本文链接：https://blog.csdn.net/weixin_64138524/article/details/134958403

版权

网络爬虫学习专栏收录该内容

2 篇文章

订阅专栏

本文详细描述了如何使用Python的selenium和opencv库实现豆瓣网站的自动化登录过程，包括滑块验证码的识别和短信验证码的输入，展示了关键步骤和代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文仅供学习使用。

本人经历一个星期的的学习

以及验证

终于突破了使用selenium+opencv来实现豆瓣的自动化登录。

每行代码均有解析及提示，就不细讲了。。

本文所用核心包如下：

python	3.10
selenium	3.141.0
opencv-python	4.8.1.78

重点步骤思路如下：

1.滑块验证码破解

1）-->定位背景图片，保存图片。

2）-->使用opencv对保存的图片进行缺口定位。

3）-->得到缺口偏移量，计算滑动距离，从而完成验证。

不足之处：校验的准确度还行，但不是非常高。偶尔有校验不通过

改进思路:(暂时无改进）可添加判断校验是否通过，若不通过，切换校验图片，重新解析校验，直到校验通过。或自己训练模型，提高校验准确度。（准备做这个）

2.短信校验

短信校验，目前想到的方法就是从pycharm中手动输入获取到的验证码。

应该有好的好方法。大佬可以给点思路。。。。。。

完整代码如下：

# -*- coding: utf-8 -*-
# @Author  : 归燕
# @FileName: 01-豆瓣滑块验证登录.py
# @Time    : 2023/12/6 23:17
import random
from selenium import webdriver
import time
import requests
import cv2
from selenium.webdriver import ActionChains
from selenium.webdriver.chrome.options import Options

# 定义一个处理图片缺口的函数，最后是返回x坐标，滑块移动不需要y坐标
def get_pos(image):
    # 首先使用高斯模糊去噪，噪声会影响边缘检测的准确性，因此首先要将噪声过滤掉
    blurred = cv2.GaussianBlur(image, (5, 5), 0, 0)
    # 边缘检测，得到图片轮廓
    canny = cv2.Canny(blurred, 200, 400)  # 200为最小阈值，400为最大阈值，可以修改阈值达到不同的效果
    # 轮廓检测
    # cv2.findContours()函数接受的参数为二值图，即黑白的（不是灰度图），所以读取的图像要先转成灰度的，再转成二值图，此处canny已经是二值图
    # contours：所有的轮廓像素坐标数组，hierarchy 轮廓之间的层次关系
    contours, hierarchy = cv2.findContours(canny, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    # print(contours, hierarchy)
    for i, contour in enumerate(contours):  # 对所有轮廓进行遍历
        M = cv2.moments(contour)  # 并计算每一个轮廓的力矩(Moment)，就可以得出物体的质心位置
        # print(M)
        if M['m00'] == 0:
            cx = cy = 0
        else:
            # 得到质心位置，打印这个轮廓的面积和周长，用于过滤
            cx, cy = M['m10'] / M['m00'], M['m01'] / M['m00']
            print(cv2.contourArea(contour), cv2.arcLength(contour, True))
        # 判断这个轮廓是否在这个面积和周长的范围内
        if 5000 < cv2.contourArea(contour) < 8000 and 300 < cv2.arcLength(contour, True) < 500:
            print(cx)
            if cx < 300:
                continue
            print(cv2.contourArea(contour))
            print(cv2.arcLength(contour, True))
            # 外接矩形，x，y是矩阵左上点的坐标，w，h是矩阵的宽和高
            x, y, w, h = cv2.boundingRect(contour)

            cv2.rectangle(image, (x, y), (x + w, y + h), (0, 0, 255), 2)  # 画出矩行
            # cv2.imshow('image', image)
            cv2.imwrite('../爬虫dome/111.jpg', image)  # 保存。注意自己更换保存位置
            return x
    return 0

# 创建 Chrome WebDriver 选项
chrome_options = Options()
# 使用代理ip（自己本机ip被封禁了）
proxy_ip="113.142.94.234"   #换成自己的代理ip
proxy_port="5412"           #换成自己的代理端口号
chrome_options.add_argument('--proxy-server={}:{}'.format(proxy_ip, proxy_port))

# 使用chorm浏览器，注意chorm浏览器驱动路径换成自己的
driver = webdriver.Chrome(r'C:/***/chromedriver.exe')
# 目标网页url
url = "https://www.douban.com/"
# 访问目标网页
driver.get('https://www.douban.com/')

# 等待页面加载完成
time.sleep(random.randint(1,10))
# 设置登录手机号，换成自己的
USERNAME = "152********"
# 找到登陆的iframe
login_iframe = driver.find_element_by_xpath('//div[@class="login"]/iframe')
# 切换到iframe
driver.switch_to.frame(login_iframe)
# 点击短信登陆
driver.find_element_by_class_name('account-tab-phone').click()
# 将手机号填入
driver.find_element_by_xpath("//input[@type='phone' and @name='phone']").send_keys(USERNAME)
# 休眠
time.sleep(random.randint(1,10))
# 点击获取验证码
driver.find_element_by_class_name('get-code').click()
# 休眠
time.sleep(random.randint(1,10))
# 找到滑块验证码的iframe
yanzheng = driver.find_element_by_xpath('//div[@id="tcaptcha_transform_dy"]/iframe')
# 切换到iframe
driver.switch_to.frame(yanzheng)
# 定位滑块验证的背景图
background_image = driver.find_element_by_xpath('//div[@id="slideBg"and @class="tc-bg-img unselectable"]')
# 获取滑块验证的背景图的url
background_image_url = background_image.get_attribute("style").split("(")[1].split(")")[0].split("\"")[1]
comtent = requests.get(background_image_url).content
# 下载这个背景图，用于后续分析
with open('../opencv/1.jpg', "wb") as f:
    f.write(comtent)
# 读取刚刚保存的背景图
verify_img = cv2.imread("../opencv/1.jpg")
# 休眠
time.sleep(random.randint(1,10))
# 将背景图传入先前定义好的图像处理函数上，返回值为缺口的横轴偏移量
x = get_pos(verify_img)
# 获取滑动条元素
slide = driver.find_element_by_xpath('//div[@class="tc-fg-item tc-slider-normal"]')
# 图片实际像素与浏览器中图片像素有差异，浏览器中图片像素大概是实际图片的41%, 由于像素缩小，减去30像素是为了平滑距离
result = int(x * 0.41) - 30
# 滑动滑块
ActionChains(driver).drag_and_drop_by_offset(slide, result, 0).perform()
yanzhengma = input("请输入验证码:")
# 休眠
time.sleep(5)
# 退出刚刚切换的iframe（一定要做）我自己在这卡了好久
driver.switch_to.default_content()
# # 切换到login下的iframe
login_iframe_ = driver.find_element_by_xpath('//div[@class="login"]/iframe')
driver.switch_to.frame(login_iframe_)
# 填入验证码
input_yanzhengma = driver.find_element_by_xpath("//input[@type='text' and @name='code']").send_keys(yanzhengma)
# 休眠
time.sleep(random.randint(1,10))
# 点击登录
driver.find_element_by_xpath('//div[@class="account-form-field-submit "]/a').click()