selenium+opencv之豆瓣滑块验证登录

本文仅供学习使用。

本人经历一个星期的的学习

以及验证

终于突破了使用selenium+opencv来实现豆瓣的自动化登录。

每行代码均有解析及提示,就不细讲了。。

本文所用核心包如下:

python3.10
selenium3.141.0
opencv-python     4.8.1.78

重点步骤思路如下:

1.滑块验证码破解

        1)-->定位背景图片,保存图片。

        2)-->使用opencv对保存的图片进行缺口定位。

        3)-->得到缺口偏移量,计算滑动距离,从而完成验证。

        不足之处:校验的准确度还行,但不是非常高。偶尔有校验不通过

        改进思路:(暂时无改进)可添加判断校验是否通过,若不通过,切换校验图片,重新解析校验,直到校验通过。或自己训练模型,提高校验准确度。(准备做这个)

2.短信校验

        短信校验,目前想到的方法就是从pycharm中手动输入获取到的验证码。

        应该有好的好方法。大佬可以给点思路。。。。。。

完整代码如下:

# -*- coding: utf-8 -*-
# @Author  : 归燕
# @FileName: 01-豆瓣滑块验证登录.py
# @Time    : 2023/12/6 23:17
import random
from selenium import webdriver
import time
import requests
import cv2
from selenium.webdriver import ActionChains
from selenium.webdriver.chrome.options import Options

# 定义一个处理图片缺口的函数,最后是返回x坐标,滑块移动不需要y坐标
def get_pos(image):
    # 首先使用高斯模糊去噪,噪声会影响边缘检测的准确性,因此首先要将噪声过滤掉
    blurred = cv2.GaussianBlur(image, (5, 5), 0, 0)
    # 边缘检测,得到图片轮廓
    canny = cv2.Canny(blurred, 200, 400)  # 200为最小阈值,400为最大阈值,可以修改阈值达到不同的效果
    # 轮廓检测
    # cv2.findContours()函数接受的参数为二值图,即黑白的(不是灰度图),所以读取的图像要先转成灰度的,再转成二值图,此处canny已经是二值图
    # contours:所有的轮廓像素坐标数组,hierarchy 轮廓之间的层次关系
    contours, hierarchy = cv2.findContours(canny, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    # print(contours, hierarchy)
    for i, contour in enumerate(contours):  # 对所有轮廓进行遍历
        M = cv2.moments(contour)  # 并计算每一个轮廓的力矩(Moment),就可以得出物体的质心位置
        # print(M)
        if M['m00'] == 0:
            cx = cy = 0
        else:
            # 得到质心位置,打印这个轮廓的面积和周长,用于过滤
            cx, cy = M['m10'] / M['m00'], M['m01'] / M['m00']
            print(cv2.contourArea(contour), cv2.arcLength(contour, True))
        # 判断这个轮廓是否在这个面积和周长的范围内
        if 5000 < cv2.contourArea(contour) < 8000 and 300 < cv2.arcLength(contour, True) < 500:
            print(cx)
            if cx < 300:
                continue
            print(cv2.contourArea(contour))
            print(cv2.arcLength(contour, True))
            # 外接矩形,x,y是矩阵左上点的坐标,w,h是矩阵的宽和高
            x, y, w, h = cv2.boundingRect(contour)

            cv2.rectangle(image, (x, y), (x + w, y + h), (0, 0, 255), 2)  # 画出矩行
            # cv2.imshow('image', image)
            cv2.imwrite('../爬虫dome/111.jpg', image)  # 保存。注意自己更换保存位置
            return x
    return 0

# 创建 Chrome WebDriver 选项
chrome_options = Options()
# 使用代理ip(自己本机ip被封禁了)
proxy_ip="113.142.94.234"   #换成自己的代理ip
proxy_port="5412"           #换成自己的代理端口号
chrome_options.add_argument('--proxy-server={}:{}'.format(proxy_ip, proxy_port))

# 使用chorm浏览器,注意chorm浏览器驱动路径换成自己的
driver = webdriver.Chrome(r'C:/***/chromedriver.exe')
# 目标网页url
url = "https://www.douban.com/"
# 访问目标网页
driver.get('https://www.douban.com/')

# 等待页面加载完成
time.sleep(random.randint(1,10))
# 设置登录手机号,换成自己的
USERNAME = "152********"
# 找到登陆的iframe
login_iframe = driver.find_element_by_xpath('//div[@class="login"]/iframe')
# 切换到iframe
driver.switch_to.frame(login_iframe)
# 点击短信登陆
driver.find_element_by_class_name('account-tab-phone').click()
# 将手机号填入
driver.find_element_by_xpath("//input[@type='phone' and @name='phone']").send_keys(USERNAME)
# 休眠
time.sleep(random.randint(1,10))
# 点击获取验证码
driver.find_element_by_class_name('get-code').click()
# 休眠
time.sleep(random.randint(1,10))
# 找到滑块验证码的iframe
yanzheng = driver.find_element_by_xpath('//div[@id="tcaptcha_transform_dy"]/iframe')
# 切换到iframe
driver.switch_to.frame(yanzheng)
# 定位滑块验证的背景图
background_image = driver.find_element_by_xpath('//div[@id="slideBg"and @class="tc-bg-img unselectable"]')
# 获取滑块验证的背景图的url
background_image_url = background_image.get_attribute("style").split("(")[1].split(")")[0].split("\"")[1]
comtent = requests.get(background_image_url).content
# 下载这个背景图,用于后续分析
with open('../opencv/1.jpg', "wb") as f:
    f.write(comtent)
# 读取刚刚保存的背景图
verify_img = cv2.imread("../opencv/1.jpg")
# 休眠
time.sleep(random.randint(1,10))
# 将背景图传入先前定义好的图像处理函数上,返回值为缺口的横轴偏移量
x = get_pos(verify_img)
# 获取滑动条元素
slide = driver.find_element_by_xpath('//div[@class="tc-fg-item tc-slider-normal"]')
# 图片实际像素与浏览器中图片像素有差异,浏览器中图片像素大概是实际图片的41%, 由于像素缩小,减去30像素是为了平滑距离
result = int(x * 0.41) - 30
# 滑动滑块
ActionChains(driver).drag_and_drop_by_offset(slide, result, 0).perform()
yanzhengma = input("请输入验证码:")
# 休眠
time.sleep(5)
# 退出刚刚切换的iframe(一定要做)我自己在这卡了好久
driver.switch_to.default_content()
# # 切换到login下的iframe
login_iframe_ = driver.find_element_by_xpath('//div[@class="login"]/iframe')
driver.switch_to.frame(login_iframe_)
# 填入验证码
input_yanzhengma = driver.find_element_by_xpath("//input[@type='text' and @name='code']").send_keys(yanzhengma)
# 休眠
time.sleep(random.randint(1,10))
# 点击登录
driver.find_element_by_xpath('//div[@class="account-form-field-submit "]/a').click()


  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

安于长情_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值