Python + selenium 解决验证码问题思路(超详细)

提示:这里提供 selenium 破解验证码的思路,使用打码平台从而破解验证码

文章目录

文章目录

一、第一步剖析平台验证码类型

二、编写selenium代码

1.引入库 所需要的模块

2. 定义一个初始属性

3.找到账户登录的元素然后点击

4.短信验证登录

5.找到手机号输入框

6.输入手机号之后会有这样类型的验证码

7.找到验证码1图片的url地址

8.找到验证码2图片的url地址

9. 现在可以按照思路编写代码了

10.获取到两张验证码的url 下载它们

11.合成两张图片为一张图片

         12.合成图片之后就变成了

13.接入打码平台 然后把合成好的图片上传到接口

14.处理好坐标数据之后就模拟人的操作来点击验证码​编辑

15. from yun import base64_api 是打码平台的文件

        三 、总结:下面是全部代码


一、第一步剖析平台验证码类型

这里我用唯品会做案例,我们先分析登录接口有没有 frame页面。

 

通过元素定位发现 body标签下都没有frame,这样子可以判定直接可以定位网站登录的元素,不用切换到frame子页面。

 

 

二、编写selenium代码

1.引入库 所需要的模块

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import requests
import time
from PIL import Image
from selenium.webdriver.common.action_chains import ActionChains
from yun import base64_api

2. 定义一个初始属性

class Get_url(object):
    def __init__(self):
        # 初始化谷歌驱动
        self.driver = webdriver.Chrome()
        self.url = 'https://passport.vip.com/login?src=https%3A%2F%2Forder.vip.com%2Forder%2Forderlist'

3.找到账户登录的元素然后点击

我这边使用xpath定位,找到账户登录的元素然后使用selemiun点击

 

4.短信验证登录

找到短信验证登录的元素然后使用selemiun点击


 

5.找到手机号输入框

使用xpath定位元素

 

6.输入手机号之后会有这样类型的验证码

现在的思路是要找到图片的url地址

 7.找到验证码1图片的url地址

8.找到验证码2图片的url地址

9. 现在可以按照思路编写代码了

因为程序运行的太快所以要让程序休眠2秒钟,这个方法的目的就是获取验证码1,验证码2的url地址

    def run(self):
        img_url = []
        # 访问wph url
        self.driver.get(self.url)
        # 找到账户登录 然后模拟点击
        self.driver.find_element(By.XPATH, '/html/body/div[2]/div/div[1]/div[1]/div/div[1]/div[2]').click()
        time.sleep(2)

        # 点击短信验证
        self.driver.find_element(By.XPATH, '//*[@id="J_login_form"]/div[5]/div/div/div[1]/a').click()
        time.sleep(2)

        # 输入手机号
        self.driver.find_element(By.XPATH, '//*[@id="J_mobile_login_phone"]').send_keys(输入自己的手机号)
        time.sleep(3)

        # 获取验证码图片1 url
        aa = self.driver.find_element(By.XPATH, '//div[@class="c-tab-content"]/div[2]/div[2]/div/div[3]/div/div/div/div/div/div/img').get_attribute('src')
        # 把url添加到列表
        img_url.append(aa)
        time.sleep(1)
        # 获取验证码图片2
        bb = self.driver.find_element(By.XPATH, '//div[@class="vipsc_code_pop vipsc_d_hide"]/div/img').get_attribute('src')
        # 把图片二添加到列表
        img_url.append(bb)
        # 返回列表
        return img_url

 10.获取到两张验证码的url 下载它们

    # requests 下载两张图片
    def get_conten(self, img_url):
        # 用 enumerate函数遍历 index返回url_deta坐标
        for index, url_date in enumerate(img_url):
            # 下载图片 图片以下标命名 保存到本目录下
            res = requests.get(url_date).content
            with open(f'{index}.jpg', mode='wb') as f:
                f.write(res)
                print('写入完成')

11.合成两张图片为一张图片

因为后面要上传验证码到打码平台,所以要把条件验证码 和 验证码 合成一张图片

    # 合成两张照片
    def blend_two_images2(self):
        # 打开需要点击的验证码图片
        img1 = Image.open("1.jpg")

        img1 = img1.convert('RGBA')

        # 打开条件的验证码图片
        img2 = Image.open("0.jpg")

        img2 = img2.convert('RGBA')

        r, g, b, alpha = img2.split()

        alpha = alpha.point(lambda i: i > 0 and 204)

        img = Image.composite(img2, img1, alpha)

        img.show()
        # 保存合成后的图片并命名为wph.png
        img.save("wph.png")

        return

12.合成图片之后就变成了

把条件验证码合成到了里面

 13.接入打码平台 然后把合成好的图片上传到接口

上传之后接口会返回   11|21,31|41,51|61  这样的坐标我们需要处理一下数据

    def obtain_xy(self):
        # 云打码 解析图片路径  (获取图片之后提交给打码平台)
        img_path = 'wph.png'
        # 写入平台的账户名 密码 然后传入照片 选择验证码类型
        rrr = base64_api(uname=(输入平台的用户名), pwd=(输入平台的密码), img=img_path, typeid=20)
        # 接收平台返回的信息 然后分割处理成自己想要的信息格式 ['11,21','31,41','51,61']的格式
        xydate = rrr.split('|')

        list_xy = []
        # 循坏遍历数据 然后放到列表
        for i in xydate:
            list_xy.append(i)
        # 传入参数到click方法
        # res.click(list_xy)
        return list_xy

14.处理好坐标数据之后就模拟人的操作来点击验证码

    #  定位验证码图片位置
    def run_tow(self):
        element = self.driver.find_element(By.XPATH, '//div[@class="ui-form-item-group"]/div/div/div/div/div/img')
        # 把鼠标悬停到该元素 验证码2才会出来
        ActionChains(self.driver).move_to_element(element).perform()

    # 解析坐标列表 ['1,2','3,4','5,6']的格式分析
    def click(self, i):
        # 这是'1,2'坐标格式
        xy1 = i[0].split(',')
        # 这是'3,4'
        xy2 = i[1].split(',')
        # '5,6'
        xy3 = i[2].split(',')

        # 定位验证码2的元素
        click1 = self.driver.find_element(By.XPATH, '//div[@class="ui-form-item-group"]/div/div/div/div[2]/div/img')
        # 使用动作链完成验证码点击坐标1 并让程序延迟1秒执行
        ActionChains(self.driver).move_to_element_with_offset(click1, xy1[0], xy1[1]).click().perform()
        time.sleep(1)
        # 使用动作链完成验证码点击坐标2 并让程序延迟1秒执行
        ActionChains(self.driver).move_to_element_with_offset(click1, xy2[0], xy2[1]).click().perform()
        time.sleep(1)
        # 使用动作链完成验证码点击坐标3 并让程序延迟1秒执行
        ActionChains(self.driver).move_to_element_with_offset(click1, xy3[0], xy3[1]).click().perform()
        time.sleep(1)
        # 点击获取验证码
        self.driver.find_element(By.XPATH, '//div[@class="sms-component-wrap"]/div/div/div/div/div/a').click()
        # 点击登录
        self.driver.find_element(By.XPATH, '//*[@id="J_mobile_login_submit"]').click()

 

15. from yun import base64_api 是打码平台的文件

读者可以找打码平台的文件下来,作者这边用的是云打码平台

以下是云打码文件的内容

import base64
import json
import requests
# 一、图片文字类型(默认 3 数英混合):
# 1 : 纯数字
# 1001:纯数字2
# 2 : 纯英文
# 1002:纯英文2
# 3 : 数英混合
# 1003:数英混合2
#  4 : 闪动GIF
# 7 : 无感学习(独家)
# 11 : 计算题
# 1005:  快速计算题
# 16 : 汉字
# 32 : 通用文字识别(证件、单据)
# 66:  问答题
# 49 :recaptcha图片识别
# 二、图片旋转角度类型:
# 29 :  旋转类型
#
# 三、图片坐标点选类型:
# 19 :  1个坐标
# 20 :  3个坐标
# 21 :  3 ~ 5个坐标
# 22 :  5 ~ 8个坐标
# 27 :  1 ~ 4个坐标
# 48 : 轨迹类型
#
# 四、缺口识别
# 18 : 缺口识别(需要2张图 一张目标图一张缺口图)
# 33 : 单缺口识别(返回X轴坐标 只需要1张图)
# 五、拼图识别
# 53:拼图识别
def base64_api(uname, pwd, img, typeid):
    with open(img, 'rb') as f:
        base64_data = base64.b64encode(f.read())
        b64 = base64_data.decode()
    data = {"username": uname, "password": pwd, "typeid": typeid, "image": b64}
    result = json.loads(requests.post("http://api.ttshitu.com/predict", json=data).text)
    if result['success']:
        return result["data"]["result"]
    else:
        return result["message"]
    return


if __name__ == "__main__":
    img_path = 'wph.png'
    result = base64_api(uname='nameguan', pwd='1111', img=img_path, typeid=27)
    print(result)

三 总结:下面是全部代码

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import requests
import time
from PIL import Image
from selenium.webdriver.common.action_chains import ActionChains
from yun import base64_api

"""
思路: 1找到能发验证码url网址然后 selenium自动化点击手机验证

"""

class Get_url(object):
    def __init__(self):
        # 初始化谷歌驱动
        self.driver = webdriver.Chrome()
        self.url = 'https://passport.vip.com/login?src=https%3A%2F%2Forder.vip.com%2Forder%2Forderlist'

    # 输入手机号
    def run(self):
        img_url = []
        # 访问wph url
        self.driver.get(self.url)
        self.driver.maximize_window()
        # 找到账户登录 然后点击
        self.driver.find_element(By.XPATH, '/html/body/div[2]/div/div[1]/div[1]/div/div[1]/div[2]').click()
        time.sleep(2)

        # 点击短信验证
        self.driver.find_element(By.XPATH, '//*[@id="J_login_form"]/div[5]/div/div/div[1]/a').click()
        time.sleep(2)

        # 输入手机号
        self.driver.find_element(By.XPATH, '//*[@id="J_mobile_login_phone"]').send_keys('110')
        time.sleep(3)

        # 获取验证码图片1 url
        aa = self.driver.find_element(By.XPATH, '//div[@class="c-tab-content"]/div[2]/div[2]/div/div[3]/div/div/div/div/div/div/img').get_attribute('src')
        # 把url添加到列表
        img_url.append(aa)
        time.sleep(1)
        # 获取验证码图片2
        bb = self.driver.find_element(By.XPATH, '//div[@class="vipsc_code_pop vipsc_d_hide"]/div/img').get_attribute('src')
        # 把图片二添加到列表
        img_url.append(bb)
        # 返回列表
        return img_url

    # requests 下载两张图片
    def get_conten(self, img_url):
        # 用 enumerate函数遍历 index返回url_deta坐标
        for index, url_date in enumerate(img_url):
            # 下载图片 图片以下标命名 保存到本目录下
            res = requests.get(url_date).content
            with open(f'{index}.jpg', mode='wb') as f:
                f.write(res)
                print('写入完成')

    # 合成两张照片
    def blend_two_images2(self):
        # 打开需要点击的验证码图片
        img1 = Image.open("1.jpg")

        img1 = img1.convert('RGBA')

        # 打开条件的验证码图片
        img2 = Image.open("0.jpg")

        img2 = img2.convert('RGBA')

        r, g, b, alpha = img2.split()

        alpha = alpha.point(lambda i: i > 0 and 204)

        img = Image.composite(img2, img1, alpha)

        img.show()
        # 保存合成后的图片并命名为wph.png
        img.save("wph.png")

        return

    def obtain_xy(self):
        # 云打码 解析图片路径  (获取图片之后提交给打码平台)
        img_path = 'wph.png'
        # 写入平台的账户名 密码 然后传入照片 选择验证码类型
        rrr = base64_api(uname='nameguan', pwd='11111', img=img_path, typeid=20)
        # 接收平台返回的信息 然后分割处理成自己想要的信息格式 ['11,21','31,41','51,61']的格式
        xydate = rrr.split('|')

        list_xy = []
        # 循坏遍历数据 然后放到列表
        for i in xydate:
            list_xy.append(i)
        # 传入参数到click方法
        # res.click(list_xy)
        return list_xy

    #  定位验证码图片位置
    def run_tow(self):
        element = self.driver.find_element(By.XPATH, '//div[@class="ui-form-item-group"]/div/div/div/div/div/img')
        # 把鼠标悬停到该元素 验证码2才会出来
        ActionChains(self.driver).move_to_element(element).perform()

    # 解析坐标列表 ['1,2','3,4','5,6']的格式分析
    def click(self, i):
        # 这是'1,2'坐标格式
        xy1 = i[0].split(',')
        # 这是'3,4'
        xy2 = i[1].split(',')
        # '5,6'
        xy3 = i[2].split(',')

        # 定位验证码2的元素
        click1 = self.driver.find_element(By.XPATH, '//div[@class="ui-form-item-group"]/div/div/div/div[2]/div/img')
        # 使用动作链完成验证码点击坐标1 并让程序延迟1秒执行
        ActionChains(self.driver).move_to_element_with_offset(click1, xy1[0], xy1[1]).click().perform()
        time.sleep(1)
        # 使用动作链完成验证码点击坐标2 并让程序延迟1秒执行
        ActionChains(self.driver).move_to_element_with_offset(click1, xy2[0], xy2[1]).click().perform()
        time.sleep(1)
        # 使用动作链完成验证码点击坐标3 并让程序延迟1秒执行
        ActionChains(self.driver).move_to_element_with_offset(click1, xy3[0], xy3[1]).click().perform()
        time.sleep(1)
        # 点击获取验证码
        self.driver.find_element(By.XPATH, '//div[@class="sms-component-wrap"]/div/div/div/div/div/a').click()
        # 点击登录
        self.driver.find_element(By.XPATH, '//*[@id="J_mobile_login_submit"]').click()



if __name__ == '__main__':
    res = Get_url()
    img_url = res.run()
    # 把img传入
    res.get_conten(img_url)
    res.blend_two_images2()

    i = res.obtain_xy()
    # 把i传入
    res.run_tow()
    res.click(i)

提示:这里对文章进行总结:

以上的思路总结是:

需要找到平台的验证码然后下载处理后上传至打码平台,然后打码平台返回坐标,之后就用selenium处理坐标然后点击

  • 6
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫中的图片验证码可以通过OCR技术进行识别。可以使用Python的第三方库tesserocr来实现简单验证码的识别。对于没有噪声干扰的验证码,可以直接使用这个库进行识别。但是对于有噪声干扰的验证码,需要先对图片进行预处理,如灰度化和二值化,然后再进行识别,以提高识别率。 另一种图片验证码是滑动式验证码。对于这种验证码,可以采用模板匹配的方法。思路就是将所有出现的验证码保存下来,并与出现的验证码进行像素比较,找出不同的验证码。根据滑动顺序给不同的验证码命名,然后使用selenium模拟滑动操作。 学习Python技术可以帮助你更好地处理爬虫中的验证问题Python在爬虫领域非常受欢迎,学好Python可以为你的就业和副业赚钱提供更多机会。如果你想学习Python,建议你制定一个学习规划,并寻找一些全套的Python学习资料来帮助你入门。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Python爬虫四种验证码的解决思路](https://blog.csdn.net/weixin_55154866/article/details/128503790)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值