Python爬虫(使用Selenium库)解决阿里云盾滑块认证方法2025

Python中使用Selenium库,模拟手动点击操作来爬取公开数据是可行的,然而部分网站会有随机验证机制,禁止自动爬取资源,如图所示:
在这里插入图片描述

下面以阿里云盾认证为例,来介绍解决办法,完整代码参考如下:

import random
import time
import csv
import selenium
from selenium.webdriver import ActionChains
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By


class Scrapy_Test:
    current_tab = 0  # 浏览器当前页索引
    try_max_times = 10  # 滑块认证,增加tab最多尝试次数    

    def __init__(self):
        # 谷歌浏览器驱动
        driver_path = "./chromedriver-win64/chromedriver.exe"
        service = Service(driver_path)
        options = selenium.webdriver.ChromeOptions()
        # 添加一个参数来禁用“AutomationControlled”标志
        options.add_argument("--disable-blink-features=AutomationControlled")              
        options.add_experimental_option("excludeSwitches", ["enable-automation"])
        # 关闭 userAutomationExtension
        options.add_experimental_option("useAutomationExtension", False)
        options.add_experimental_option("detach", True)
        self.driver = selenium.webdriver.Chrome(options=options, service=service)
        # 绕过滑块验证
        self.driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",
                                    {'source': 'Object.defineProperty(navigator,"webdriver",{get:()=>undefined})'})

        self.driver.maximize_window()

    def check_slide_web(self):
        """
        检测是滑块验证页
        :return:
        """
        try:
            slide_web = self.driver.find_element(By.ID, 'tips_title')
            if slide_web:
                return True
        except:
            return False

    def add_tab(self):
        """
        浏览器增加tab页
        :return:
        """
        self.driver.execute_script('window.open("你要爬取的网址")')
        self.current_tab += 1
        # 需增加随机等待时间,否则会被认定为机器操作
        wait_secs = random.uniform(20, 50)
        print(f'{wait_secs}秒后开始跳转')
        time.sleep(wait_secs)
        self.driver.switch_to.window(self.driver.window_handles[self.current_tab])

    def slide_verify(self):
        """
        阿里云盾授权验证
        :return:
        """
        self.add_tab()
        # 尝试3次
        for i in range(3):
            try:
                inner = self.driver.find_element(By.ID, "aliyunCaptcha-sliding-slider")
                outer = self.driver.find_element(By.ID, "aliyunCaptcha-sliding-text-box")
                # 使用 ActionChains 绕过验证码
                actions = ActionChains(self.driver)
                actions.move_to_element(inner).click_and_hold().move_by_offset(
                    outer.size['width'] + random.randint(1, 5),
                    0).release().perform()
            except Exception as e:
                print('card_slide err:', e)
            time.sleep(random.uniform(2, 5))
            try:
            	# 目标网站特征,进入后有类名为head1的元素
                index = self.driver.find_element(By.CLASS_NAME, 'head1')
                if index:
                    print('云盾验证通过,成功进入主页')
                    return True
            except Exception as e:
                print('没有进到主页,开始刷新主页', e)
                self.driver.execute_script('window.location.reload()')
                wait_secs = random.uniform(20, 50)
                print(f'{wait_secs}秒后开始处理')
                time.sleep(wait_secs)
        if self.try_max_times > 0:
            print('增加tab页重新尝试滑动')
            self.try_max_times -= 1
            # 递归尝试
            return self.slide_verify()
        else:
            return False

代码中注意: self.driver.execute_script(‘window.open(“你要爬取的网址”)’)
目前可以通过阿里云的云盾认证,等待随机秒后再执行:self.driver.switch_to.window(self.driver.window_handles[self.current_tab]
不会被阿里云盾识别为机器操作,亲测可以爬取想要网站中爬取的内容,对于不定时弹出云滑块认证,检测是否是滑块页面,执行下面代码后,再执行业务代码即可。

 # 检测到阿里云盾认证
  if self.check_slide_web():
      self.slide_verify()

总结:
不要使用:self.driver.get(‘想要爬取的网址’)
而需要使用:self.driver.execute_script(‘window.open(“你要爬取的网址”)’)
执行javascript脚本,避免被认定为机器操作。

### LlamaIndex 多模态 RAG 实现 LlamaIndex 支持多种数据类型的接入与处理,这使得它成为构建多模态检索增强生成(RAG)系统的理想选择[^1]。为了实现这一目标,LlamaIndex 结合了不同种类的数据连接器、索引机制以及强大的查询引擎。 #### 数据连接器支持多样化输入源 对于多模态数据的支持始于数据收集阶段。LlamaIndex 的数据连接器可以从多个异构资源中提取信息,包括但不限于APIs、PDF文档、SQL数据库等。这意味着无论是文本还是多媒体文件中的内容都可以被纳入到后续的分析流程之中。 #### 统一化的中间表示形式 一旦获取到了原始资料之后,下一步就是创建统一而高效的内部表达方式——即所谓的“中间表示”。这种转换不仅简化了下游任务的操作难度,同时也提高了整个系统的性能表现。尤其当面对复杂场景下的混合型数据集时,良好的设计尤为关键。 #### 查询引擎助力跨媒体理解能力 借助于内置的强大搜索引擎组件,用户可以通过自然语言提问的形式轻松获得所需答案;而对于更复杂的交互需求,则提供了专门定制版聊天机器人服务作为补充选项之一。更重要的是,在这里实现了真正的语义级关联匹配逻辑,从而让计算机具备了一定程度上的‘认知’功能去理解和回应人类意图背后所蕴含的意义所在。 #### 应用实例展示 考虑到实际应用场景的需求多样性,下面给出一段Python代码示例来说明如何利用LlamaIndex搭建一个多模态RAG系统: ```python from llama_index import GPTSimpleVectorIndex, SimpleDirectoryReader, LLMPredictor, PromptHelper, ServiceContext from langchain.llms.base import BaseLLM import os def create_multi_modal_rag_system(): documents = SimpleDirectoryReader(input_dir='./data').load_data() llm_predictor = LLMPredictor(llm=BaseLLM()) # 假设已经定义好了具体的大型预训练模型 service_context = ServiceContext.from_defaults( chunk_size_limit=None, prompt_helper=PromptHelper(max_input_size=-1), llm_predictor=llm_predictor ) index = GPTSimpleVectorIndex(documents, service_context=service_context) query_engine = index.as_query_engine(similarity_top_k=2) response = query_engine.query("请描述一下图片里的人物表情特征") print(response) ``` 此段脚本展示了从加载本地目录下各类格式文件开始直到最终完成一次基于相似度排序后的top-k条目返回全过程。值得注意的是,“query”方法接收字符串参数代表使用者想要询问的内容,而在后台则会自动调用相应的解析模块并结合先前准备好的知识库来进行推理计算得出结论。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值