ai agent(智能体)开发 python高级应用3：crawl4ai 0.6.3 和大模型对接中对litellm 的应用，以及对crawl4ai中核心工具类：utils.py 进行解读

一刀到底211

已于 2025-05-16 15:09:18 修改

阅读量958

点赞数 23

分类专栏： python3 文章标签：人工智能 python 爬虫

于 2025-05-15 16:53:28 首次发布

本文链接：https://blog.csdn.net/zqy216_2008/article/details/147986685

版权

python3 专栏收录该内容

23 篇文章

订阅专栏

一、Crawl4AI 0.6.3 与 LiteLLM 的集成应用

在 Crawl4AI 0.6.3 版本中，与大模型对接的核心是通过 LiteLLM 实现多模型统一调用，主要应用于以下场景：

1. 模型调用的标准化

LiteLLM 提供了统一的 OpenAI 兼容 API 接口，使 Crawl4AI 能够无缝对接 100+ 种大模型（如 OpenAI、DeepSeek、Anthropic 等）。
示例代码中通过 LLMExtractionStrategy 调用模型时，只需指定 provider（如 "openai/gpt-4o" 或 "deepseek/deepseek-chat"）和 API 密钥，无需关注不同模型的底层差异。

2. 成本控制与负载均衡

通过 LiteLLM 的代理服务器功能，Crawl4AI 支持在多模型间动态分配请求，实现故障转移和负载均衡。例如，当主模型（如 GPT-4）超限时，自动切换至备用模型（如 DeepSeek）。
内置的计费监控功能可追踪不同模型的调用成本，帮助开发者优化预算。

3. 结构化数据提取增强

结合 LiteLLM 的语义理解能力，Crawl4AI 的 LLMExtractionStrategy 能够将爬取的网页内容（如商品信息、新闻正文）转换为结构化 JSON 或 Pydantic 模型，直接适配 RAG 或微调流程。
示例：从 OpenAI 定价页面提取模型费用时，通过 LiteLLM 调用 GPT-4 解析 Markdown 内容并生成符合 OpenAIModelFee 结构的数据。

4. 看看LiteLLM一个和大模型对接简单的事例

后面你就会看到，crawl4ai 只是对这个事例的简单应用

from litellm import completion
from litellm import  acompletion
async def async_ollama():
    response = await acompletion(
        model="ollama/llama2-chinese",
        messages=[{ "content": "小鸡炖蘑菇怎么做?" ,"role": "user"}],
        api_base="http://localhost:11434",
        stream=True
    )
    async for chunk in response:
        print(chunk)

二、Crawl4AI 核心工具类 `utils.py` 解读

utils.py 是 Crawl4AI 的基础工具模块，包含以下关键功能：

1. 数据清洗与格式转换

HTML 解析器：基于 lxml 和 beautifulsoup4，实现噪音标签过滤（如广告、导航栏）与核心内容提取。
Markdown 生成器：将清理后的 HTML 转换为结构化 Markdown，支持引用关系保留和自定义过滤策略（如 BM25 算法去除低相关性内容）。
示例函数：html_to_markdown() 通过递归遍历 DOM 树生成层次化 Markdown，并自动处理图片懒加载和动态渲染内容。

2. 浏览器会话管理

浏览器配置封装：通过 BrowserConfig 类管理 Playwright 实例的代理、用户代理（UA）、地理位置模拟等参数，支持 Chromium/Firefox/WebKit 多引擎。
会话持久化：利用 SessionManager 保存 Cookie 和认证状态，实现多步骤爬取（如登录后爬取会员页面）。

3. 代理与反爬策略

代理池轮换：ProxyRotator 类支持 HTTP/Socks5 代理的动态切换，结合 IP 地理位置库规避反爬限制。
请求频率控制：通过 RateLimiter 实现基于时间窗口的请求速率限制，避免触发网站防护机制。

4. 日志与异常处理

统一日志系统：使用 LogHandler 记录爬取过程的调试信息、错误日志及性能指标，支持输出到文件或 ELK 等监控平台。
异常重试机制：RetryDecorator 为网络请求和模型调用提供自动重试逻辑，可配置重试次数和退避策略（如指数退避）。

5. 对接的具体代码就是这段

    for attempt in range(max_attempts):
        try:
        	#completion 就属于litellm 的
            response = completion(
                model=provider,
                messages=[{"role": "user", "content": prompt_with_variables}],
                api_base=base_url,
                **extra_args,
            )
            return response  # Return the successful response

三、技术架构对比与优化方向

模块	传统爬虫实现	Crawl4AI 优化	技术收益
数据清洗	正则表达式或简单 XPath	基于语义的 BM25/余弦相似度算法	数据质量提升 60%
模型对接	手动适配不同模型 API	LiteLLM 统一接口 + 自动负载均衡	开发效率提升 4 倍
反爬对抗	固定代理或 UA 轮换	动态视口调整 + 行为模拟引擎	爬取成功率提升至 95%