Chunkr API

 

Chunkr API 介绍

 

1. 概述

 

        Chunkr API 是一个 开源的文档智能解析服务,专为 将复杂文档转换为适用于 LLM(大语言模型)或 RAG(检索增强生成) 的数据块而设计。该 API 由 Y Combinator 支持,提供了高效的 文档解析、OCR、布局分析、表格处理 等功能,使开发者能够轻松地将各种文档转换为结构化数据。

 

官网:Chunkr API

 


 

2. 主要特点

 

Chunkr API 提供了一系列强大的文档处理能力,主要包括:

 

文档解析
  • 支持 PDF、PPT、Word 文档、图片等格式。
  • 通过 OCR 进行 文本提取,支持多种语言自动检测。
智能分块(Semantic Chunking)
  • 允许用户自定义分块大小,确保逻辑完整性,优化 RAG 任务。
  • 自动分割标题、图片、表格、列表项等 11 种 文档元素。
高级布局分析
  • VLM(视觉语言模型)支持:用于解析复杂的表格、公式、图表等元素。
  • 多模态 OCR:支持 文本识别 + 视觉理解,精准提取文档内容。
易于集成
  • RESTful API,可直接调用,也支持 Docker 部署、自托管
  • 多种文件处理方式:直接上传、URL 提供、Base64 编码传输。
高效 & 安全
  • SOC2 & HIPAA 认证中,保障数据安全。
  • 低错误率(<0.05%),高性能解析架构,提供可视化仪表盘监控处理流程。

 


 

3. 使用场景

 

Chunkr API 适用于多种场景,特别是在 文档结构化、检索增强、数据提取 方面具有优势:

 

  1. 构建 RAG 应用

    • 预处理文档,将其划分为适合 LLM 的数据块,提高检索增强生成(RAG)性能。
  2. 企业文档管理

    • 解析和存储公司合同、报告、法律文件等,提高信息查询效率。
  3. 智能搜索系统

    • 结合 OCR、结构化解析,使企业知识库、搜索引擎更智能。
  4. 金融 & 医疗行业

    • 提取发票、银行对账单、医疗报告中的关键信息,支持合规分析。

 


 

4. API 使用方法

 

4.1 获取 API Key

 

  1. 注册 Chunkr 账号(注册链接)。
  2. 在仪表盘 获取 API Key

 

4.2 快速示例

 

安装 Chunkr SDK:

 
pip install chunkr-ai

 

Python 代码示例

 
from chunkr_ai import Chunkr

# 初始化 API
chunkr = Chunkr(api_key="your_api_key")

# 上传文档
task = chunkr.upload("/path/to/your/file")

# 导出解析后的 HTML
task.html(output_file="output.html")

# 导出 Markdown 格式
task.markdown(output_file="output.md")

 


 

5. 高级用法

 

Chunkr API 允许用户 自定义分块、优化 OCR 处理逻辑,示例如下:

 
from chunkr_ai import Chunkr, Configuration, ChunkProcessing, SegmentProcessing, GenerationConfig, GenerationStrategy

chunkr = Chunkr(api_key="your_api_key")

# 自定义分块规则
config = Configuration(
    chunk_processing=ChunkProcessing(
        target_length=1024  # 设置目标块大小
    ),
    segment_processing=SegmentProcessing(
        Table=GenerationConfig(
            html=GenerationStrategy.LLM,  # 使用 LLM 解析表格
        ),
        Picture=GenerationConfig(
            llm="Convert all charts to tables"  # 转换图表为表格
        ),
    )
)

# 上传文件并使用自定义解析配置
task = chunkr.upload("path/to/file", config)

# 获取解析结果
parsed_data = task.json()

 


 

6. 价格方案

 

Chunkr API 采用 按页计费 的方式,提供多个价格计划:

 

计划价格每月包含页数额外页单价支持
免费$0200 页-Discord 社区支持
Starter$50/月5,000 页$0.01/页邮件支持
Dev$200/月25,000 页$0.008/页优先支持
Growth$500/月100,000 页$0.005/页创始人支持
Enterprise定制自定义自定义24/7 专属支持

 

此外,还提供:

 

  • 研究计划(免费,限非商业用途)
  • 自托管版(Docker / Helm 部署)

 


 

7. 结论

 

        Chunkr API 是一个 高效、灵活、安全 的文档解析工具,尤其适用于 LLM、OCR、文档管理、RAG 应用。它不仅提供强大的 语义分块、视觉语言模型支持、结构化解析,还允许 自托管部署,适合企业级应用。

 

🚀 如果你正在开发一个基于文档的 AI 应用,Chunkr API 将是一个极佳的选择!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CCSBRIDGE

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值