Chunkr API 介绍
1. 概述
Chunkr API 是一个 开源的文档智能解析服务,专为 将复杂文档转换为适用于 LLM(大语言模型)或 RAG(检索增强生成) 的数据块而设计。该 API 由 Y Combinator 支持,提供了高效的 文档解析、OCR、布局分析、表格处理 等功能,使开发者能够轻松地将各种文档转换为结构化数据。
官网:Chunkr API
2. 主要特点
Chunkr API 提供了一系列强大的文档处理能力,主要包括:
✅ 文档解析
- 支持 PDF、PPT、Word 文档、图片等格式。
- 通过 OCR 进行 文本提取,支持多种语言自动检测。
✅ 智能分块(Semantic Chunking)
- 允许用户自定义分块大小,确保逻辑完整性,优化 RAG 任务。
- 自动分割标题、图片、表格、列表项等 11 种 文档元素。
✅ 高级布局分析
- VLM(视觉语言模型)支持:用于解析复杂的表格、公式、图表等元素。
- 多模态 OCR:支持 文本识别 + 视觉理解,精准提取文档内容。
✅ 易于集成
- RESTful API,可直接调用,也支持 Docker 部署、自托管。
- 多种文件处理方式:直接上传、URL 提供、Base64 编码传输。
✅ 高效 & 安全
- SOC2 & HIPAA 认证中,保障数据安全。
- 低错误率(<0.05%),高性能解析架构,提供可视化仪表盘监控处理流程。
3. 使用场景
Chunkr API 适用于多种场景,特别是在 文档结构化、检索增强、数据提取 方面具有优势:
-
构建 RAG 应用
- 预处理文档,将其划分为适合 LLM 的数据块,提高检索增强生成(RAG)性能。
-
企业文档管理
- 解析和存储公司合同、报告、法律文件等,提高信息查询效率。
-
智能搜索系统
- 结合 OCR、结构化解析,使企业知识库、搜索引擎更智能。
-
金融 & 医疗行业
- 提取发票、银行对账单、医疗报告中的关键信息,支持合规分析。
4. API 使用方法
4.1 获取 API Key
- 注册 Chunkr 账号(注册链接)。
- 在仪表盘 获取 API Key。
4.2 快速示例
安装 Chunkr SDK:
pip install chunkr-ai
Python 代码示例
from chunkr_ai import Chunkr
# 初始化 API
chunkr = Chunkr(api_key="your_api_key")
# 上传文档
task = chunkr.upload("/path/to/your/file")
# 导出解析后的 HTML
task.html(output_file="output.html")
# 导出 Markdown 格式
task.markdown(output_file="output.md")
5. 高级用法
Chunkr API 允许用户 自定义分块、优化 OCR 处理逻辑,示例如下:
from chunkr_ai import Chunkr, Configuration, ChunkProcessing, SegmentProcessing, GenerationConfig, GenerationStrategy
chunkr = Chunkr(api_key="your_api_key")
# 自定义分块规则
config = Configuration(
chunk_processing=ChunkProcessing(
target_length=1024 # 设置目标块大小
),
segment_processing=SegmentProcessing(
Table=GenerationConfig(
html=GenerationStrategy.LLM, # 使用 LLM 解析表格
),
Picture=GenerationConfig(
llm="Convert all charts to tables" # 转换图表为表格
),
)
)
# 上传文件并使用自定义解析配置
task = chunkr.upload("path/to/file", config)
# 获取解析结果
parsed_data = task.json()
6. 价格方案
Chunkr API 采用 按页计费 的方式,提供多个价格计划:
计划 | 价格 | 每月包含页数 | 额外页单价 | 支持 |
---|---|---|---|---|
免费 | $0 | 200 页 | - | Discord 社区支持 |
Starter | $50/月 | 5,000 页 | $0.01/页 | 邮件支持 |
Dev | $200/月 | 25,000 页 | $0.008/页 | 优先支持 |
Growth | $500/月 | 100,000 页 | $0.005/页 | 创始人支持 |
Enterprise | 定制 | 自定义 | 自定义 | 24/7 专属支持 |
此外,还提供:
- 研究计划(免费,限非商业用途)
- 自托管版(Docker / Helm 部署)
7. 结论
Chunkr API 是一个 高效、灵活、安全 的文档解析工具,尤其适用于 LLM、OCR、文档管理、RAG 应用。它不仅提供强大的 语义分块、视觉语言模型支持、结构化解析,还允许 自托管部署,适合企业级应用。
🚀 如果你正在开发一个基于文档的 AI 应用,Chunkr API 将是一个极佳的选择!