忘掉OCR吧,LAYRA用“看”的方式理解文档 | 最新视觉RAG产品 LAYRA 开源了
LAYRA,是刚刚开源的一个前后端分离UI简约的企业级的视觉优先的RAG(Retrieval-Augmented Generation)系统。它打破传统OCR + 文本抽取的方式,直接以文档图片为输入,通过colpali系列最新的colqwen2.5-v0.2模型进行向量化理解,实现保留排版结构、图表信息的智能问答体验。一句话总结:LAYRA 用“看”的方式理解文档,而不是“读”出来再乱拼。
原创
2025-04-12 17:32:05 ·
935 阅读 ·
0 评论