OCR
文章平均质量分 96
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
一般OCR理论:通过统一的端到端模型迈向OCR-2.0
传统的光学字符识别系统(OCR-1.0)由于对人造光学字符智能处理需求的不断增长,越来越无法满足人们的使用需求。本文中,我们统称所有人工光学信号(例如,普通文本、数学/分子公式、表格、图表、乐谱,甚至几何形状)为“字符”,并提出通用OCR理论以及一个优秀的模型,即GOT,以促进OCR-2.0的到来。GOT具有580M580M参数,是一个统一的、优雅的、端到端的模型,由一个高压缩编码器和一个长上下文解码器组成。作为OCR-2.0模型,GOT能够处理上述所有“字符”在各种OCR任务下的需求。原创 2024-11-04 16:17:44 · 689 阅读 · 0 评论 -
TrOCR和ZhEn Latex OCR:图像到文本和Latex模型的比较
深入探讨AI模型,语言模型和其他可以应用于虚拟助手和内容创作等实际任务的软件非常流行。然而,对于图像到文本模型仍然有很多探索空间。最优字符识别(OCR)是构建庞大编码器-解码器模型的基础。因此,当您将图像作为序列呈现给该模型时,文本解码器会生成标记并显示图像中显示的字符。许多此类模型在不同专门领域的性能指标各不相同。两个具有巨大潜力的著名图像到文本模型是TrOCR和ZhEn Latex OCR;它们在执行不同图像到文本任务方面具有显著的效率。原创 2024-08-30 08:04:25 · 791 阅读 · 0 评论 -
用 TATR 做表检测与转换,让数据处理变得轻松又高效!
这种新方法将物体检测作为直接的集合预测问题,标志着与传统方法的不同。通过简化检测流程,这种模型消除了手工设计的各种组件,如非极大值抑制和锚点生成,这些组件通常编码了特定任务的先验知识。在这个新框架的核心,即 DEtection TRansformer (DETR),存在一个基于集合的全局损失,通过二分匹配和包含 Transformer 编码器-解码器层的架构,确保唯一性预测。使用一组预定义的学习对象查询,DETR 理解对象关系和整体图像上下文,以直接生成最终的一组并发预测。原创 2024-05-19 07:49:45 · 1563 阅读 · 2 评论