- 博客(6)
- 收藏
- 关注
原创 从注意力机制到transformer
self-attention的输入是一个向量序列(a1,a2,a3,a4),输出也是一个向量序列(b1,b2,b3,b4),每个输出向量都是基于所有输入向量的交互和注意力得分计算得到的。以向量a1为例,分析self-attention是如何工作的。首先计算得出查询向量q1、键向量ki和vi。对于查询向量q1,计算它与序列中所有键向量的相似度attention score。使用softmax函数对attention score进行归一化,得到注意力权重向量。
2024-11-07 10:55:20
1677
原创 计算机视觉——文档图像语义分割
CNN在进行卷积和池化(或下采样)操作时,会逐渐减小特征图的尺寸,这有助于提取更高层次的抽象特征,但同时也导致了空间信息的损失。传统的CNN在多次卷积和池化后,往往无法很好地保留图像中的细节信息,从而难以做到精确的分割。:传统的CNN在卷积层之后会接入全连接层,将二维的特征图转换为一维的向量,以便进行分类。跳跃结构(Skip Layer) 这个结构的作用就在于优化结果,因为如果将全卷积之后的结果直接上采样得到的结果是很粗糙的,所以作者将不同池化层的结果进行上采样之后来优化输出。FCN将传统CNN后面的。
2024-10-08 10:09:43
1194
原创 图像矫正——文档图像
端到端的文本图像分块矫正方法2021该论文提出将一张文档图像切分成多个Patches来进行局部矫正,这种方式相比于直接在整图上进行全局矫正能够获得更好的效果。而对比之前同样基于Patch进行局部矫正的方法[1],本文实现了Patches拼接过程的端到端可训练化,同时为拼接过程加入了全局信息,可以得到更好的拼接效果。本文方法在多个指标上好于目前的SOTAs。 DocTr2021:同时进行文档图像几何矫正和光照恢复的框架。PaperEdge的新方法,通过结合真实世界和合成数据来提升文档去扭曲的性能。Pape
2024-09-05 09:01:24
2210
原创 文档图像处理
图形识别:对文档中的图形进行自动识别和提取,如条形码、二维码、统计图表等。版面分析与还原:对文档的版面进行分析和还原,包括元素检测、元素识别以及版面还原等核心环节,以精准还原文档的原始版面信息。1. 文档图像预处理主要用于解决文档图像中存在的噪声、变形和失真等问题,以提高文档图像的质量和稳定性。这一阶段的子任务包括: 图像去噪、切边增强(对图像的边缘进行增强处理,使文档内容更加突出)、弯曲矫正(对弯曲或变形的文档图像进行矫正,恢复其原始形态)、摩尔纹去除(去除图像中可能出现的摩尔纹,提高图像的清晰度)。
2024-09-02 10:54:59
211
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人