📖标题:Enhancing Complex Formula Recognition with Hierarchical Detail-Focused Network
🌐来源:arXiv, 2409.11677
摘要
🔸由于公式的多种可能解释,分层和复杂的数学表达式识别(MER)具有挑战性,使解析和计算都变得复杂。
🔸在本文中,我们介绍了分层细节聚焦识别数据集(HDR),这是第一个专门为解决这些问题而设计的数据集。它由一个大规模的训练集HDR-100M组成,提供了前所未有的规模和多样性,有一亿个训练实例。测试集HDR测试包括对复杂层次公式的多种解释,用于综合模型性能评估。
🔸此外,解析复杂公式时经常会出现细粒度细节错误。为了解决这个问题,我们提出了分层细节聚焦识别网络(HDNet),这是一个创新的框架,它包含了一个分层子公式模块,专注于精确处理公式细节,从而显著提高了MER性能。实验结果表明,HDNet在各种数据集上的表现优于现有的MER模型。
🛎️文章简介
🔸研究问题:现有模型在处理复杂结构、重叠符号或低质量图像的公式时,容易出现解析错误。
🔸主要贡献:论文提出了HDR数据集和HDNet模型,改进了复杂公式的识别和解析精度。
📝重点思路
🔺相关工作
🔸MER的一种流行方法是利用CNN,如ConvMath(结合了用于特征提取的图像编码器和用于序列生成的卷积解码器,将数学表达式的图像转换为LaTeX格式)、WAP(集成了CNN和RNN,重点关注直接从二维图像布局识别手写表达)。
🔸另一种MER算法基于Transformer架构,基于注意力的相互学习网络(ABM)被引入使用注意力机制从图像生成LaTeX序列,如UniMERNet(多语言符号和结构)和Vary(自回归视觉词汇生成)。
🔺论文方案
🔸数据集构建:引入HDR数据集,包含超过一亿个公式,分为HDR-100M训练集和HDR-Test集,覆盖广泛的表达复杂性。
🔸模型架构:提出了HDNet,基于Transformer的编码器-解码器框架,通过层次化的子公式模块捕捉公式的细粒度层次特征,提高解析精度。具体来说,输入的公式图像被裁剪成高分辨率的子公式图像,通过视觉编码器生成特征向量,然后这些特征向量被融合成统一的表示,并通过解码器生成预测的公式。
🔸损失函数设计:包含主公式和子公式损失,以平衡整体公式识别和细节解析的优化。
🔸评估方法:考虑所有有效的解析选项,确保更公平和鲁棒的模型性能评估。
🔎分析总结
🔸性能比较:HDNet在所有评估指标上均优于三个主要的基线方法(Pix2tex, Texify, UniMERNet),特别是在字符召回率、平均编辑距离和BLEU分数上表现出色。
🔸消融实验:结合子公式和随机裁剪的方法性能最佳,仅使用子公式裁剪的方法表现最差,因为训练和推理之间的子公式提取不匹配。
🔸分层解析:HDNet能够有效地处理复杂的分层结构,如LaTeX矩阵和分段函数,确保模型能够准确解释这些嵌套关系。
🔸公平评估:改进的评估方法确保了即使在字符级别上不同的公式,只要它们在功能上是等价的,就被认为是正确解析的,从而提供了更公平的模型比较。
💡个人观点
论文的核心是提出了层次化细节聚焦网络,以及引入了一个大规模的多标签MER数据集,并改进了评估方法以确保更公平的模型比较。