📖标题:Enhancing Complex Formula Recognition with Hierarchical Detail-Focused Network
🌐来源:arXiv, 2409.11677
摘要
🔸由于公式的多种可能解释,分层和复杂的数学表达式识别(MER)具有挑战性,使解析和计算都变得复杂。
🔸在本文中,我们介绍了分层细节聚焦识别数据集(HDR),这是第一个专门为解决这些问题而设计的数据集。它由一个大规模的训练集HDR-100M组成,提供了前所未有的规模和多样性,有一亿个训练实例。测试集HDR测试包括对复杂层次公式的多种解释,用于综合模型性能评估。
🔸此外,解析复杂公式时经常会出现细粒度细节错误。为了解决这个问题,我们提出了分层细节聚焦识别网络(HDNet),这是一个创新的框架,它包含了一个分层子公式模块,专注于精确处理公式细节,从而显著提高了MER性能。实验结果表明,HDNet在各种数据集上的表现优于现有的MER模型。
🛎️文章简介
🔸研究问题:现有模型在处理复杂结构、重叠符号或低质量图像的公式时,容易出现解析错误。
🔸主要贡献:论