2024深度表格学习综述
论文地址:https://arxiv.org/abs/2410.12034
表格数据在医疗、金融和交通等行业广泛使用,由于其异质性和缺乏空间结构,给深度学习带来了独特的挑战。本调查回顾了针对表格数据的深度学习模型的发展,从早期的全连接网络(FCNs)到先进的架构如TabNet、SAINT、TabTranSELU和MambaNet。这些模型结合了注意力机制、特征嵌入和混合架构,以应对表格数据的复杂性。TabNet使用顺序注意力进行实例级特征选择,提高了可解释性,而SAINT结合了自注意力和样本间注意力,以捕捉特征和数据点之间的复杂交互,既提高了可扩展性,又减少了计算开销。混合架构如TabTransformer和FT-Transformer将注意力机制与多层感知器(MLPs)结合,以处理分类和数值数据,FT-Transformer则为表格数据集调整了变换器。研究仍在继续,以平衡大数据集的性能和效率。基于图的模型如GNN4TDL和GANDALF将神经网络与决策树或图结构结合,通过先进的正则化技术增强特征表示并减轻小数据集中的过拟合。基于扩散的模型如表格去噪扩散概率模型(TabDDPM)生成合成数据以解决数据稀缺问题,提高模型的鲁棒性。同样,像TabPFN和Ptab这样的模型利用预训练语言模型,将迁移学习和自监督技术融入表格任务。本调查强调了关键进展,并概述了在多样化表格数据应用中可扩展性、泛化能力和可解释性的未来研究方向。
1 引言
表格数据由表示结构化信息的行和列组成 [1, 2],是许多行业中最常用的数据格式,包括医疗保健、金融和运输。与图像和文本等非结构化数据不同,表格数据以结构化的形式直接表示现实世界现象,这使其在风险评估、预测分析和安全监测等领域的决策过程中至关重要。例如,在交通工程领域,表格数据在记录事故事件、车辆属性、环境因素和人类行为方面发挥着关键作用,使研究人员能够预测事故严重性并利用数据驱动的洞察力改善安全措施。
尽管深度学习在计算机视觉和自然语言处理(NLP)等领域取得了成功,但其在表格数据上的应用却不那么直接。深度学习模型在处理表格数据时常常面临几个挑战:
(1) 样本量小:许多表格数据集相对较小,尤其是与大型图像或文本数据集相比,这导致复杂的深度学习模型出现过拟合。
(2) 高维度:表格数据通常涉及许多特征,这些特征可能是稀疏的或无关的,使得模型难以识别有意义的模式。
(3) 复杂的特征交互:与图像或文本不同,后者的局部结构显著,表格数据中的特征之间的交互是非局部和复杂的,这需要更专业的架构来有效捕捉这些关系。
这些因素使得基于树的模型,如 XGBoost 和随机森林,在许多表格数据任务中更为有效,因为它们更适合处理稀疏特征和复杂交互。近年来,专门针对表格数据的深度学习模型取得了显著进展,解决了这种数据类型所带来的独特挑战。虽然早期的模型,如全连接网络(FCNs),显示出潜力,但新的架构的出现显著推动了该领域的发展 [3-6]。在这个领域中,FT-Transformer 是领先模型之一,它通过注意力机制对特征进行编码,将最初为序列数据开发的变换器模型有效地适配用于表格数据 [ 7 , 8 ] \left\lbrack {7,8}\right\rbrack [7,8] 。由于能够学习特征之间的复杂交互,该模型表现出色,特别适合高维数据。
另一个近期的创新是自注意力和样本间变换器(SAINT),它通过引入样本间注意力机制改进了原始变换器,使模型能够更好地捕捉表格数据行之间的关系 [9]。与传统模型如 XGBoost 和深度学习模型如神经无知决策集成(NODE)相比,SAINT 在各种基准测试中表现出优越的性能。此外,像 TabTransformer 这样的模型专门利用变换器进行分类特征编码,为处理表格数据集中混合数据类型提供了更具可扩展性的解决方案。这种方法使模型能够从分类变量中捕捉有意义的表示,而这些变量通常是传统深度学习架构难以有效处理的。这些新模型在特征编码、复杂交互学习和模型可解释性方面引入了重大创新,这对于推动深度学习在许多研究领域中对表格数据的应用至关重要。本文的目的是详细回顾这些进展,探讨其历史演变,如图 1 所示,关键技术、数据集和潜在应用。
2 表格数据建模中的挑战
2.1 异构特征类型
表格数据是医疗、金融和交通等领域的基础结构,通常包含异构数据类型,如数值型、类别型、序数型、文本,甚至多媒体元素,如图像和表情符号。数值特征通常表示连续或离散值(例如,年龄、收入),而类别特征则将实体分类为离散组(例如,性别、城市)[10, 11]。在更复杂的情况下,文本数据、图像或表情符号可能嵌入在表格中,提供丰富的上下文,但也使特征表示和模型训练变得复杂。理解如何处理这些不同的数据类型对于提高深度学习模型在表格数据上的性能至关重要。
图 1. 表格深度学习模型的发展
表格数据还可以以两种不同的格式表示:1D 表格数据和 2D 表格数据,如下图 2 所示。在 1D 表格数据中,每一行代表一个样本,列代表特定特征,使得处理和分析变得简单。这种格式非常适合传统的机器学习任务,因为每一列遵循特定的数据类型,结构是固定的。例如,在交通安全数据集中,每一行可以代表一个单独的事故事件,列可能包括车辆速度、事故时间或道路状况等特征。这种结构的简单性使其在各个领域中非常有用。
图 2. 1D(左)和 2D(右)表格数据集的示意图
相比之下,二维表格数据提供了一种更复杂的格式,其中每个样本可以通过一个表格表示,每个表格内有多行多列。这种格式通常用于需要更深入关系分析的任务,例如跟踪患者健康状况随时间的变化或分析不同地区和时间的交通数据。二维表格数据也更具灵活性,能够在每个表格中包含多种数据类型,包括时间戳或非结构化数据,如文本或图像。这种额外的复杂性使其适用于医疗保健和交通等领域的应用,在这些领域中,时间和多维数据至关重要。
理解如何处理这些多样的数据类型对于提高深度学习模型在表格数据上的性能至关重要。以下是对一些数据类型的解释:
-
二进制数据:二进制数据是一种具有两个可能值(例如,“是/否”)的分类数据类型,通常在深度学习模型中表示为0或1 [12]。
-
数值数据:数值数据表示连续或离散变量(例如,年龄、车辆速度),在预测建模中很常见,尤其是在交通安全领域 [13]。深度学习模型直接处理它,但预处理,如缩放或标准化,对性能至关重要。高级技术,如数值嵌入,有助于捕捉数据中的非线性关系和交互。
-
时间戳:时间戳在交通管理等系统中提供了重要的时间信息。预处理涉及提取诸如天、月或小时等特征,以捕捉深度学习模型的时间模式 [14]。
-
文本数据:表格格式中的文本数据,如事故描述,给深度学习模型带来了挑战。TF-IDF [15] 和词嵌入(例如,词到向量、全局词表示向量)等方法将文本转换为数值向量 [16, 17]。像变压器(例如,BERT)这样的高级模型捕捉上下文感知的嵌入 [18]。
-
图像数据:在多模态数据集中,图像数据有时嵌入在表格中,例如在自动驾驶中,路面图像与表格数据配对。卷积神经网络(CNN)处理图像,但将图像特征与表格数据集成需要特征融合技术。像 TabTransformer 这样的混合模型使用注意力机制来合并图像和表格数据,从而增强预测性能 [19]。
-
超链接:超链接在传统表格数据集中虽然不常见,但在网络数据应用或网络文档中使用越来越多 [20]。当表格包含 URL 时,需要高级预处理来从链接页面提取元数据或上下文,通常使用自然语言处理模型将这些信息纳入特征集。
-
视频数据:以表格格式呈现的视频数据为自动驾驶和交通管理等领域提供了宝贵的时间信息。视频中的关键帧使用 3D-CNN 或递归神经网络(RNN)处理,以捕捉空间和时间特征,然后与表格数据集成,以改善模型预测,例如在碰撞预测模型中,视频特征增强了对道路状况和驾驶行为的理解 [ 21 , 22 ] \left\lbrack {{21},{22}}\right\rbrack [21,22] 。
-
表情符号:在社交媒体和消息平台中常见的表情符号,通过视觉传达情感或物体,增强了沟通 [23],并对情感编码提出了挑战。深度学习模型使用字符级或表情符号嵌入将其映射到情感向量,从而能够与其他数据类型有效解读。
表格数据由行和列组成,缺乏图像和文本中存在的空间或顺序结构,这使得传统的深度学习模型(如卷积神经网络)难以应用,因为这些模型依赖于空间一致性。与结构化数据不同,重新排列表格数据中的列或行不会改变特征关系,而深度学习模型在没有像 XGBoost 和随机森林这样的机器学习模型所具备的归纳偏置时,往往表现不佳。机器学习模型在处理异构特征类型、非局部交互和小型高维数据集方面表现出色,而深度学习模型常常过拟合并无法泛化。
为了解决传统深度学习模型在应用于表格数据时的局限性,最近的进展促成了专门架构的开发,如 TabNet、TabTransformer 和 SAINT。这些模型引入了注意力层、特征嵌入和混合架构等机制,以动态聚焦于最相关的特征,从而提高它们处理异构表格数据复杂性的能力。例如,TabNet [24] 采用了实例级特征选择的顺序注意力机制,而 TabTransformer [19] 则使用自注意力层比卷积神经网络更有效地捕捉特征依赖关系。SAINT [25] 通过引入样本间注意力增强了这一方法,使模型能够捕捉数据行之间的关系。此外,TabTranSELU [26] 和 GNN4TDL [27] 等模型通过采用混合结构和正则化技术,旨在高效管理分类特征和数值特征,这有助于减轻过拟合并改善泛化。这些创新使得深度学习模型在涉及表格数据的任务中能够与传统机器学习方法相抗衡或超越,包括欺诈检测和预测分析。此外,将表格数据转化为类似图像的结构 [2, 28]、采用多视图表示学习以及从表格数据中提取模式 [29] 等新技术进一步有助于克服表格数据集中缺乏固有空间关系所带来的挑战。
通过利用这些进展,最近的表格深度学习模型不仅解决了表格数据的独特挑战,还在性能、可解释性和可扩展性方面相较于传统深度学习和机器学习方法提供了显著的改进。这些创新展示了深度学习在处理复杂的非空间数据方面在广泛的现实应用中日益增长的潜力。
2.2 非空间关系
传统的深度学习模型,如卷积神经网络(CNN)和递归神经网络(RNN),在捕捉结构化数据类型(如图像和文本)中的空间和序列关系方面表现出色,其中空间一致性或时间依赖性起着至关重要的作用。例如,CNN通过处理空间上相邻的像素来检测局部模式,从而通过卷积捕捉有意义的特征 [30]。类似地,RNN在学习序列数据方面表现优异,在这种数据中,过去的信息会影响未来的预测,使其非常适合文本和时间序列数据。然而,表格数据缺乏这样的固有空间或时间结构。在表格格式中,特征不遵循任何特定的空间或时间顺序,它们的相对位置没有任何有意义的信息。重新排序列或行不会改变特征之间的关系,这使得像CNN和RNN这样的模型在没有重大调整的情况下不适用 [ 31 , 32 ] \left\lbrack {{31},{32}}\right\rbrack [31,32] 。表格数据中缺乏局部相关性和时间依赖性使得传统深度学习模型在执行时面临挑战,尤其是在非空间关系至关重要的情况下。
最近的研究旨在通过引入专门设计的新的架构来解决这些挑战,以捕捉表格数据中的关系结构。例如,双路结构自适应图网络(DRSA-Net)[33] 和同调卷积神经网络(Homological CNNs)[34] 采用基于图的和拓扑约束的方法来建模特征之间的依赖关系。其他方法,如 GOGGLE [35],则专注于通过利用潜在的关系结构来学习生成模型,而 TabularNet [36] 则结合了空间和关系信息,使用诸如池化和图卷积网络(GCNs)等先进技术。这些创新代表了在将深度学习架构适应表格数据所带来的独特挑战方面的重要进展,为更有效地建模复杂的非空间关系铺平了道路。
同样,Hellerstein [37] 讨论了处理表格数据的固有挑战,特别是当数据缺乏通常在其他数据类型(如图像或文本)中所见的网格状结构时。该研究重点在于自动化将非结构化表格转换为适合分析的整洁关系形式。它还引入了一个观点,即干净的数据表可以被视为单元格的网格,某种程度上类似于图像中的像素,其中相邻的行和列可能表现出模式。尽管深度学习模型在图像网格中的模式识别方面表现出色,但在表格数据中检测这些模式要困难得多,因为表格结构的多样性以及缺乏明确的空间关系。Ucar 等人 [1] 讨论了表格数据缺乏固有空间结构所带来的挑战。尽管图像数据受益于空间一致性(例如,相邻像素在空间上相关),文本或音频则受益于语义和时间结构,但表格数据缺乏这样的清晰模式。这使得应用常见的增强技术(如裁剪或旋转)变得困难,而这些技术在图像处理等领域非常有效。为了克服这些限制,作者提出了 SubTab 框架,该框架将表格数据的输入特征划分为子集,类似于特征袋装或图像裁剪,以生成数据的不同视图。
通过从这些子集中重建完整数据,该框架迫使模型在自我监督的环境中学习更好的表格数据表示,尽管缺乏网格状结构。这种方法使得模型能够发现表格数据中不立即显现的模式和关系,结果表明 SubTab 在各种数据集上可以达到最先进的性能。
为了改进这一方法,王和孙 [38] 引入了 TransTab,如下图 3 和图 4 所示,这是一种通过将行(样本)和列(特征)视为序列来编码表格数据的变换器模型。图 3 说明了 TransTab 处理转移学习、特征增量学习和零样本推理等任务的能力,展示了其在不同表格数据任务中的适应性。图 4 详细描述了框架,其中分类、二元和数值特征被标记并通过具有多头注意力的门控变换器进行处理,从而实现特征交互的高效学习。这种结构化的方法使 TransTab 能够处理可变列的表格,并促进知识转移,即使在具有不同结构的表格之间,也能实现更有效的学习和泛化。该模型专注于学习可泛化的表示,这些表示可以应用于不同的数据集,从而克服表格数据非空间性质所带来的限制。TransTab 中列和单元格的上下文化引入了一种结构化的方式来解释表格数据中的关系,从而实现更有效的学习和泛化。
在类似的努力中,Ghorbani 等人 [39] 引入了特征向量方法,该方法生成特征嵌入,捕捉特征之间的重要性和语义关系。受自然语言处理中的词嵌入启发,在同一上下文中频繁共现的词共享相似的嵌入,作者将类似的方法应用于表格数据中的特征。然而,由于表格数据缺乏自然的共现结构,作者建议使用决策树来提取特征之间的共现关系。通过分析基于树的模型中的决策路径,他们能够创建保留语义关系的特征嵌入,尽管表格数据的非空间特性。此外,Geisler 和 Binnig [40] 讨论了将现有模型解释方法(如局部可解释模型无关解释(LIME)和夏普利加性解释(SHAP))应用于表格数据的挑战。这些方法最初是为具有空间或时间关系的数据设计的,应用于表格数据时,往往由于缺乏明确的空间或顺序模式而效果不佳。为此,他们提出了 Quest 框架,该框架以专门针对表格数据的关系查询形式生成解释。Quest 使用替代模型和基于查询的解释来解决表格数据的独特结构,提供对模型行为更具语义丰富性和直观性的理解。通过关注关系查询谓词,Quest 不仅能够解释模型为何产生特定输出,还能够解释为何未产生替代输出。
图 3. TransTab 任务演示 [38]
图 4. TransTab 框架 [38]
Zhu 等人 [2] 解释道,当应用于具有空间或时间关系的数据时,卷积神经网络(CNN)表现优异,例如图像中像素的排列或文本的顺序特性,使它们能够通过卷积捕捉局部模式。然而,表格数据中缺乏这些结构对基于 CNN 的建模提出了重大挑战。为了解决这个挑战,作者提出了一种新算法,称为表格数据图像生成器(IGTD),该算法通过将表格特征分配到像素位置,同时保留特征关系,将表格数据转换为类似图像的结构。这种转换在数据中引入了一种空间关系,使 CNN 能够更有效地处理表格数据。研究表明,这些图像表示帮助 CNN 捕捉特征关系,并提高了与在原始表格数据上训练的模型相比的预测性能。IGTD 方法通过创建人工空间关系来解决表格数据中缺乏空间或顺序依赖性的问题,使其更兼容于为结构化数据设计的深度学习模型。
2.3 小型表格数据集中的过拟合
过拟合是一个过程,其中模型无法泛化,并且过于紧密地拟合训练数据集。它可能由于多种原因而发生,包括数据样本不足和训练集不足以充分代表所有潜在输入数据值。过拟合是深度学习中的一个重大挑战,尤其是在处理小数据集时,因为模型可能最终会记住训练数据,而不是学习可泛化的模式。为了解决这个问题,文献中提出了各种策略。其中一种显著的方法是迁移学习,即在一个大型相关数据集上预训练的模型在较小的目标数据集上进行微调。这有助于通过利用预训练模型中嵌入的先前知识来减轻过拟合,从而减少在目标领域中对大量数据的需求 [32, 41]。此外,还探讨了从表格数据生成图像的技术和卷积神经网络(CNN)的应用,以更有效地处理小数据集。在他们的研究中,Koppe 等人 [42] 强调了在小数据集上训练的深度学习模型中平衡偏差-方差权衡的重要性。他们认为,当模型捕捉到特定于训练数据的噪声和特征而不是可泛化的模式时,就会发生过拟合。为此,他们建议使用正则化技术,如 dropout,以及在模型训练过程中结合领域知识。这些方法有助于限制模型的灵活性,减少过拟合的可能性。LeCun 等人 [32] 指出,尽管深度网络可以学习复杂的表示,但它们的灵活性可能导致对训练数据的记忆。为了减轻这一问题,他们建议使用无监督预训练和数据增强,这已被证明在提高深度学习模型的泛化能力方面有效。
尽管深度学习在计算机视觉和自然语言处理等领域取得了显著进展,但其在表格数据上的应用却证明更加困难。这种差异可以归因于这些领域之间数据量和结构的根本差异。在计算机视觉和自然语言处理领域,大规模数据集(如包含数百万个标记图像的ImageNet和GPT-3的庞大语料库)帮助模型学习复杂的表示而不发生过拟合。相比之下,工程、医疗保健和金融等领域常见的表格数据集通常要小得多,仅包含数百或数千个样本。这一规模限制使得有效训练深度学习模型变得具有挑战性,并由于数据多样性不足而增加了过拟合的风险。如几项研究所述 [ 43 , 44 ] \left\lbrack {{43},{44}}\right\rbrack [43,44] ,深度学习模型在图像分类方面表现出色,因为它们能够从大量数据中学习,但在应用于小数据集时却表现不佳,导致过拟合。深度模型中参数数量众多(如卷积神经网络中的参数)在训练样本有限时进一步加剧了这一问题。同样,Jain等人 [41] 强调,深度学习模型在表格数据上往往表现不佳,原因在于数据集的异质性。依赖于大规模同质数据的深度模型(如在计算机视觉和自然语言处理中的表现)在表格数据使用的领域中往往无法很好地泛化,导致在仅经过几个周期后就发生过拟合。
为了克服这一问题,研究人员提出了几种方法来应对在小型表格数据集上训练深度学习模型的挑战。一种显著的方法是迁移学习,它在计算机视觉和自然语言处理的小型数据集中成功地减轻了过拟合。例如,赵 [43] 提出了结合数据增强的迁移学习,以解决小型数据集中的过拟合问题,如图 5 所示。通过在像 ImageNet 这样的大型数据集上预训练卷积神经网络(CNN),然后在较小的数据集上进行微调,模型可以利用之前学习的表示来提高在目标任务上的性能。贾因等人 [41] 将这一概念扩展到表格数据,通过使用 IGTD 和 SuperTML 等技术将表格数据集转换为图像表示。这些方法使深度学习模型,特别是 CNN,能够应用于表格数据,通过将其转化为图像格式,从而利用预训练模型,减少过拟合。霍伦科 [45] 引入了熵最优可扩展概率近似算法,以较低的计算成本突破过拟合障碍。巴杰 [46] 展示了小型语言模型在处理表格数据时的有效性,无需大量预处理,达到了创纪录的分类准确率。另一种有前景的解决方案是 Wydmański 等人 [47] 提出的 HyperTab 方法,该方法使用基于超网络的方法构建专门针对小型表格数据集的神经网络集成。图 6 显示了一般的 HyperTab 结构。通过采用特征子集作为数据增强的一种形式,HyperTab 实质上增加了训练样本的数量,而不改变参数的数量。这种方法通过防止过拟合,特别是在小型数据集上,使模型能够更好地泛化。
图 5. 预训练-TLCNN 中的迁移学习 [43]
3 表格深度学习的历史演变
3.1 经典方法
在深度学习出现之前,传统的机器学习模型,如支持向量机(SVM)、线性和逻辑回归以及基于树的方法,长期以来一直是表格数据分析的首选。这些经典方法非常适合小规模表格数据集,但仅限于分类和回归任务。这些模型不仅具有高度可解释性,使用户能够理解和解释预测结果,而且能够很好地处理数值和分类数据。它们非常适合小到中等规模的数据集,因为它们所需的计算能力较低,训练速度较快。尽管深度学习的兴起,这些传统模型在某些情况下仍然受到青睐。此外,它们更快的训练和部署时间使其非常适合需要实时决策的应用。这些经典方法非常适合小规模表格数据集,但仅限于分类和回归任务。然而,这些传统模型并非没有局限性。例如,Clark 等人指出,逻辑回归模型可能会遇到完全和准完全分离的问题,即模型要么完美地,要么几乎完美地分离数据。这可能导致极大的或无限的系数估计,使统计推断变得不可靠。此外,逻辑回归对小样本量特别敏感,尤其是在处理低频分类变量时,这可能会加剧分离问题。为了解决这个问题,通常会删除协变量或合并类别,但这样的做法可能导致过度简化并降低模型的预测能力。同样,Carreras 等人强调了 SVM 的几个缺点,特别是在软边际变体中。这些缺点包括过拟合的风险、涉及特征选择时计算复杂性的增加,以及优化问题的非凸性质,这使得寻找最优解变得复杂。此外,由于新参数导致相似解决方案,尽管权重变化,在多目标优化中实现完整的帕累托前沿是困难的。
图 6. 一般超表结构 [47]
在扩展传统模型(如支持向量机和逻辑回归)的优缺点时,决策树、朴素贝叶斯和早期神经网络等模型也依赖于手动特征工程,需要领域专业知识来选择相关特征 [51]。虽然这一过程劳动密集,但使这些模型在较小的数据集上表现有效。Abrar 和 Samad [52] 强调,尽管全连接深度神经网络近年来变得流行,但传统机器学习模型(如梯度提升树)在许多情况下仍优于深度学习模型,特别是在处理包含不相关变量的表格数据时。本研究强调,当深度模型失败时,传统模型(如梯度提升树)表现更佳,尤其是在缺乏现实世界数据中常见的强相关性的情况下。此外,这些经典模型不面临深度学习相关的过拟合挑战或高计算成本。与倾向于过度平滑数据关系的深度学习模型不同,基于树的方法能够准确划分特征空间并学习局部常数函数,使其在具有不规则目标函数的数据集上表现理想。这些模型对无信息特征(在表格数据集中常见)也更具鲁棒性,而神经网络,尤其是多层感知器(MLP),在处理无关或冗余特征时表现不佳,负面影响其性能 [53]。此外,基于树的模型保留了数据的原始方向,这在特征通常具有单独含义(如年龄或收入)的表格数据集中非常重要。基于树的模型通过以捕捉非线性关系的方式划分特征空间,出色地处理表格数据的复杂性,而深度学习模型往往难以做到这一点而不发生过拟合。Fayaz 等人 [54] 的研究发现,即使应用于大型数据集,传统模型(如 XGBoost)也始终优于最先进的深度学习模型,特别是在数据缺乏深度学习模型所依赖的强相关性时。
尽管基于树的模型在处理表格数据时提供了许多优势,但它们也面临着一些挑战。基于树的模型,如决策树,在处理表格数据时面临多个挑战。一个关键问题是可扩展性,特别是在处理大型数据集时 [55]。随着数据集复杂性的增加,决策树往往会变得很深,这显著增加了运行时间和计算成本。这个可扩展性问题在设计用于处理大型数据集的模型中尤为明显,因为它们在不牺牲准确性的情况下,难以平衡深度和大小。另一个主要缺点是过拟合,深层树往往会记住训练数据,包括噪声和无关特征,从而导致在未见数据上的泛化能力差 [56]。尽管像剪枝这样的技术可以帮助缓解这一问题,但它们可能会降低模型的准确性。传统的决策树还依赖于单变量分裂,这可能会过于简化表格数据中特征之间的复杂关系,常常导致不必要的大树。虽然多变量树可以捕捉更复杂的模式,但它们带来了额外的复杂性和降低的可解释性。此外,决策树通常在处理不平衡数据时表现不佳,因为它们往往对多数类存在偏见 [57]。需要使用像 SMOTE 或成本敏感学习这样的技术来解决这个问题,但这些方法会增加计算开销。此外,使用模型作为叶节点的决策树,称为模型树,在训练时间和复杂性上面临显著增加,特别是在评估大量候选分裂时,涉及广泛的特征。随着表格深度学习从经典方法转变,出现了基础模型,解决了许多基于树的方法的局限性。表 1 概述了这些关键模型,展示了它们的核心架构和训练方法,为现代表格深度学习中更先进的技术奠定了基础。
表 1. 表格数据的深度学习模型时间线(2016-2020)
3.2 浅层神经网络
最近的研究强调了将深度学习应用于表格数据所面临的持续挑战。尽管深度学习在图像和文本领域取得了成功,但基于树的模型,如 XGBoost 和随机森林,仍在中等规模的表格数据集上优于神经网络 [9]。即使经过广泛的超参数调优,这种性能差距仍然存在。研究人员已确定了开发特定于表格的神经网络的关键挑战,包括对无信息特征的鲁棒性、数据方向的保持以及学习不规则函数 [7, 70]。
Katzir 等人 [60] 引入了 Net-DNF 架构,嵌入了类似于梯度提升决策树 (GBDTs) 的归纳偏差,以解决全连接网络 (FCNs) 在表格数据任务中的不足。他们的实验表明,Net-DNF 在大规模表格数据集上优于传统的 FCNs,突显了常规神经架构在该领域的局限性。同样,Borisov 等人 [7] 对表格数据的深度神经网络提出了批评,指出早期对浅层和 FCN 的尝试往往未能与基于树的模型(如决策树和 GBDTs)的性能相匹配。他们强调,FCNs 在处理表格数据的独特挑战时面临困难,例如处理分类变量、缺失条目和不平衡数据集,并且仅靠特征工程通常难以缩小性能差距。与此一致,Abutbul 等人 [71] 提出了 DNF-Net,这是一种结合布尔逻辑和特征选择的神经架构,在大规模表格分类任务中始终优于 FCNs。Chauhan 和 Singh [72] 以及 Abrar 和 Samad [73] 同样认识到使用浅层网络(如 MLPs)处理表格数据,但强调了它们的局限性,包括过拟合和与更先进方法相比的研究重点有限。虽然 MLPs 有效,但在处理表格数据的复杂性时,往往被专门或更复杂的架构所超越。
浅层神经网络,特别是全连接网络(FCNs)在处理表格数据时,早期应用往往表现不如像梯度提升决策树(GBDTs)这样的专用模型。然而,最近的研究表明,通过适当的调优和架构增强,神经网络可以与GBDTs相媲美或超越它们。Chen等人[74]强调了浅层网络在处理无序表格数据方面的效率,而Erichson等人[75]则展示了它们在流体动力学等任务中的竞争力,在这些任务中,快速训练和正则化是关键优势。Rubachev等人[76]进一步指出,通过优化调优和无监督预训练等技术,浅层网络可以缩小与GBDTs之间的性能差距,尽管这种提升是依赖于具体上下文的。Fiedler[77]引入了结构创新,如泄漏门和幽灵批量归一化,这显著增强了多层感知器(MLPs)在表格数据上的表现,使其在多个案例中超越GBDTs。图7展示了原始和修改后的MLP+模型。这些进展表明,当浅层网络得到有效优化时,可以满足表格数据的独特挑战,并与传统模型竞争。
图7. 原始和修改后的MLP模型 [77]
这些发现与更广泛的共识一致,即标准的全连接网络架构通常缺乏有效建模表格数据复杂性所需的归纳偏置,如分类变量、缺失数据和不平衡数据集。通常需要专门的神经网络来解决这些挑战。然而,Grinsztajn等人[9]提供了更乐观的观点,证明浅层全连接网络(如MLPs)在结合正则化技术以减轻过拟合和泛化问题时,仍然可以保持竞争力。他们进一步建议,即使是简单的架构,如残差网络(ResNet),也可以与更先进的模型匹敌,这表明通过适当的修改,浅层网络在处理表格数据时仍然可以发挥重要作用。
3.3 初步突破
TabNet 和 NODE 代表了深度学习在表格数据应用中的重大进展,解决了性能、可解释性和效率方面的长期挑战。本研究探讨了这些模型如何应对表格数据固有的问题,例如处理异构特征和防止过拟合,同时引入了使其与经典机器学习方法和早期神经网络方法区分开来的创新。
3.3.1 TabNet。TabNet 是一种深度学习架构,专门设计用于解决将神经网络应用于表格数据所面临的挑战。与图像或文本数据不同,表格数据通常由异构特征组成,这使得传统深度学习模型(如多层感知器)难以有效捕捉特征之间的关系。由于能够处理表格数据复杂的决策边界,经典机器学习模型在这一领域通常表现出色。然而,深度学习提供了潜在的优势,例如端到端学习和与其他数据类型的集成能力,而 TabNet 通过其新颖的架构充分利用了这些优势。TabNet 引入了几项关键创新以克服这些挑战。TabNet 的一个核心特征是其顺序注意机制,允许模型动态选择每个决策步骤中最重要的特征 [24]。这种实例级特征选择使 TabNet 与其他模型区分开来,因为它可以为每个单独的输入量身定制所使用的特征,而不是依赖于所有实例的固定特征集。这种动态特征选择通过将模型的能力集中在最相关的特征上,从而导致更高效的学习,这对于可能包含无关或冗余信息的表格数据尤其有利。下图 8 显示了 TabNet 模型的编码器和解码器架构。
图 8. TabNet 编码器和解码器架构 [78]
TabNet 在可解释性方面相比于传统机器学习模型和传统神经网络提供了显著的进步。通过集成稀疏注意力和特征掩码,TabNet 提高了性能,同时提供了对哪些特征影响预测的洞察。这导致了局部和全局的可解释性,使得可视化单个特征的重要性和量化整体贡献成为可能 [79]。更新的 InterpreTabNet 在此基础上改进了特征归因方法,进一步增强了可解释性,并使模型的决策在局部和全局层面上更加透明 [78]。
TabNet 在处理原始表格数据方面表现出色,无需像传统模型(如 GBDTs)那样进行广泛的预处理或手动特征工程。其端到端学习能力使 TabNet 能够直接处理原始数据,简化工作流程,同时保持高性能。此外,TabNet 引入了自监督学习,这是一种针对表格数据的新颖特性,它可以通过掩码特征预测在未标记数据上进行预训练,以提高在监督任务上的性能,特别是在标记数据稀缺的情况下。在各种数据集上的评估显示,TabNet 在分类和回归任务中表现优于或与最先进的模型相匹配,包括 GBDTs。例如,在相分分类中,它的准确性优于传统的基于树的模型和其他深度学习架构,如 1D-CNNs 和 MLPs [79]。其灵活的架构结合了顺序特征变换器和注意力机制,增强了在不同领域的泛化能力,而稀疏注意力的使用确保了可解释性,解决了传统深度学习模型的一个关键局限性。
尽管 TabNet 在可解释性和稀疏注意力等方面具有创新,但在各种数据集上,它通常被 XGBoost 超越,需要更多的超参数调优,并且结果不够一致 [80]。此外,TabNet 的训练时间显著较长,使其在快速迭代或实时应用中不够实用 [81]。由于其复杂的架构,TabNet 在较小的数据集上容易过拟合,尤其是在未正确调优的情况下。
3.3.2 神经无记忆决策集成(NODE)。NODE 被提出以应对将深度学习应用于表格数据的特定挑战,而表格数据传统上由基于树的模型(如 GBDT)主导。Popov 等人(2019)识别了深度学习模型在处理表格数据时的主要局限性,主要是由于它们无法始终超越 GBDT。为了解决这一问题,NODE 被引入作为一种深度学习架构,能够概括无记忆决策树的集成,提供端到端的基于梯度的优化和多层次的层次表示学习。这种设计使 NODE 能够捕捉表格数据中的复杂特征交互,而传统的深度学习模型在这方面往往表现不佳。NODE 的一个关键创新是使用可微分的无记忆决策树,其中通过 entmax 转换进行分裂决策,从而实现软的、基于梯度的特征选择。这种方法使决策过程更加灵活和可微分,与依赖硬分裂的传统决策树不同。
此外,NODE 的多层架构旨在捕捉表格数据中的浅层和深层交互,有效地作为一个深度、完全可微分的 GBDT 模型,通过反向传播进行端到端训练 [62]。NODE 的架构堆叠了多个可微分的无意识决策树层,使得 NODE 在许多任务中优于现有的基于树的模型。此外,NODE 通过允许特征选择器的预计算来增强计算效率,显著加快推理速度而不牺牲准确性。Joseph [82] 在 PyTorch Tabular 框架中探索了 NODE,该框架通过提供一个统一的 API,将 NODE 和 TabNet 集成在一起,从而简化了表格数据的深度学习。该框架解决了与传统机器学习库(如 Scikit-learn)相比,训练深度学习模型的复杂性,使得先进模型对从业者和研究人员更易于访问。Fayaz 等人 [80] 比较了 NODE、TabNet 和 XGBoost,指出虽然 NODE 引入了处理混合数据类型和数据不平衡等关键创新,但通常需要比 XGBoost 更多的超参数调优。然而,将 NODE 与 XGBoost 结合可以增强性能,显示出 NODE 在补充传统模型以处理表格数据方面的优势。
4 表格深度学习的最新进展
尽管之前的研究 [7] 提供了关于表格数据深度学习的结构化概述,重点关注处理分类变量、数据转换和模型比较等挑战,但本次调查采取了不同的方法,强调该领域的历史演变和算法进步。我们突出了更近期模型的发展,如 Mam-baNet、SwitchTab 和 TP-BERTa,展示了这些架构如何演变以应对表格数据的独特复杂性。通过探索注意机制、混合架构和其他近期突破的进展,本次调查强调了深度学习模型向更高效、可扩展和可解释解决方案的转变。与之前的工作不同,本研究并不专注于模型比较,因为对模型的全面评估需要针对各种类型的表格数据进行单独分析。
在快速发展的表格深度学习领域,每年都有显著的改进,新架构不断涌现,以应对表格数据日益增加的复杂性。最近的模型,如 HyperTab 和 GANDALF,推动了可扩展性和可解释性的界限,提供了处理异构特征和高维数据的增强方法。这些新架构建立在基础工作之上,导致相较于传统方法的显著性能提升。如图 9 所示,表格深度学习的演变突出了关键贡献,从 2019 年的 Semek 等人 [83] 和 Arik 等人 [24] 到最近的发展,按引用次数排列,以展示该研究日益增长的影响。
图 9. 表格深度学习论文的时间线
基于这些发展,表 2 展示了这一时期引入的主要模型的时间线,详细说明了它们的架构和关键性能特征。这些模型突出了表格深度学习中的重大突破,从混合架构到先进的注意机制,推动了性能和可扩展性的提升。
表 2. 表格数据的深度学习模型时间线 (2021-22)
4.1 TabTransformer
TabTransformer 模型通过利用注意力机制和混合架构在表格深度学习中引入了显著的进展,以应对表格数据所带来的独特挑战 [19]。在其核心,TabTransformer 采用了从传统用于自然语言处理的 Transformer 架构中改编的多头自注意力层,以捕捉数据集中的复杂特征交互和依赖关系,如图 10 所示。该注意力机制使得模型能够有效捕捉特征之间的关系,特别适用于具有众多类别变量的数据集。
TabTransformer 架构将 Transformer 层与 MLP 组件相结合,形成了一种针对表格数据优化的混合结构。类别特征通过列嵌入层进行嵌入,该层将每个类别转换为稠密的可学习表示。这些嵌入通过 Transformer 层传递,后者聚合来自其他特征的上下文信息以捕捉相互依赖关系。上下文化的类别特征随后与连续特征连接,并通过 MLP 进行最终预测。该设计利用了类别数据的上下文学习优势和连续数据的传统 MLP 优势。此外,TabTransformer 还结合了掩蔽语言建模和替换标记检测,使其能够在大量未标记数据上进行预训练,从而在低标记数据场景中提高性能,并使其在实际应用中有效。
图 10. TabTransformer 架构 [19]
最近在 TabTransformer 模型方面的进展,例如 Vyas 提出的自监督 TabTransformer [94],通过在预训练阶段利用 MLM 从未标记数据中学习,进一步优化了这一架构。这种自监督方法通过自注意机制捕捉复杂的特征依赖关系,从而增强了模型的泛化能力。通过将 Transformer 层与 MLP 结合用于最终预测,该模型有效地处理混合数据类型和较小的数据集规模。然而,尽管模型在半监督设置中表现出强大的性能提升,但依赖于掩码语言建模预训练增加了计算开销,可能限制了可扩展性。可解释性保持在中等水平,注意力分数提供了对特征重要性的洞察,尽管该模型的可解释性低于传统模型,如 GBDT。
另一个重要的进展是 Cholakov 和 Kolev 提出的 GatedTabTransformer [95],它通过引入门控多层感知器增强了原始的 TabTransformer。这一修改改善了模型捕捉跨标记交互的能力,采用空间门控单元。与标准 TabTransformer 相比,GatedTabTransformer 在 AUROC 上的性能提升约为 1%,特别是在二元分类任务中。然而,由于空间门控单元所需的额外处理,这增加了计算复杂性。尽管模型显示出性能提升,但与 MLP 或 GBDT 等更简单模型相比,其可扩展性和可解释性仍然有限。
因此,尽管 TabTransformer 模型在通过注意机制和混合架构处理表格数据方面提供了显著改进,但在性能、可扩展性和可解释性方面存在权衡。最近的变体,如自监督 TabTransformer 和 GatedTabTransformer,展示了这些模型超越传统方法的潜力,尽管这需要更高的计算需求。
4.2 FT-Transformer
FT-Transformer 模型,由 Gorishniy 等人提出 [96],通过利用注意力机制、混合架构和基于变换器的方法,提出了一种新颖的方法来应对表格数据固有的挑战。该模型调整了原本为自然语言处理等任务设计的注意力机制,以处理表格数据。在这种情况下,注意力机制使模型能够捕捉异构特征之间的复杂关系,包括数值数据和分类数据,如图 11 所示。通过使用注意力动态优先考虑某些特征,该模型有效地建模了在传统表格数据方法中通常难以检测的交互。
图 11. FT-Transformer 架构 [96]
除了注意力机制,FT-Transformer 还采用了一种混合架构,集成了特征标记化。这个过程将数值特征和分类特征转换为嵌入,然后通过变换器架构的层进行处理。最终结果是一个高度灵活的模型,能够处理多种类型的表格数据,这对于特征类型和分布可能差异很大的任务来说是一个关键优势。这种混合设计将传统特征编码方法与基于变换器的方法的强大学习能力相结合,使得在不同数据集之间更好地进行泛化。
最近的研究表明,FT-Transformer 在各种应用中的有效性。在心力衰竭预后领域,FT-Transformer 通过捕捉医疗特征(如人口统计和临床数据)之间的非线性相互作用,超越了传统模型,如随机森林和逻辑回归 [97]。注意机制的使用使模型能够动态优先考虑重要的健康指标,从而导致更准确的预测。同样,在入侵检测系统中,FT-Transformer 在识别网络异常方面显示出更高的准确性,通过处理网络流量数据的高度结构化特性 [98]。混合架构无缝整合了分类和数值特征,提高了模型检测已知和未知威胁的能力。此外,堆叠多个变换器层等进展被用来进一步增强模型捕捉数据中长程依赖关系的能力,使其在复杂任务中更加有效 [99]。尽管 FT-Transformer 模型在各种表格任务上表现出比其他模型(如 ResNet 和 MLP)更好的性能,但它也存在某些权衡。在可解释性方面,模型的复杂性带来了挑战。传统模型如 GBDT 提供了更清晰的可解释性,因为它们的决策过程更加透明。相比之下,FT-Transformer 对注意机制和深层的依赖使其更难以解释,尽管注意分数确实提供了一些关于特征重要性的洞察。此外,模型的可扩展性也是一个考虑因素;基于变换器的模型的计算需求,特别是注意机制随着特征数量的平方扩展,可能在应用于大规模数据集时成为限制。尽管存在这些限制,FT-Transformer 在不同数据集上的泛化能力使其成为表格数据分析的一个有前景的模型,提供了预测性能的显著进步。
基于这些进展,我们展示了 TabNet 和 FT-Transformer 之间的性能和对数损失比较。如图 12 所示,随着随机搜索迭代次数的增加,FT-Transformer 始终表现出优越的性能,而两个模型的对数损失以不同的速度下降。这一比较突显了 FT-Transformer 在更大搜索空间中相较于 TabNet 的增强泛化能力。虽然该图提供了性能差异的示例,但与之前关于表格深度学习的调查 [7] 不同,我们并未提供所有表格深度学习模型的比较,因为对多个模型和多样数据集的全面评估超出了本次调查的范围。未来的研究应旨在进行更广泛的性能评估,以全面检验这些模型的优缺点。
4.3 DeepGBM
DeepGBM 模型代表了一种创新的方法,旨在解决深度学习中表格数据的挑战,利用了注意力机制、混合架构和知识蒸馏等先进技术的组合 [63]。虽然该模型并未明确采用传统的注意力机制,但它结合了来自 GBDT 的特征重要性,这一方法使得模型能够优先考虑某些特征而非其他特征。这个过程通过将模型的注意力引导到最具信息量的特征上,模仿了注意力机制,而不是将所有输入视为同等重要。通过强调最相关的特征,DeepGBM 增强了其处理稀疏类别和密集数值数据的能力,这是表格数据任务中的一个关键要求。
最近在表格深度学习方面的进展进一步强调了 DeepGBM 在结合神经网络与 GBDT 以实现性能提升方面的作用。特别是,该模型的混合架构利用 CatNN 通过嵌入和因式分解机处理稀疏类别特征,并利用 GBDT2NN 将 GBDT 的输出转换为神经网络格式。
图 12. TabNet 和 FT-Transformer 模型的性能和对数损失
针对密集数值特征进行优化 [100]。图13展示了DeepGBM的结构。这种集成使DeepGBM能够利用两种模型类型的优势,克服传统方法在统一框架中处理混合特征类型的局限性。
图13. DeepGBM框架 [63]
尽管DeepGBM并未直接实现变换器模型,但它借鉴了基于变换器架构的思想,特别是在知识蒸馏的形式上。通过将从GBDT树中获得的知识蒸馏到神经网络中,不仅包括预测结果,还包括树结构和特征重要性,DeepGBM保留了GBDT的优势,同时增强了其学习能力 [101]。这与变换器如何使用蒸馏来简化复杂模型而保持性能的方式相似。
DeepGBM在性能、可解释性和可扩展性之间的权衡反映了表格深度学习中的更广泛挑战。DeepGBM通过结合GBDT和神经网络实现了更高的准确性,但牺牲了一些可解释性,因为神经网络组件的复杂性降低了通常与基于树的模型相关的透明度。可扩展性也是一个挑战,因为神经网络元素需要更大的计算资源。然而,像WindTunnel这样的模型已经表明,这种方法可以提高准确性,同时保持原始GBDT的一些结构优势 [101]。这些权衡必须根据应用进行仔细平衡,因为DeepGBM在性能和效率方面表现出色,特别是在大规模和实时应用中。
4.4 用于表格数据的深度注意网络(DANets)
在最近的表格深度学习进展中,DANets模型利用注意力机制、混合架构和基于变换器的方法来解决特定于表格数据处理的挑战。DANets的一个关键创新是使用动态特征选择过程,通过可学习的稀疏掩码[102]识别和强调相关特征。这种基于Entmax稀疏映射的方法使模型能够在网络的每个阶段选择性地关注最重要的特征,从而增强其从数据中抽象出有意义表示的能力。该机制类似于变换器模型中使用的注意力机制,但特别针对表格数据的不规则和异构特性进行了调整。
图14. (a) DANets抽象层 (b) 第i个基本块 [102]
DANets还结合了混合架构,融合了特征分组和层次抽象过程,类似于卷积神经网络(CNN),但针对表格数据的独特结构进行了调整。如图14所示,引入抽象层(ABSTLAY)使模型能够对相关特征进行分组,并通过连续的层抽象出更高层次的表示。此外,采用了快捷路径,允许原始特征在网络的更高层次重新引入,从而确保关键信息得以保留,并增强模型的鲁棒性,特别是在更深的架构中。这种设计类似于ResNet风格的连接,其中残差路径防止信息丢失和在更深网络中的退化,从而提升性能。
DANets 通过使用动态加权和类似注意力的机制,结合了受变换器启发的思想,使模型能够在特征选择和抽象过程中选择性地关注重要特征。尽管这不是变换器模型的直接应用,但这些方法改善了表格数据的处理并提升了性能,使 DANets 优于传统模型如 XGBoost 和神经网络如 TabNet。然而,这种性能提升以降低可解释性为代价。虽然基于注意力的特征选择提供了对特定特征重要性的洞察,但层次抽象的复杂性模糊了决策过程,使其不如决策树等简单模型透明。为了解决可扩展性问题,DANets 利用结构重参数化,减少推理过程中的计算复杂性,使得在不增加过高计算成本的情况下能够使用更深的网络。尽管更深的架构带来了性能提升,但研究指出,由于表格数据中有限的特征空间,额外的深度所带来的收益递减。
4.5 自注意力与样本间注意力(SAINT)
最近在表格深度学习方面的进展利用了注意力机制和基于变换器的方法,以应对表格数据处理中的挑战。SAINT 模型通过整合注意力机制、混合架构和基于变换器的方法,利用表格深度学习的最新进展,以克服表格数据的独特挑战。SAINT 使用两种类型的注意力机制:自注意力和样本间注意力 [25]。自注意力使模型能够捕捉单个数据样本内特征之间的复杂相关性,使其能够建模简单模型可能忽略的关系。样本间注意力作为一种新颖的补充,使模型能够将一行(数据点)与其他行进行比较,从而实现基于整个数据集模式的动态学习过程。这种机制在某些特征可能存在噪声或不完整的情况下非常有用,因为模型可以从其他相似的数据点中学习。
SAINT的混合架构结合了自注意力和样本间注意力,以创建一个综合学习系统。SAINT的先进架构在软件缺陷预测任务中也显示出了强大的效果 [103]。通过利用注意力机制和基于变换器的方法,SAINT有效地处理数据点之间的复杂交互,提高了缺陷预测性能。它在处理混合数据类型时,始终优于传统模型,如XGBoost和随机森林。然而,尽管SAINT提供了更高的准确性,其复杂性由于包含样本间注意力而影响了可解释性,使其不如简单模型直观。此外,SAINT的注意力机制所带来的计算需求可能在处理更大数据集时造成可扩展性挑战。
除了这些创新,SAINTENS作为SAINT的改进版本,进一步增强了模型处理表格数据的能力,解决了SAINT的一些局限性 [104]。SAINTENS采用相同的注意力机制,但包括一个多层感知器集成,以提高在处理缺失或噪声数据时的鲁棒性。这种方法,加上对比预训练和增强技术,如Mixup和Cutmix,使SAINTENS能够生成更强的数据表示,特别是在缺失值常见的医疗数据集中。这些增强之间的权衡体现在三个关键领域:性能、可解释性和可扩展性。在性能方面,SAINT和SAINTENS始终优于传统机器学习模型,如GBDT和深度学习模型,如TabNet,尤其是在处理混合特征类型和标记数据有限的数据集时。SAINT的注意力机制提供了一定程度的可解释性,使用户能够可视化重要特征和数据点。然而,样本间注意力引入的复杂性使其比简单模型更难以直观解释。最后,尽管SAINT和SAINTENS在大型数据集上表现良好,但注意力机制,特别是样本间注意力的计算需求,可能使这些模型在处理更大数据集时更具资源密集性。
4.6 表格 BERT (TaBERT)
TaBERT 模型通过结合注意力机制、混合架构和基于变换器的方法来解决表格数据的挑战。TaBERT 的一个关键创新是其使用的注意力机制,特别是垂直自注意力机制,该机制在跨行的垂直对齐表格单元表示上运行 [105]。这使得模型能够捕捉不同行之间的依赖关系,并通过关注与给定自然语言查询相关的列和行,从而更好地表示表格数据。虽然该机制提高了处理表格结构的性能,但也引入了额外的计算复杂性,使其在处理非常大的数据集或包含众多行的表格时可扩展性较差。图 15 说明了 TaBERT 架构,该架构共同处理自然语言表达和表格模式。它突出了模型如何使用多头注意力和池化机制捕捉文本和表格结构,从而为下游任务(如语义解析)生成统一的表示。
图 15. TaBERT 方法的概述,用于共同学习自然语言表达和表格模式的表示,使用来自 WikiTableQuestions 的示例 [105]
在架构方面,TaBERT 使用了一种称为内容快照的混合方法,以减少计算开销。TaBERT 并不是对表格中的所有行进行编码,这样成本较高,而是选择与自然语言查询最相关的行的子集。这使得模型能够保留有效的文本与表格之间共同推理所需的关键信息,同时减少处理不必要数据的负担。然而,这也带来了权衡:虽然内容快照有助于将模型扩展到更大的表格,但如果所选行未能充分代表表格的完整结构和内容,则有丢失关键信息的风险。
基于变压器的预训练框架,TaBERT 通过学习自然语言和结构化数据(表格)的表示而受益。该模型在一个包含 2600 万个表格及其对应文本的大型语料库上进行预训练,采用类似 BERT 的掩码语言建模目标,并结合表格特定目标,如掩码列预测和单元格值恢复。这种预训练提高了模型对文本和表格数据进行对齐的能力,以便于下游任务,如语义解析。
在评估性能与可解释性时,TaBERT 在语义解析等任务中表现出色,在 WikiTableQuestions 等基准测试中超越了 BERT 等模型,如图 15 所示。然而,变压器和注意力机制引入的复杂性使得 TaBERT 的可解释性低于更简单的机器学习模型,如决策树,后者能为其决策提供更直接的解释。在可扩展性方面,内容快照机制帮助模型更有效地处理更大的表格,但这也带来了未能完全捕捉表格信息的风险。
4.7 使用缩放指数线性单元的表格变换器 (TabTranSELU)
TabTranSELU 模型结合了表格深度学习的多个最新进展,利用注意力机制、混合架构和基于变换器的方法来应对表格数据的独特挑战。一个关键的创新是使用自注意力机制,这使得模型能够捕捉表格数据集中不同特征之间的依赖关系 [26]。这种自注意力方法对于识别输入特征之间的关系至关重要,因为表格数据缺乏图像或文本所具有的固有结构,这使得这一任务特别具有挑战性。注意力机制通过将输入转换为查询、键和值矩阵来计算分数,从而使模型能够确定不同特征的加权重要性。这有助于模型更有效地学习特征间的关系,最终提高其预测性能。图 16 显示了 TabTranSELU 模型中使用的输入、变换器和密集层。
图 16. TabTranSELU 框架 [26]
该模型还采用了混合架构,通过简化结构来调整传统的变换器设计以适应表格数据。与自然语言处理任务中使用的完整编码器和解码器层堆栈不同,TabTranSELU 仅使用一个编码器和解码器层。这种复杂性的减少有助于将架构调整为表格数据的特定需求,而不牺牲性能。此外,该模型整合了神经网络和变换器的元素,使其能够同等有效地处理分类特征和连续特征。这些特征通过嵌入层分别处理,其中分类特征类似于自然语言处理中的标记,而数值特征则经过位置编码,以保留其在不同数据实例中的重要性。
TabTranSELU 模型最显著的改进之一是将整流线性单元(ReLU)激活替换为缩放指数线性单元(SELU),解决了“死亡 ReLU”问题,而这一问题在表格数据中由于负值的存在而加剧。SELU 保留了正值和负值,防止在训练过程中潜在信息的丢失,使其更适合表格数据集。此外,对数值特征使用位置编码可以保留其顺序和重要性,从而增强模型处理连续数据的能力。在性能方面,TabTranSELU 相较于传统算法(如梯度提升决策树,例如 XGBoost)表现出竞争力的准确性,在较大数据集上仅有 0.2% 的微小差距。它在与类似的基于变换器的模型(包括 TabTransformer)比较时也表现良好,使其在预测任务中非常有效,尽管为了更广泛的功能而牺牲了一小部分性能。
可解释性是 TabTranSELU 模型的一大优势,其嵌入层提供了对特征之间关系的清晰理解。对嵌入应用主成分分析等技术使用户能够可视化特征和类别之间的互动,提供了有价值的见解,尤其是在处理匿名或不熟悉的数据集时,这些见解通常是传统深度学习方法难以实现的。除了可解释性外,该模型在可扩展性方面也表现出色。通过减少层数并结合 SELU 激活函数,它变得更加简化,并且与传统的变换器模型相比,计算需求更低,使其更适合处理较大的数据集,并且在资源需求最小的情况下更高效地进行训练。总体而言,TabTranSELU 在性能、可解释性和可扩展性之间取得了有效的平衡,使其成为各种表格数据应用的强大选择。虽然我们已经讨论了 2022 年至 2024 年的几种模型,但重要的是要注意,2022 年的一篇先前调查论文 [7] 并未包括这些较新的研究。接下来的部分将探讨最新的架构创新和推动边界更进一步的模型,标志着表格深度学习演变的新阶段。
4.8 新架构与创新
最近几年,针对表格数据的深度学习模型的发展加速,新的架构不断涌现,以应对这一领域日益增长的复杂性。下面的表3突出展示了2023年至2024年间引入的关键模型,包括LF-Transformer和ReConTab等创新方法,这些方法利用先进的基于变换器的和混合技术来解决特征交互和噪声等挑战。该表还概述了它们的架构、训练效率和显著特征,提供了该领域最新进展的快照。例如,LF-Transformer采用行级和列级注意机制来捕捉复杂的特征交互,使用矩阵分解和潜在因子嵌入来提高预测准确性,特别是在嘈杂或不完整的数据集中[106]。该模型在回归和分类任务中表现出色,尽管其复杂性降低了可解释性,并增加了对更大数据集的计算需求。同样,ReConTab利用基于变换器的非对称自编码器从原始数据中提取关键信息,结合特征损坏技术以增强模型的鲁棒性,尽管增加的复杂性导致了更高的计算成本和降低的透明度[5]。GNN4TDL也基于变换器自编码器结构,利用特征损坏来提高对噪声的鲁棒性和泛化能力,尽管在可扩展性和可解释性方面面临挑战[27]。
表3. 表格数据的深度学习模型时间线(2023-24)
扩展变换器模型的范围,MambaTab 将结构化状态空间模型与特征增量学习相结合,比标准自注意力机制更有效地捕捉表格数据中的长距离依赖关系 [3]。MambaTab 适应不断变化的特征集的能力增强了其可扩展性,但牺牲了可解释性,缺乏在 TabNet 等模型中解释特征重要性的注意力机制。SwitchTab 采用不对称的编码器-解码器架构,通过独立的投影器解耦互相和显著特征,从而改善表格数据中的特征表示 [6]。通过使用基于特征损坏的方法,SwitchTab 提升了性能和可解释性,但其复杂性影响了可扩展性,使其在非常大的数据集上效率较低。上下文感知表项表示 (CARTE) 也利用先进的架构,将图神经网络 (GNN) 与图注意力层结合,以将每个表行表示为图小体,使模型能够捕捉表格之间复杂的上下文关系 [108]。CARTE 在迁移学习方面表现出色,并在异构数据集上表现良好,尽管其图注意力机制在处理大数据集时降低了可解释性和可扩展性。
在标记化和基于提示的模型领域,TP-BERTa 通过应用相对大小标记化 (RMT) 将标量数值转换为离散标记,有效地将数值数据视为语言模型框架中的单词 [107]。此外,其内部特征注意力 (IFA) 模块将特征名称和数值统一为一致的表示,减少了特征干扰并提高了预测准确性。然而,与梯度提升决策树等更简单的模型相比,这种深度集成影响了可解释性。Trompt 采用受提示启发的学习,通过使用列和提示嵌入来推导样本特定的特征重要性,从而为每个数据实例量身定制特征的相关性 [112]。虽然 Trompt 提升了性能,尤其是在高度可变的表格数据集上,但其嵌入的抽象性质妨碍了可解释性并增加了复杂性。
其他几个模型结合了创新机制和现有架构,以解决表格数据的挑战。TabR 集成了一种检索增强机制,该机制利用基于 L2 的最近邻和前馈神经网络,通过从训练数据中检索相关上下文来增强局部学习 [110]。虽然这种方法显著提高了预测准确性,但在训练过程中引入了计算开销,影响了可扩展性。BiSHop 利用双向稀疏 Hopfield 模块以列和行的方式处理表格数据,捕捉特征内部和特征之间的交互 [109]。其专门的表格嵌入和可学习稀疏性提供了强大的性能,但以降低可解释性和更高的计算需求为代价,限制了其在更大数据集上的应用。
最后,增强超图的表格数据表示学习(HYTREL)使用超图结构感知变换器来解决表格数据中的结构挑战,将表格表示为超图,以捕捉复杂的单元格、行和列关系 [111]。这使得 HYTREL 能够保留关键的结构属性,并在列注释和表格相似性预测等任务上表现出色,尽管超图的复杂性降低了可解释性。TabLLM 是一种新颖的方法,它将表格数据序列化为自然语言字符串,以便大型语言模型(LLMs)能够像处理文本一样处理它 [84]。虽然在零样本和少样本学习场景中有效,但由于 LLMs 的高计算需求及其对表格数据的抽象表示,TabLLM 面临可扩展性问题和可解释性挑战。
5 架构与技术
5.1 注意机制
注意机制在增强特征选择、可解释性和性能方面已成为各种针对表格数据的深度学习模型中的关键。在像 TabNet 这样的模型中,注意机制在每个决策步骤中专注于最相关的特征,为每个单独样本量身定制特征选择。这种逐实例的特征选择提高了效率和泛化能力,使模型能够集中注意力于最关键的特征,同时最小化来自不太重要特征的干扰 [24]。类似地,TabTransformer 利用自注意力层将参数嵌入转换为上下文嵌入,使模型能够捕捉分类特征之间的依赖关系。这种转换允许更精细的特征选择,其中最相关的特征根据与其他特征的交互动态地被强调,从而在不同数据集上提高性能 [61]。图 17 进一步示例化了这一点,展示了如何在表格深度学习模型中应用多头自注意力(MHSA)在特征和样本之间。通过首先关注特征之间的关系,然后关注不同样本之间的关系,模型提高了其泛化能力并捕捉复杂特征交互的能力,从而增强了表格数据处理的准确性。
图 17. 使用 MHSA 优化表格数据分类和泛化的特征和样本注意力 [114]
在此基础上,SAINT 引入了自注意力和样本间注意力机制,以进一步优化特征选择。SAINT 中的自注意力机制专注于单个数据点内特征之间的交互,动态选择基于其关系的重要特征 [25]。这与 TabNet 强调实例特定特征选择相似,但通过捕捉特征之间更深层次的相互依赖关系而超越了这一点,从而提高了模型在异构数据集上的适应性和性能。SAINT 的新颖样本间注意力通过使数据点关注数据集中的其他样本,增加了另一层复杂性。这使得 SAINT 能够更好地处理噪声或缺失特征,通过借用相似样本的相关信息来增强能力,这在数据质量可能变化的现实世界数据集中尤为有用。这种跨样本注意力机制显著增强了特征选择,使模型在面对不完整或损坏数据时比传统模型如 GBDTs 和 MLPs 更加稳健。
TabNet [24] 和 TabTransformer [19] 都在可解释性方面取得了显著进展。TabNet 在局部和全局层面上运行,使用户能够理解哪些特征对个别预测有贡献,同时也提供了对整体模型行为的更广泛视角。这种透明性使得 TabNet 在理解特定样本的模型决策时特别有用。同样,SAINT 通过其基于注意力的结构提高了可解释性。在 SAINT 中,注意力图突出显示在预测过程中被优先考虑的特征和样本,使得追踪模型的决策过程和可视化特征重要性变得更加容易。TabTransformer 通过生成上下文嵌入,将语义相似的特征聚集在嵌入空间中,从而增强了可解释性。这种聚类促进了特征关系的更易可视化和解释,使模型更加透明。
在特征选择方面,TabNet 将注意力直接整合到学习过程中,同时优化特征选择和模型训练。与传统方法如前向选择或 Lasso 正则化不同,后者在整个数据集上应用统一选择,TabNet 的实例级选择适应每个样本的具体需求,从而导致更紧凑的特征表示和降低过拟合风险。InterpreTabNet 是对 TabNet 的改进,进一步增强了这些能力,采用了 MLP-注意力变换器和 Entmax 激活函数,从而实现更精确的特征选择 [78]。类似地,TabTransformer 的多头自注意力机制使模型能够动态捕捉数据集中的特征交互。通过关注所有其他特征,它有效地选择出最关键的特征,同时忽略无关数据,从而增强模型对噪声或缺失数据的鲁棒性。SAINT 通过利用样本间注意力扩展了这一概念,使特征能够在不同样本之间相互作用。这一机制不仅改善了特征选择,还为模型同时从多个数据点学习提供了一种方式,增强了其对缺失或噪声数据的抵抗力。SAINT 的特征编码方法将分类特征和连续特征投影到共享嵌入空间中,也优于传统编码技术,使模型能够以统一的方式学习所有特征类型。
TabNet 和 TabTransformer 以及 SAINT 在通过其注意力机制处理表格数据方面展示了显著的进展,提供了鲁棒性、适应性和透明性。TabNet 的基于注意力的方法增强了梯度传播和泛化能力,而 TabTransformer 在处理噪声和缺失数据方面表现出色,使这两种模型适合于数据缺陷普遍存在的现实应用。SAINT 在这些优势的基础上引入了样本间注意力,使模型能够学习样本之间的关系,进一步增强其处理复杂数据分布的能力。此外,TabTransformer 和 SAINT 在半监督学习场景中对未标记数据的预训练使它们能够优化特征表示,与依赖于标记数据的模型相比,提升了性能。
5.2 混合架构
混合架构,如 NODE 和 DeepGBM,利用决策树和神经网络的优势来增强泛化能力、捕捉复杂特征交互并改善在表格数据上的表现。这两种模型利用了决策树提供的可解释性和高效特征分割,同时受益于深度神经网络典型的基于梯度的优化和层次表示学习。决策树和神经网络之间的这种协同作用使得这些混合架构能够克服传统模型在处理表格数据时面临的局限性,而深度学习模型在与决策树等较浅模型相比时往往表现不佳。
NODE 使用可微分的无记忆决策树,这是一种变体,其中相同深度的所有内部节点使用相同的分裂特征和阈值,这使得 NODE 能够将决策树固有的可解释性与神经网络的反向传播能力相结合 [62]。这种结构通过将决策树组织成多层架构,类似于深度神经网络,从而促进了高阶特征交互的学习,增强了泛化能力。同样,DeepGBM 在此概念的基础上构建,包含两个主要组件:CatNN,专注于处理稀疏类别特征,以及 GBDT2NN,它将 GBDT 的知识提炼到神经网络模型中,以有效处理密集数值特征 [63]。GBDT2NN 组件利用 GBDT 高效处理数值特征的能力,同时利用神经网络在捕捉复杂特征交互方面的灵活性。通过这种方式,NODE 和 DeepGBM 都能够表示数据中的复杂模式,提高在传统上由更简单模型如 GBDT 主导的任务的性能,并增强表格数据预测的有效性。
然而,这两种架构都引入了与复杂性增加相关的挑战。NODE 的可微分决策树和多层结构增加了计算开销,使得训练相比于更简单的 GBDT 模型更加资源密集。同样,DeepGBM 的蒸馏过程涉及学习叶嵌入和管理多个树,这也引入了额外的计算成本。这两种模型都需要仔细的超参数调整以优化性能,这可能使它们在实践中更难使用。诸如层数、树的深度、树组和输出维度等参数必须仔细调整,以避免过拟合并确保最佳学习。这些复杂性可能增加 NODE 和 DeepGBM 的训练时间和资源需求,使它们在推理速度方面相比于 GBDT 对手显得效率较低。尽管如此,当有效实施时,这两种模型在推理效率上与 GBDT 相当,但由于额外的可微分优化和知识蒸馏层,NODE 和 DeepGBM 的训练过程往往更长。
5.3 正则化与优化技术
Kadra 等人 [90] 探讨了正则化技术(如 Mixup、Dropout 和 Weight Decay)在缓解小型表格数据集深度学习模型过拟合方面的有效性。这些方法通过限制权重大小(Weight Decay)、通过随机失活防止神经元共同适应(Dropout)以及通过在训练样本之间插值生成合成数据(Mixup)来增强泛化能力。尽管这些技术在性能上优于传统方法,如 GBDT,但也存在权衡,包括可解释性的降低和需要仔细调整超参数以保持稳定性。“正则化鸡尾酒”这一概念结合多种方法进一步表明,良好正则化的模型在表格数据上可以超越传统和深度学习方法。Abrar 和 Samad [73] 也强调了 Dropout 和 Weight Decay 在对抗表格数据集过拟合中的作用,特别指出 Dropout 通过迫使网络学习多样化特征表示来提高泛化能力。他们提出了一种新颖的周期性权重扰动方法,该方法在训练过程中修剪和重新生长权重,实现模型压缩与准确性之间的平衡。这种方法在提高模型泛化能力的同时,超越了传统权重修剪,尽管由于生成模型的稀疏性,它引入了与模型可解释性相关的挑战。Darabi 等人 [115] 进一步证明了 Mixup 在增强泛化能力方面的有效性,特别是通过对比 Mixup,该方法在潜在空间中插值样本,以避免生成不现实的数据点。这提高了模型的稳定性并平滑了决策边界,但由于潜在空间中的变换,导致可解释性降低。
Shavitt 和 Segal [67] 采用了一种不同的方法,即正则化学习网络,该网络根据特征重要性为每个权重分配不同的正则化系数。这允许对稀疏性进行精细控制,减少过拟合,同时保持可解释性。正则化学习网络在模型复杂性和稳定性之间取得了平衡,尽管它们需要复杂的超参数调整。同样,Lounici 等 [116] 引入了用于正则化的混淆标签 (MLR) 技术,该技术使用标签置换和结构化抖动来惩罚记忆化并改善泛化。MLR 专门针对小型表格数据集,提供了一种有效的替代方案,取代了 Dropout 和权重衰减,通过保持模型灵活性来减少过拟合,尽管这可能会增加模型复杂性。
6 训练策略
6.1 数据增强
数据增强技术,如 SMOTE、基于 GAN 的方法和变分自编码器 (VAEs),在提高深度学习模型在表格数据上的性能方面表现出不同程度的有效性,特别是在解决类别不平衡和小数据集问题时。SMOTE 是经典技术之一,已被广泛用于通过生成合成样本来过采样少数类 [117]。它通过在特征空间中对现有数据点进行插值来实现,这有助于缓解类别不平衡问题,并可以增强模型在不平衡数据集中的性能。然而,尽管 SMOTE 在处理分类特征时表现良好,但在处理连续变量时却存在困难,正如在使用乳腺癌和信用卡欺诈数据集的实验中所指出的 [117]。该技术在处理分类数据时可能难以保持特征分布,导致生成的合成样本不够真实,可能无法完全捕捉原始数据集的复杂性。Wang 和 Pai [118] 同样指出,尽管 SMOTE 对于初始数据扩展有效,但并未生成足够多样和真实的数据,限制了其在更复杂数据集中的实用性。
基于 GAN 的方法,特别是条件表格 GAN (CTGAN) 和带有梯度惩罚的 Wasserstein GAN (WCGAN-GP),已成为表格数据增强的更先进技术。这些方法在处理包含连续和分类特征的混合类型表格数据时,表现出比传统技术(如 SMOTE)更好的性能。Camino 等人 [119] 强调了使用 GAN 进行少数类过采样相较于 SMOTE 的优势,强调 GAN 能生成更真实和多样的样本。然而,他们也指出了特定于表格数据的挑战,例如处理离散输出的困难和模式崩溃,即 GAN 未能生成足够多样化的数据集。Jeong 等人 [120] 介绍了 BAMTGAN,这是一种 GAN 的变体,结合了相似性损失,以确保生成的数据保持原始分布并避免模式崩溃。尽管有所改进,但平衡样本多样性和真实性的挑战仍然存在。
CTGAN 通过引入特定模式的归一化和使用条件生成器来管理类别不平衡,解决了表格数据固有的几个挑战,例如处理非高斯和多模态分布(Xu et al. [121])。Sauber-Cole 和 Khoshgoftaar [122] 对使用 GAN 解决表格数据中的类别不平衡进行了广泛的调查。GAN 因生成逼真的少数类样本和改善不平衡数据集上的模型性能而受到赞誉。然而,诸如模式崩溃等挑战依然显著——即 GAN 未能捕捉少数类的多样性并维持逼真的特征分布,特别是在分类数据方面。尽管存在这些问题,Sauber-Cole 和 Khoshgoftaar [122] 强调 Wasserstein GAN 和条件 GAN 是克服这些限制的有希望的解决方案。这使得 CTGAN 能够在保持基础数据分布的同时生成更逼真和多样化的合成数据。WCGAN-GP 通过缓解消失梯度和模式崩溃等问题进一步提高了 GAN 训练的稳定性,这些问题在标准 GAN 架构中很常见。与 SMOTE 相比,WCGAN-GP 已被证明能生成更好地保留数据模式和关系的合成数据,最终导致更好的模型性能和更高的隐私保护 [123]。结合 SMOTE 和基于 GAN 的方法的混合方法解决了独立模型面临的挑战。Wang 和 Pai [118] 引入了一种混合模型,使用 SMOTE 来增强小数据集,随后使用 WCGAN-GP 生成多样化和逼真的合成数据。这种组合利用了 SMOTE 的统计一致性和 WCGAN-GP 防止过拟合的能力,生成高质量数据,同时保持特征分布,使其成为表格数据增强的有效解决方案。
变分自编码器(VAEs)是数据增强的另一种有前景的方法,特别适用于连续数据。VAEs 通过对潜在空间进行正则化,以生成平滑且真实的数据分布,并且在增强表格数据集方面表现出色 [117]。然而,它们在处理混合类型数据和分类特征时往往面临困难,因为保持原始特征分布变得更加具有挑战性。此外,VAEs 容易出现后验崩溃现象,即潜在空间收缩到一个狭窄范围,从而减少生成样本的变异性,导致不真实的输出,特别是在少数类中。
这些技术面临的主要挑战之一是保持原始特征分布的困难,尤其是对于连续特征和不平衡的分类列。虽然 SMOTE 对于连续数据效果良好,但在处理分类数据时往往显得不足。基于生成对抗网络(GAN)的方法,如 CTGAN,采用特定的归一化技术来解决这个问题,但即使是这些先进的方法也无法避免模式崩溃等挑战,即模型生成的合成数据缺乏变异性。GAN 还需要大量的计算资源和对超参数的仔细调整,以避免在训练过程中出现这些问题。尽管面临这些挑战,基于 GAN 的技术,特别是 WCGAN-GP,在生成高质量、真实的合成数据方面相较于传统方法如 SMOTE 展现了优越的性能,使其成为增强表格数据集的宝贵工具。
6.2 交叉验证
交叉验证是一种至关重要的技术,用于确保深度学习模型的泛化能力,尤其是在表格数据中,模型过拟合和数据不平衡会显著影响性能。Richetti 等人 [124] 强调了交叉验证的重要性,特别是在较小的数据集上,其在防止过拟合方面的作用更加明显。在这种背景下,k 折交叉验证作为一种流行的方法出现,作者采用了 8 折交叉验证的方法,以实现不同数据分区之间的稳健误差测量。同样,Zhu 等人 [2] 在他们对转换为图像表示的表格数据的卷积神经网络 (CNN) 的研究中应用了 10 折交叉验证。该研究强调了 k 折交叉验证如何确保即使在转换过程后也能实现泛化,防止过拟合,特别是在有限或不平衡的数据集中。两项研究都强调,尽管 k 折交叉验证提供了稳健的性能评估,但增加折数(例如从 5 折到 10 折)会引入更高的计算成本,而不会成比例地提高性能准确性。
Wilimitis 和 Walsh [125] 提供了交叉验证方法的比较分析,重点关注计算效率与模型性能之间的权衡。他们检查了常用的 5 折交叉验证以及其他变体,如重复 k 折交叉验证,发现虽然更多的折数可以稍微改善模型评估,但也增加了计算需求。该研究还探讨了嵌套交叉验证,这是一种更无偏的性能估计方法,特别适用于医疗保健模型。然而,由于在超参数调整过程中需要重复训练周期,嵌套交叉验证的显著计算成本被强调。这与 Richetti 等人 [124] 的发现相呼应,他们指出,像留一法交叉验证 (LOOCV) 这样的方法在较大数据集上可能在计算上不切实际,因为它们需要重复迭代。
Ullah 等人 [126] 通过讨论分层 k 折交叉验证的使用,特别是在处理深度学习模型对表格数据的类别不平衡时,扩展了这些观点。通过在每个折中保持一致的类别比例,分层交叉验证提高了模型的泛化能力,尤其是在处理不平衡数据集时,这是前两项研究中反复提到的关键问题。Ullah 等人 [126] 还讨论了使用留一交叉验证 (LOOCV) 的挑战,尽管它提供了无偏的性能估计,但在处理较大数据集时,其计算成本较高。嵌套交叉验证同样因其在超参数调优过程中减轻数据泄漏的精确性而受到赞扬,但其二次时间复杂度使其成为一种计算密集型的选择。
这些见解共同表明,尽管像分层 k \mathrm{k} k -折和嵌套交叉验证这样的交叉验证技术对于提高深度学习模型在表格数据上的鲁棒性至关重要,但它们必须谨慎选择。选择的依据在于平衡准确性和计算效率,其中像 k 折交叉验证这样的简单方法更具可扩展性,而像嵌套交叉验证这样的复杂方法虽然更精确,但伴随着显著的计算权衡。
6.3 表格数据的迁移学习
迁移学习在表格数据中表现出有效性,特别是在解决小数据集的局限性方面。正如 Levin 等人 [127] 强调的那样,当标记数据有限时,预训练模型显著提高了性能,因为这些模型转移了复杂的表示,超越了传统模型如 GBDT。当上游和下游任务的特征空间对齐时,这种有效性最为明显,使得模型能够在任务之间有效泛化。然而,Wang 和 Sun [38] 强调的一个关键挑战是表格数据中特征空间的内在异质性。任务通常涉及不同的列或特征类型,使得预训练模型在没有适应的情况下难以泛化。
为了解决这一挑战,已经开发了几种创新方法。Levin 等人 [127] 提出了使用伪特征的方法,这允许模型在跨不同特征集的任务中管理不匹配或缺失的特征。类似地,Wang 和 Sun [38] 引入了 TransTab 模型,这是一种基于变换器的架构,将单元格和列视为独立元素。这种灵活性使模型能够处理不同格式的表格,显著提高了在具有不同特征类型的任务中的泛化能力。尽管取得了这些进展,但仍然存在灾难性遗忘的问题,即在新数据上微调预训练模型会导致之前获得的知识丧失。Iman 等人 [128] 通过提出渐进学习来解决这一问题,这是一种在微调过程中向预训练模型添加新层的技术,能够保留之前学习的信息,同时允许模型适应新任务。此外,基于对抗的方法也出现了,这些方法利用网络提取跨任务的可转移特征,成为提高模型在多样化表格领域泛化能力的有效策略。
尽管这些模型代表了显著的进步,但正如 Jin 和 Ucar [129] 所指出的,传统方法如逻辑回归和 XGBoost 在许多表格设置中仍与深度学习模型竞争。这在数据集在特征类型和分布上存在显著差异的情况下尤其如此,这进一步复杂化了迁移学习的有效性。数据集不平衡的问题,即模型可能会将性能倾斜向多数类,仍然是一个关键问题。
最近的进展集中在开发专门针对表格数据的模型。Yan 等人 [107] 引入了 TP-BERTa,这是一种预训练模型,使用相对大小标记化和特征内注意力等技术处理分类和数值特征。该模型通过解决表格数据的结构复杂性,在深度学习和传统方法上表现出更好的性能。此外,Jin 和 Ucar [129] 提出了利用表示学习促进跨具有相似特征类型的任务知识转移的创新架构。
正如 Levin 等人 [127] 所指出的,预训练和微调策略仍然是提高特定领域应用性能的关键。自监督学习技术的使用,如对比学习,已被证明在标记数据稀缺的情况下特别有效。这些方法使模型能够在没有广泛标记的情况下学习有用的特征,使其非常适合于标记数据集有限的领域。此外,El-Melegy 等人 [130] 提出了一种新颖的方法,将表格数据转换为类似图像的格式,从而允许使用传统上为图像任务设计的卷积神经网络(CNN)。结合基于生成对抗网络(GAN)的采样,该方法生成合成数据以平衡数据集,从而实现从小而稀疏的数据集中有效学习。总之,尽管迁移学习在表格数据中显示出巨大的潜力,但其有效性仍受到特征异质性、灾难性遗忘和数据集不平衡等挑战的阻碍。然而,像基于变换器的架构、渐进学习和基于GAN的数据增强等进展为这些挑战提供了解决方案。随着这些方法的不断发展,迁移学习可能会成为处理表格数据任务的更强大和广泛适用的工具。
7 未来方向
随着深度学习模型在表格数据上的不断发展,有两个关键领域突出为未来探索的方向:可解释性和自监督学习。尽管当前模型提供了令人印象深刻的预测能力,但它们缺乏透明性在交通工程和医疗保健等高风险领域仍然是一个重大挑战。通过 SHAP、LIME 和集成梯度等先进技术增强模型的可解释性和可理解性对于建立对这些模型的信任和理解至关重要。此外,自监督学习(SSL)这一不断增长的领域提供了利用大量未标记表格数据的显著潜力,能够在不依赖广泛标记数据集的情况下提高模型性能。本节将探讨这些有前景的方向及其对表格深度学习未来的潜在影响。
7.1 可解释性和可理解性
解释性技术,如 SHAP、LIME 和集成梯度,在增强深度学习模型的可解释性方面发挥着关键作用,特别是在表格数据领域。然而,它们当前的实现存在局限性,这需要进一步发展,尤其是在信任和透明度至关重要的现实应用中。
LIME 因其能够通过在特定预测周围创建简化模型来提供局部解释而受到认可。通过扰动输入数据并观察其效果,LIME 生成一个局部替代模型,该模型近似于基础深度学习模型的复杂决策边界。尽管这些优点,LIME 对核选择的依赖以及对特征独立性的假设可能导致在高维数据集中的不一致性,正如 An 等人所讨论的 [131]。
另一方面,SHAP 基于博弈论,提供了一种更具全球一致性的特征贡献解释方法。与专注于局部近似的 LIME 不同,SHAP 通过计算每个特征对预测的边际贡献,为每个特征提供理论上合理的重要性归属。Ullah 等人的研究 [126] 表明,SHAP 通常提供比 LIME 更准确和一致的解释。然而,这也带来了更高的计算需求,这限制了 SHAP 在实时应用中的实用性。在医疗和金融等领域,合规性和信任至关重要,SHAP 的详细和公平的解释使其成为首选工具。然而,在不妥协其严格可解释性的情况下提高 SHAP 的计算效率,对于使其适用于实时和大规模部署至关重要。
集成梯度提供了一种互补的方法,特别适用于涉及多模态数据的模型。Gao等人[132]展示了在医院结果预测的深度学习模型中成功整合SHAP和集成梯度的案例,使用了临床笔记和表格数据。这些技术的结合使用通过识别基于文本和结构化数据特征的贡献,增强了透明度。虽然这增强了临床医生的信任,但这些解释的复杂性对更广泛的采用构成了挑战。简化这些技术,使其更易于非技术用户使用,对于在交通安全和医疗等高风险环境中的更广泛应用是必要的。
多项研究强调了进一步完善这些可解释性技术以改善其实际应用的必要性。Dastile和Celik[133]在癌症预测模型中应用了SHAP,发现虽然SHAP增强了模型的可解释性,但其计算需求使得实时应用面临挑战。作者建议优化SHAP或开发更高效的可解释性方法,以保持可解释性同时减少资源消耗,特别是在实时决策至关重要的场景中。类似地,Tran和Byeon[134]在混合LightGBM-TabPFN模型中使用SHAP来预测帕金森病患者的痴呆。SHAP提供了对特征贡献的有价值见解,提高了模型在临床环境中的可解释性。然而,该研究也强调了进一步发展因果驱动解释的必要性,整合领域专业知识以增加在医疗环境中的信任和适用性。总之,尽管SHAP、LIME和集成梯度显著提高了深度学习模型在表格数据上的可解释性,但仍需进一步发展以增强其计算效率、稳定性和在现实世界应用中的可及性,尤其是在信任和透明度至关重要的情况下。
7.2 自监督学习
自监督学习(SSL)在计算机视觉和自然语言处理(NLP)等领域取得了很大成功,这些领域的固有结构,如图像中的空间关系或文本中的语义模式,使得设计有效的前置任务变得更加容易。然而,将SSL应用于表格数据则面临一系列独特的挑战,因为缺乏这种明确的结构。多个研究集中于将SSL技术适应于表格数据,以提高模型性能,并解决围绕有意义的前置任务设计和有效利用未标记数据的问题。
将SSL应用于表格数据的主要挑战之一是设计有效的数据增强和前置任务的困难。与具有空间一致性的图像或受益于语义连贯性的文本等结构化数据不同,表格数据缺乏这些自然结构。因此,传统的增强方法,如视觉中的旋转或NLP中的标记掩蔽,无法直接应用。Wang等人[135]讨论了表格数据的SSL需要超越这些任务,设计新的方法以捕捉特征之间的隐含关系。为了克服这一限制,提出了预测缺失值或重建损坏特征等前置任务。Ucar等人[1]介绍了SubTab框架,如图18所示,该框架将表格特征划分为多个子集,并训练模型从这些子集中重建特征,提供了一种新颖的多视角表示学习方法。这种多视角方法隐式地作为数据增强,帮助模型在不同数据集之间更好地泛化。这与Hajiramezanali等人[136]的研究相似,他们介绍了STab模型,该模型通过在神经网络的不同层应用随机正则化技术,避免了输入级别的增强,生成同一数据的不同视角,从而提高学习表示的鲁棒性。
Chitlangia 等人 [137] 采用了一种不同的方法,流形混合(Manifold Mixup),该方法在隐藏状态之间创建插值,而不是直接操纵输入数据。该方法生成扰动表示,使模型能够恢复原始输入,并有效处理高基数特征,从而提升模型性能,而无需依赖手动标记的数据。类似地,Vyas [94] 应用了一种 TabTransformer 模型,该模型利用自注意力机制捕捉分类特征和数值特征之间的依赖关系。通过利用未标记的数据,该模型学习有效的表示,而不需要对标记数据的高度依赖,从而改善了跨任务的泛化能力。
图 18. SubTab 框架 [1]
提高表格数据上自监督学习(SSL)有效性的另一种方法是通过精心设计基于重建的任务,利用特征子集。Zheng 等人 [138] 应用 SubTab 框架,其中使用不同的特征子集来重建完整输入,帮助解决表格数据中的异质性问题,因为并非所有特征对预测任务的贡献相同。这种方法在 VIME [58] 中得到了呼应,后者引入了两个前置任务——特征向量估计和掩码向量估计——专注于从被掩码和损坏的版本中重建原始数据。这些前置任务通过鼓励模型有效处理缺失或噪声数据,帮助模型学习稳健的表示。类似地,针对表格数据的掩码编码 [139] 在此基础上,通过结合受变换模型启发的掩码编码,并在重建过程中使用对抗训练。这个对抗组件迫使模型即使在存在扰动的情况下也能恢复特征,从而使学习到的表示更加稳健。
所有这些研究强调了在自监督学习(SSL)中利用未标记数据的重要性,特别是在标记数据稀缺的情况下。通过一致性正则化等技术(如 VIME 和 MET),利用大量未标记数据可以显著增强模型的泛化能力,即使在标记数据有限的情况下。Wang 等人 [135] 强调,SSL 技术必须有效利用未标记数据,以确保跨任务的可迁移性,特别是因为表格数据通常来自具有不同特征分布的多种来源。这与 Chitlangia 等人 [137] 的研究结果一致,其中流形混合(Manifold Mixup)利用潜在空间扰动生成有意义的增强,而无需依赖输入级别的变换。在 SubTab 中,多视角学习使模型能够捕捉数据的不同视角,从未标记数据中提取更强健的表示。
8 结论
本次调查回顾了为表格数据设计的深度学习模型的进展,这一领域传统上对深度学习而言是一个具有挑战性的领域。尽管像 GBDTs 这样的经典模型长期以来主导了表格数据任务,但新的架构如 TabNet、SAINT 和 TabTransformer 引入了注意力机制和特征嵌入,以更好地处理异构特征、高维度和非局部交互的复杂性。这些模型在增强可解释性和性能方面取得了显著进展,创新如 TabNet 的顺序注意力和 SAINT 的样本间注意力,动态捕捉特征与数据行之间的关系。
然而,仍然存在挑战,特别是在计算效率和小型数据集上过拟合的风险方面。尽管像 TabTransformer 和 SAINT 这样的模型计算密集,但已经开发出 Mixup、CutMix 和正则化方法等技术来解决过拟合问题。最近的进展,包括像 TabTranSELU 和 GNN4TDL 这样的混合模型,扩展了许多研究领域的应用范围。IGTD 进一步增强了深度学习模型如何将表格数据转化为更结构化格式以提高性能的能力。
本次调查的一个局限性是缺乏对不同模型和数据集的详细性能比较。未来的研究应集中于对多样化数据集上表格深度学习模型进行更严格的评估,以深入了解它们的相对优缺点。除了性能比较,进一步的研究还应旨在增强这些模型的可扩展性和适应性,特别是在处理较小或噪声较大的数据集时。迁移学习和自监督学习等技术展现出良好的前景,因为它们使模型能够利用大量未标记的数据。此外,提高模型的可解释性和降低计算成本对于扩大深度表格学习在医疗、金融、交通和基础设施等行业的适用性至关重要。