解锁深度表格学习（Deep Tabular Learning）的关键：算术特征交互

阿里云云栖号

已于 2024-03-21 13:40:29 修改

阅读量1.1k

点赞数 14

分类专栏：云栖号技术分享文章标签：学习大数据深度学习云计算

于 2024-03-20 16:47:34 首次发布

本文链接：https://blog.csdn.net/yunqiinsight/article/details/136881556

版权

近日，阿里云人工智能平台PAI与浙江大学吴健、应豪超老师团队合作论文《Arithmetic Feature Interaction is Necessary for Deep Tabular Learning》正式在国际人工智能顶会AAAI-2024上发表。本项工作聚焦于深度表格学习中的一个核心问题：在处理结构化表格数据（tabular data）时，深度模型是否拥有有效的归纳偏差（inductive bias）。我们提出算术特征交互（arithmetic feature interaction）对深度表格学习是至关重要的假设，并通过创建合成数据集以及设计实现一种支持上述交互的AMFormer架构（一种修改的Transformer架构）来验证这一假设。实验结果表明，AMFormer在合成数据集表现出显著更优的细粒度表格数据建模、训练样本效率和泛化能力，并在真实数据的对比上超过一众基准方法，成为深度表格学习新的SOTA（state-of-the-art）模型。

背景

图1：结构化表格数据示例，引用自[Borisov et al.]

结构化表格数据——这些数据往往以表（Table）的形式存储于数据库或数仓中——作为一种在金融、市场营销、医学科学和推荐系统等多个领域广泛使用的重要数据格式，其分析一直是机器学习研究的热点。表格数据（图1）通常同时包含数值型（numerical）特征和类目型（categorical）特征，并往往伴随有特征缺失、噪声、类别不平衡（class imblanance）等数据质量问题，且缺少时序性、局部性等有效的先验归纳偏差，极大地带来了分析上的挑战。传统的树集成模型（如，XGBoost、LightGBM、CatBoost）因在处理数据质量问题上的鲁棒性，依然是工业界实际建模的主流选择，但其效果很大程度依赖于特征工程产出的原始特征质量。

随着深度学习的流行，研究者试图引入深度学习端到端建模，从而减少在处理表格数据时对特征工程的依赖。相关的研究工作至少可以可以分成四大类：（1）在传统建模方法中叠加深度学习模块（通常是多层感知机MLP&#

最低0.47元/天解锁文章

阿里云云栖号

关注

14
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
解锁深度表格学习（Deep Tabular Learning）的关键：算术特征交互

实验结果表明，AMFormer在合成数据集表现出显著更优的细粒度表格数据建模、训练样本效率和泛化能力，并在真实数据的对比上超过一众基准方法，成为深度表格学习新的SOTA（state-of-the-art）模型。
复制链接

扫一扫