2024年7月23日Arxiv机器学习相关论文

最新推荐文章于 2025-01-10 14:48:37 发布

数智笔记

最新推荐文章于 2025-01-10 14:48:37 发布

阅读量1k

点赞数 21

分类专栏：论文速递文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/wjjc1017/article/details/140640158

版权

论文速递专栏收录该内容

118 篇文章

订阅专栏

当异常值占据小群体时的稳健混合学习

原标题: Robust Mixture Learning when Outliers Overwhelm Small Groups

作者: Daniil Dmitriev, Rares-Darius Buhai, Stefan Tiegel, Alexander Wolters, Gleb Novikov, Amartya Sanyal, David Steurer, Fanny Yang

机构: 苏黎世联邦理工学院慕尼黑工业大学卢塞恩计算机科学与信息技术学院哥本哈根大学

摘要: 我们研究了在对手可能添加任意异常值时估计明显分离混合物的均值的问题。当异常值的比例明显小于最小混合权重时，可以提供强有力的保证，但当异常值可能排挤低权重聚类时，我们了解的情况就少得多 - 这是我们称之为列表可解混合学习（LD-ML）的设置。在这种情况下，对手的异常值可以模拟额外的虚假混合组件。因此，如果必须在输出列表中将混合物的所有均值恢复到小误差以内，则列表大小需要大于（真实）组件的数量。我们提出了一种算法，该算法获得了每个混合均值的顺序最优误差保证，同时最小化了列表大小的额外开销，显著改进了列表可解均值估计，这是唯一适用于LD-ML的现有方法。尽管在混合物不分离时也观察到改进，但我们的算法在混合物分离时提供了特别强大的保证：它可以利用混合结构在小心迭代基础学习器以不同尺度进行列表可解均值估计之前，部分对样本进行聚类。

论文链接: https://arxiv.org/abs/2407.15792

使用Transformer和去噪扩散来估计概率密度

原标题: Estimating Probability Densities with Transformer and Denoising Diffusion

作者: Henry W. Leung, Jo Bovy, Joshua S. Speagle

机构: 中文 Henry W. Leung 乔博维乔舒亚S.斯皮格尔

摘要: Transformer通常是构建吸收大量训练数据的基础模型的首选架构。但是，当在回归问题上进行训练时，这些模型并不估计概率密度分布，然而在许多科学领域中获得完整的概率输出是至关重要的，其中答案的概率分布可能是非高斯的和多峰的。在这项工作中，我们展示了使用Transformer顶部的去噪扩散头训练概率模型，即使对于高维输入，也能提供合理的概率密度估计。组合的Transformer+去噪扩散模型允许将输出概率密度条件化为任意组合的输入，因此它是所有可能的输入/输出组合的高度灵活的密度函数仿真器。我们通过在大量天文观测数据集和我们银河系内恒星的测量标签上对Transformer+去噪扩散模型进行训练来说明我们的工作，并将其应用于各种推断任务，以展示该模型可以准确推断出带有合理分布的标签。

论文链接: https://arxiv.org/abs/2407.15703

STAMP：具有稳定记忆重放的异常值感知测试时适应

原标题: STAMP: Outlier-Aware Test-Time Adaptation with Stable Memory Replay

作者: Yongcan Yu, Lijun Sheng, Ran He, Jian Liang

机构: 中国科学院自动化研究所中国科学院大学人工智能学院中国科学技术大学

摘要: 测试时间适应（TTA）旨在仅利用测试时的无标签数据解决训练数据和测试数据之间的分布偏移。现有的TTA方法通常专注于改善识别性能，特别是针对与训练集中类相关的测试数据。然而，在开放世界推理过程中，不可避免地会存在来自未知类别的测试数据实例，通常称为异常值。本文关注在存在异常值时进行样本识别和异常值拒绝的问题。为了解决这个问题，我们提出了一种名为STAble Memory rePlay（STAMP）的新方法，该方法通过在稳定的记忆库上进行优化，而不是在风险的小批量上。具体而言，记忆库通过以类平衡的方式选择低熵和标签一致的样本来动态更新。此外，我们开发了一种自加权熵最小化策略，将更高的权重分配给低熵样本。大量结果表明，STAMP在识别和异常值检测性能方面优于现有的TTA方法。代码已发布在此https网址。

论文链接: https://arxiv.org/abs/2407.15773

Github: https://github.com/yuyongcan/STAMP

基于距离的遗传算法相互拥塞特征选择，用于高维医学数据集

原标题: Distance-based mutual congestion feature selection with genetic algorithm for high-dimensional medical datasets

作者: Hossein Nematzadeh, Joseph Mani, Zahra Nematzadeh, Ebrahim Akbari, Radziah Mohamad

机构: 现代商业与科学学院（阿曼） School of Medicine, Emory University（美国） Islamic Azad University（伊朗） Universiti Teknologi Malaysia（马来西亚）

摘要: 特征选择在小样本高维数据集中是一个挑战，其中特征数量超过观测数量，这种情况在微阵列、基因表达和医学数据集中经常出现。并不存在一种适用于任何数据分布的普遍最佳特征选择方法，因此文献一直在努力解决这个问题。特征选择中的一种最新方法被称为基于频率的特征选择。然而，该领域现有方法往往忽视特征值，仅关注响应变量的分布。为此，本文引入了基于距离的互联拥塞（DMC）作为一种考虑特征值和响应变量观测分布的过滤方法。DMC对数据集的特征进行排序，保留前5%，并通过KMeans进行聚类以减少多重共线性。这是通过从每个簇中随机选择一个特征来实现的。所选特征形成特征空间，遗传算法自适应速率（GAwAR）的搜索空间将使用这个特征空间来近似。GAwAR在包装器方案中逼近最大化预测准确性的前10个特征的组合。为防止过早收敛，GAwAR会自适应更新交叉和突变率。混合的DMC-GAwAR适用于二元分类数据集，并实验结果表明其优于一些最近的工作。该方法的实现和相应数据可在此 https URL 上找到。

论文链接: https://arxiv.org/abs/2407.15611

Github: https://github.com/hnematzadeh/DMC-GAwAR

退火多项选择学习：通过退火克服“胜者通吃”法则的局限性

原标题: Annealed Multiple Choice Learning: Overcoming limitations of Winner-takes-all with annealing

作者: David Perera, Victor Letzelter, Théo Mariotte, Adrien Cortés, Mickael Chen, Slim Essid, Gaël Richard

机构: 电信巴黎雅迪亚人工智能索邦大学维尔科比赛者

摘要: 我们介绍了退火多选学习（aMCL），它将模拟退火与MCL相结合。MCL是一个处理模糊任务的学习框架，通过预测一小组可能的假设来处理。这些假设使用Winner-takes-all（WTA）方案进行训练，该方案促进了预测的多样性。然而，由于WTA的贪婪性质，这种方案可能会收敛到任意次优的局部最小值。我们通过使用退火来克服这一限制，退火增强了训练过程中对假设空间的探索。我们利用统计物理学和信息论的见解，详细描述了模型训练轨迹。此外，我们通过在合成数据集、标准UCI基准测试集和语音分离上进行大量实验证实了我们的算法。

论文链接: https://arxiv.org/abs/2407.15580

在联邦优化中数据异质性的新理论视角

原标题: A New Theoretical Perspective on Data Heterogeneity in Federated Optimization

作者: Jiayi Wang, Shiqiang Wang, Rong-Rong Chen, Mingyue Ji

机构: 清华大学哈尔滨工业大学

摘要: 在联邦学习（FL）中，数据异质性是现有理论分析对收敛速度持悲观态度的主要原因。特别是对于许多FL算法，当本地更新次数变多时，特别是当梯度发散与本地Lipschitz常数的乘积较大时，收敛速度会显著增长。然而，经验研究表明，即使这两个参数较大，更多的本地更新也可以改善收敛速度，这与理论发现不一致。本文旨在通过从数据异质性的新视角提供理论分析，弥合理论理解与实际性能之间的差距。具体而言，我们提出了一个相对于本地Lipschitz梯度假设更弱的新假设，称为异质性驱动的伪Lipschitz假设。我们展示了这一假设和梯度发散假设可以共同表征数据异质性的影响。通过推导FedAvg及其扩展的收敛上界，我们表明，与现有研究相比，本地Lipschitz常数被更小的异质性驱动的伪Lipschitz常数取代，对于相同数量的本地更新，相应的收敛上界可以显著降低，尽管其阶数保持不变。此外，当本地目标函数是二次的时候，可以利用异质性驱动的伪Lipschitz常数获得关于数据异质性影响的更多见解。例如，我们可以确定一个区域，在这个区域内，即使梯度发散可以任意大，FedAvg也能胜过小批量SGD。我们的发现经过实验证实。

论文链接: https://arxiv.org/abs/2407.15567

反向激活

原标题: Inverted Activations

作者: Georgii Novikov, Ivan Oseledets

机构: 斯科尔科技俄罗斯空中情报研究所

摘要: 随着数据和模型规模的增加，神经网络的扩展需要更高效的深度学习算法。本文通过提出一种修改激活张量处理方式的方法，解决了神经网络训练中的内存占用挑战。传统上，这些层在反向传播时保存整个输入张量，导致内存使用量大。我们的方法涉及保存输出张量，从而在后续层也保存其输入张量时减少所需内存。这种方法对于基于Transformer的架构（如GPT、BERT、Mistral和Llama）特别有益。我们的方法涉及对非线性函数进行反函数操作。据我们所知，这不能通过解析方法实现，而是通过使用更简单的函数构建准确的近似值。实验结果证实，我们的方法显著减少了内存使用量，而不影响训练准确性。该实现可在以下网址找到：https://…（链接地址）。

论文链接: https://arxiv.org/abs/2407.15545

Github: https://github.com/PgLoLo/optiacts

SoftCVI：使用自生成的软标签进行对比变分推断

原标题: SoftCVI: contrastive variational inference with self-generated soft labels

作者: Daniel Ward, Mark Beaumont, Matteo Fasiolo

机构: 布里斯托尔大学生物科学学院数学学院

摘要: 在贝叶斯推断中，估计一个分布，只能访问其非标准化密度是至关重要的，因为后验通常只能知道一个未知的归一化常数。变分推断和马尔可夫链蒙特卡洛方法是这一任务的主要工具；然而，这两种方法通常在后验具有复杂几何结构时很难可靠地应用。在这里，我们介绍了软对比变分推断（SoftCVI），它允许通过对比估计框架推导出一系列变分目标。当变分逼近是精确的时候，这些目标的梯度方差为零，而无需专门的梯度估计器。该方法涉及以变分分布的形式对分类器进行参数化，这使得推断任务可以重新构建为一个对比估计问题，旨在从一组样本中识别出单个真后验样本。尽管采用了这种框架，我们并不需要正样本或负样本，而是通过从非标准化后验本身对变分分布进行采样，并计算出真实的软分类标签来学习。我们在各种贝叶斯推断任务上进行了实证研究，使用简单（例如正态）和表达丰富（归一化流）的变分分布。我们发现，SoftCVI 目标通常优于其他常用的变分目标。

论文链接: https://arxiv.org/abs/2407.15687

在约束条件下使用惩罚度量网络进行外部惩罚策略优化

原标题: Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints

作者: Shiqing Gao, Jiaxin Ding, Luoyi Fu, Xinbing Wang, Chenghu Zhou

机构: 上海交通大学

摘要: 在受限强化学习（CRL）中，智能体在探索环境的同时学习最优策略，同时满足约束条件。最近，惩罚函数方法被研究作为处理约束的有效方法，该方法对目标施加约束惩罚，将受限问题转化为无约束问题。然而，选择平衡策略性能和约束满足的适当惩罚是具有挑战性的。在本文中，我们提出了一种理论上保证的惩罚函数方法，即外部惩罚策略优化（EPO），其自适应惩罚由惩罚度量网络（PMN）生成。PMN 对不同程度的约束违反做出适当响应，实现了高效的约束满足和安全的探索。我们在理论上证明了EPO能够持续改善约束满足，并具有收敛保证。我们提出了一种新的替代函数，并提供了最坏情况下的约束违反和近似误差。在实践中，我们提出了一种有效的平滑惩罚函数，可以很容易地通过一阶优化器实现。我们进行了大量实验，结果显示EPO在策略性能和约束满足方面优于基线方法，在复杂任务上尤为突出，并且具有稳定的训练过程。

论文链接: https://arxiv.org/abs/2407.15537

用于随机梯度估计的多重重要性采样

原标题: Multiple importance sampling for stochastic gradient estimation

作者: Corentin Salaün, Xingchang Huang, Iliyan Georgiev, Niloy J. Mitra, Gurprit Singh

机构: un1Iliyan Georgiev2Niloy J. Mitra2 3Gurprit Singh1

摘要: 我们提出了一个理论和实践框架，用于从单个和多个概率分布中高效重要性采样小批量样本，以用于梯度估计。为了处理嘈杂的梯度，我们的框架通过利用自适应度量在训练过程中动态演化重要性分布。我们的框架结合了多个不同的采样分布，每个分布都针对特定的参数梯度进行了定制。这种方法促进了矢量值梯度估计的重要性采样。我们的框架不是简单地将多个分布组合在一起，而是通过最优加权数据贡献跨多个分布。这种调整后的多重重要性组合产生了更优秀的梯度估计，从而导致更快的训练收敛。我们通过对一系列优化任务（如图像和点云数据集上的分类和回归）进行实证评估，展示了我们方法的有效性。

论文链接: https://arxiv.org/abs/2407.15525

MODRL-TA：用于电子商务搜索中流量分配的多目标深度强化学习框架

原标题: MODRL-TA:A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Search

作者: Peng Cheng, Huimu Wang, Jinyuan Zhao, Yihao Wang, Enqiang Xu, Yu Zhao, Zhuojian Xiao, Songlin Wang, Guoyu Tang, Lin Liu, Sulong Xu

机构: 京东

摘要: 流量分配是一种通过调整产品在搜索后阶段的位置来重新分配自然流量的过程，旨在有效促进商家增长，精确满足客户需求，并确保在电子商务平台内各方的利益最大化。基于学习排序的现有方法忽略了流量分配的长期价值，而强化学习方法则面临着在真实数据环境中平衡多个目标和冷启动困难的问题。为了解决上述问题，本文提出了一个多目标深度强化学习框架，包括多目标 Q-learning（MOQ）、基于交叉熵方法（CEM）的决策融合算法（DFM）和渐进式数据增强系统（PDA）。具体来说，MOQ构建了集成的强化学习模型，每个模型专注于一个目标，如点击率、转化率等。这些模型分别将物品的位置确定为动作，旨在从个体角度估计多个目标的长期价值。然后，我们使用DFM动态调整各目标之间的权重，以最大化长期价值，解决电子商务场景中客观偏好的时间动态问题。最初，PDA使用离线日志的模拟数据对MOQ进行训练。随着实验的进行，它策略性地整合了真实用户交互数据，最终取代了模拟数据集，以减轻分布偏移和冷启动问题。在真实在线电子商务系统上的实验结果显示了MODRL-TA的显著改进，我们已成功将MODRL-TA部署在一个电子商务搜索平台上。

论文链接: https://arxiv.org/abs/2407.15476

一个用于预测异质固体中裂纹动态的时空深度学习框架：将混凝土微结构高效映射到其断裂特性

原标题: A spatiotemporal deep learning framework for prediction of crack dynamics in heterogeneous solids: efficient mapping of concrete microstructures to its fracture properties

作者: Rasoul Najafi Koopas, Shahed Rezaei, Natalie Rauter, Richard Ostwald, Rolf Lammering

机构: 联邦武装部队赫尔穆特-施密特大学/联邦武装部队大学
Access e.V.

摘要: 提出了一个时空深度学习框架，能够对混凝土中尺度结构的2D全场断裂进行预测。该框架不仅可以预测断裂，还可以捕捉整个断裂过程的完整历史，从界面过渡区中的裂纹起始到砂浆基体中裂纹的后续传播。此外，开发了一个卷积神经网络，可以预测尺度结构的平均应力-应变曲线。UNet建模框架由编码器-解码器部分和跳跃连接组成，被用作深度学习代理模型。训练和测试数据是从高保真度的随机生成的混凝土中尺度结构的断裂模拟中生成的。这些中尺度结构包括几何变异，如不同骨料颗粒的几何特征、空间分布和骨料总体积分数。断裂模拟是在Abaqus中进行的，利用相干相场断裂建模技术作为断裂建模方法。在这项工作中，为了减少训练数据集的数量，将三相混凝土中尺度结构的三组材料属性的空间分布以及空间相场损伤指数输入UNet，以预测下一步的应力和空间损伤指数。结果表明，使用这种方法进行训练后，UNet模型能够通过使用470个数据集准确预测未见测试数据集上的损伤。此外，这项工作的另一个新颖之处是利用开发的流程将不规则有限元数据转换为规则网格。这种方法可以实现更简单的UNet架构，并促进将相场断裂方程集成到未来发展的代理模型中。

论文链接: https://arxiv.org/abs/2407.15665

多样性奖励：从个性化联邦学习中学习来自不同分布客户端的知识

原标题: The Diversity Bonus: Learning from Dissimilar Distributed Clients in Personalized Federated Learning

作者: Xinghao Wu, Xuefeng Liu, Jianwei Niu, Guogang Zhu, Shaojie Tang, Xiaotian Li, Jiannong Cao

摘要: 个性化联邦学习（PFL）是一种常用的框架，允许客户共同训练他们的个性化模型。PFL 在处理来自不同客户的数据不是独立同分布（non-IID）的情况下特别有用。先前在 PFL 领域的研究隐含地假设，客户可以从具有相似数据分布的客户中获得更多好处。相应地，诸如个性化权重聚合之类的方法被开发出来，在训练过程中为相似的客户分配更高的权重。我们提出一个问题：客户是否可以从具有不同数据分布的其他客户中受益，如果可以，又是如何实现的？这个问题在高度非独立同分布的情况下尤为重要，其中客户具有广泛不同的数据分布，仅从相似的客户学习将会损失许多其他客户的知识。我们注意到，当处理具有相似数据分布的客户时，诸如个性化权重聚合之类的方法往往会强制它们的模型在参数空间中靠近。合理推测，如果允许他们的模型彼此偏离，客户可以从不同数据分布的客户中受益。基于这个想法，我们提出了 DiversiFed，它允许每个客户从具有多样化数据分布的客户中学习个性化联邦学习。DiversiFed 在参数空间中将具有不同数据分布的客户的个性化模型分开，同时将具有相似分布的客户拉在一起。此外，为了在不使用数据分布先验知识的情况下实现上述效果，我们设计了一个损失函数，利用模型相似性来确定任意两个模型之间吸引和排斥的程度。在几个数据集上的实验证明，DiversiFed 可以从不同数据分布的客户中受益，从而优于现有的方法。

论文链接: https://arxiv.org/abs/2407.15464

MuTT：用于机器人技能的多模态轨迹Transformer

原标题: MuTT: A Multimodal Trajectory Transformer for Robot Skills

作者: Claudius Kienle, Benjamin Alt, Onur Celik, Philipp Becker, Darko Katic, Rainer Jäkel, Gerhard Neumann

机构: 清华大学德国马普智能系统研究所

摘要: 高级机器人技能代表了机器人编程中越来越流行的范式。然而，为特定任务配置这些技能的参数仍然是一项手动且耗时的工作。现有的学习或优化这些参数的方法通常需要大量的真实世界执行，或者在动态环境中无法工作。为了解决这些挑战，我们提出了MuTT，这是一种新颖的编码器-解码器Transformer架构，旨在通过整合视觉、轨迹和机器人技能参数来预测机器人技能的环境感知执行。值得注意的是，我们首次将视觉和轨迹融合在一起，引入了一种新颖的轨迹投影。此外，我们展示了当MuTT与基于模型的机器人技能优化器结合时作为预测器的有效性。这种方法有助于在优化过程中为当前环境优化机器人技能参数，而无需在优化过程中进行真实世界执行。MuTT设计为与任何机器人技能表示兼容，通过三个全面实验展示了其在两种不同技能表示中的卓越性能。

论文链接: https://arxiv.org/abs/2407.15660

GraphScale：一个能够在十亿节点图上进行机器学习的框架

原标题: GraphScale: A Framework to Enable Machine Learning over Billion-node Graphs

作者: Vipul Gupta, Xin Chen, Ruoyun Huang, Fanlong Meng, Jianjun Chen, Yujun Yan

机构: 字节跳动达特茅斯学院

摘要: 图神经网络（GNNs）已经成为处理基于图结构数据的监督机器学习的强大工具，而基于采样的节点表示学习被广泛应用于无监督学习中。然而，在大规模图（例如，拥有超过10亿节点的图）的监督学习和无监督学习中，可扩展性仍然是一个主要挑战。可扩展性瓶颈主要源自GNNs中的小批量采样阶段和无监督方法中的随机游走采样阶段。这些过程通常需要在内存中存储特征或嵌入。在分布式训练的背景下，它们需要频繁且低效地随机访问存储在不同工作节点上的数据。每个小批量的重复工作节点间通信导致高通信开销和计算效率低下。

我们提出了GraphScale，一个统一的框架，用于分布式存储和处理大规模图数据的监督和无监督学习。我们设计的关键见解是将存储数据的工作节点与执行训练的工作节点分离。这种分离使我们能够在图训练中解耦计算和存储，从而有效地构建一个数据获取和数据计算可以异步重叠的流水线。我们的实验表明，GraphScale在分布式训练GNNs和节点嵌入方面优于最先进的方法。我们在公共和专有图数据集上评估了GraphScale，并观察到与流行的分布式框架相比，端到端训练时间至少减少了40％，而性能没有任何损失。虽然大多数现有方法不支持用于训练节点嵌入的十亿节点图，但GraphScale目前已在TikTok上投入生产，实现了对这种大规模图的高效学习。

论文链接: https://arxiv.org/abs/2407.15452

通过多尺度社会平衡从稀疏和嘈杂标签中预测链接极性

原标题: Link Polarity Prediction from Sparse and Noisy Labels via Multiscale Social Balance

作者: Marco Minici, Federico Cinus, Francesco Bonchi, Giuseppe Manco

机构: 比萨大学 ICAR-CNR Sapienza大学 CENTAI Eurecat Barcelona 西班牙

摘要: 最近，带符号图神经网络（SGNNs）作为一种有效工具，引起了人们对带有极性的图（即边具有相关极性的图）上多个学习任务的关注。其中之一是预测缺失极性信息的链接的极性，从网络结构和其他可用极性开始。然而，当可用极性很少且可能存在噪声时，这样的任务变得具有挑战性。
在这项工作中，我们设计了一个半监督学习框架，围绕着“多尺度社会平衡”的新概念，以改善在数据量和质量有限的情况下预测链接极性。我们的模型无关方法可以无缝集成到任何SGNN架构中，动态重新加权每个数据样本的重要性，同时巧妙地利用未标记边的结构信息与社会平衡理论相结合。
经验验证表明，我们的方法优于已建立的基准模型，有效地解决了嘈杂和稀疏数据带来的限制。这一结果强调了将多尺度社会平衡纳入SGNNs的好处，为带符号网络分析中的稳健和准确预测开辟了新途径。

论文链接: https://arxiv.org/abs/2407.15643

使用神经音频编解码语言模型生成基于样本的乐器

原标题: Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models

作者: Shahan Nercessian, Johannes Imort, Ninon Devis, Frederik Blang

机构: Native Instruments

摘要: 在这篇论文中，我们提出并研究了使用神经音频编解码器语言模型自动生成基于文本或参考音频提示的基于样本的乐器。我们的方法扩展了一个生成音频框架，以跨越 88 个键的音域、速度和结合文本/音频嵌入进行条件化。我们确定在生成的乐器中保持音色一致性是一个主要挑战。为了解决这个问题，我们引入了三种不同的调节方案。我们通过客观指标和人类听测试分析我们的方法，证明我们的方法可以生成引人入胜的乐器。具体来说，我们引入了一个新的客观指标来评估生成乐器的音色一致性，并调整了用于文本到乐器情况的平均对比语言-音频预训练（CLAP）分数，指出其朴素应用不适合评估这一任务。我们的研究结果揭示了音色一致性、生成样本质量以及它们与输入提示的对应之间的复杂相互作用。

论文链接: https://arxiv.org/abs/2407.15641

基于优势的公平组合半波段赌博算法与无限制反馈延迟

原标题: Merit-based Fair Combinatorial Semi-Bandit with Unrestricted Feedback Delays

作者: Ziqun Chen, Kechao Cai, Zhuoyue Chen, Jinbei Zhang, John C.S. Lui

机构: 中山大学深圳中国香港中文大学香港中国

摘要: 我们研究在基于优势公平约束条件下具有无限制反馈延迟的随机组合半臂老虎机问题。这受到众包和在线广告等应用的启发，其中即时反馈不是立即可用的，而在不同选择（或臂）之间保持公平至关重要。我们考虑两种类型的无限制反馈延迟：独立于奖励的延迟，其中反馈延迟与奖励无关，以及与奖励相关的延迟，其中反馈延迟与奖励相关。此外，我们引入基于优势的公平约束条件，以确保对臂的公平选择。我们定义了奖励遗憾和公平遗憾，并提出了新的老虎机算法，根据它们的优势在无限制反馈延迟下选择臂。我们证明我们的算法都实现了次线性的预期奖励遗憾和预期公平遗憾，依赖于延迟分布的分位数。我们还使用合成和真实数据进行了大量实验，并展示我们的算法可以公平地选择具有不同反馈延迟的臂。

论文链接: https://arxiv.org/abs/2407.15439

针对超出分布的推荐系统的双重测试时间训练

原标题: Dual Test-time Training for Out-of-distribution Recommender System

作者: Xihong Yang, Yiqi Wang, Jin Chen, Wenqi Fan, Xiangyu Zhao, En Zhu, Xinwang Liu, Defu Lian

摘要: 深度学习已被广泛应用于推荐系统中，并最近取得了革命性的进展。然而，大多数现有的基于学习的方法假设用户和物品的分布在训练阶段和测试阶段之间保持不变。然而，在现实世界的场景中，用户和物品特征的分布可能会自然变化，可能导致推荐性能大幅下降。这种现象可以被表述为一种“分布外”（OOD）推荐问题。为了解决这一挑战，我们提出了一种新颖的用于OOD推荐的双测试训练框架，称为DT3OR。在DT3OR中，我们在测试阶段引入了模型适应机制，精心更新推荐模型，使模型能够特别适应不断变化的用户和物品特征。具体而言，我们提出了自我蒸馏任务和对比任务，以帮助模型在测试阶段学习用户的不变兴趣偏好和变化的用户/物品特征，从而促进对变化特征的平滑适应。此外，我们提供理论分析来支持我们双测试训练框架背后的原理。据我们所知，这篇论文是第一篇通过测试时间训练策略来解决OOD推荐问题的工作。我们在三个数据集上进行实验，使用不同的骨干结构。全面的实验结果已经证明了DT3OR相对于其他最先进基线方法的有效性。

论文链接: https://arxiv.org/abs/2407.15620

探究物体中心表示在视觉问答中的有效性：与基础模型的比较洞见

原标题: Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models

作者: Amir Mohammad Karimi Mamaghan, Samuele Papa, Karl Henrik Johansson, Stefan Bauer, Andrea Dittadi

机构: 瑞尔技术学院阿姆斯特丹大学数字未来 Helmholtz AI 慕尼黑工业大学智能系统MPI，图宾根

摘要: 对象中心（OC）表示法通过将视觉场景建模为对象的组合来表示其状态，具有潜力用于各种下游任务，以实现系统化的组合泛化并促进推理。然而，这些主张尚未得到彻底分析。最近，基础模型在从语言到计算机视觉等各个领域展示了无与伦比的能力，将它们标记为未来研究的潜在基石，适用于多种计算任务。在本文中，我们对下游视觉问答（VQA）的表示学习进行了广泛的实证研究，这需要对场景进行准确的组合理解。我们深入研究了OC模型及包括大型预训练基础模型在内的替代方法的优势和权衡，涵盖了合成数据和真实世界数据，并展示了实现两者最佳结合的可行方式。我们的研究广泛性涵盖了超过800个下游VQA模型和15种不同类型的上游表示，还提供了一些额外的见解，我们相信这些将对整个社区感兴趣。

论文链接: https://arxiv.org/abs/2407.15589

通过逐层和渐进式训练实现资源高效的联邦多模态学习

原标题: Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training

作者: Ye Lin Tun, Chu Myaet Thwal, Minh N. H. Nguyen, Choong Seon Hong

机构: 京畿大学韩国越南 - 韩国信息与通信技术大学越南

摘要: 结合不同的数据模态使深度神经网络能够更有效地处理复杂任务，使多模态学习越来越受欢迎。为了更贴近最终用户利用多模态数据，将多模态学习与保护隐私的训练方法（如联邦学习）相结合至关重要。然而，与传统的单模态学习相比，多模态设置需要为每种模态专门设计编码器，导致模型更大更复杂，需要大量资源。这对于具有有限计算资源和通信带宽的联邦学习客户端构成重大挑战。为了解决这些挑战，我们引入了一种分层联邦多模态学习方法LW-FedMML，将训练过程分解为多个步骤。每个步骤专注于仅训练模型的一部分，从而显著减少内存和计算需求。此外，联邦学习客户端只需与中央服务器交换训练好的模型部分，降低了通信成本。我们在各种联邦学习场景和多模态学习设置下进行了大量实验，以验证我们提出的方法的有效性。结果表明，LW-FedMML可以与传统的端到端联邦多模态学习（FedMML）竞争，同时显著减轻了联邦学习客户端的资源负担。具体而言，LW-FedMML将内存使用量降低了高达2.7倍，计算操作（FLOPs）降低了2.4倍，总通信成本降低了2.3倍。我们还引入了一种渐进式训练方法Prog-FedMML。虽然其资源效率不及LW-FedMML，但Prog-FedMML有可能超越端到端FedMML的性能，使其成为资源约束较少的场景的可行选择。

论文链接: https://arxiv.org/abs/2407.15426

在基于Transformer的模型中，通过权重洗牌来改善DPSGD

原标题: Weights Shuffling for Improving DPSGD in Transformer-based Models

作者: Jungang Yang, Zhe Ji, Liyao Xiang

机构: 上海交通大学

摘要: 差分隐私（DP）机制，尤其是在高维环境中，常常面临在不损害数据效用的情况下保持隐私的挑战。本研究在差分隐私随机梯度下降（DPSGD）中引入了一种创新的洗牌机制，以增强大模型的效用，同时保持与未洗牌情况下相同的隐私保证。具体来说，我们揭示了随机洗牌为梯度下降轨迹带来了额外的随机性，同时由于置换不变性属性，不会影响模型的准确性——模型可以在置换下等效地在前向和后向传播中计算。我们展示了置换确实在理论上提高了DPSGD的隐私保证，但跟踪洗牌模型上的确切隐私损失尤为具有挑战性。因此，我们利用对数正态分布之和的近似来推导出洗牌DPSGD满足DP保证的条件。审计结果表明，我们的条件提供了与审计隐私水平非常接近的DP保证，展示了我们的方法在实践中是一种有效的估计。实验结果验证了我们的理论推导，并说明我们的机制在各种模型和任务上优于现有技术基线的DPSGD准确性。

论文链接: https://arxiv.org/abs/2407.15414

从观测数据直接训练和初始化的数据驱动天气预报

原标题: Data driven weather forecasts trained and initialised directly from observations

作者: Anthony McNally, Christian Lessig, Peter Lean, Eulalie Boucher, Mihai Alexe, Ewan Pinnington, Matthew Chantry, Simon Lang, Chris Burrows, Marcin Chrust, Florian Pinault, Ethel Villeneuve, Niels Bormann, Sean Healy

机构: 欧洲中期天气预报中心(ECMWF)

摘要: 熟练的机器学习天气预报挑战了我们对数值天气预报的方法，表现出与传统基于物理的方法相比具有竞争力的性能。数据驱动系统通过学习来自诸如ECMWF ERA5之类的过去天气的长期历史记录，已经被训练用于预测未来天气。这些数据集已经免费提供给更广泛的研究社区，包括商业部门，这是ML预测系统迅速崛起和达到的准确性水平的一个重要因素。然而，用于训练的历史再分析和用于初始条件的实时分析是通过数据同化产生的，这是观测值与基于物理的预报模型的最佳融合。因此，许多ML预测系统对其试图挑战的基于物理的模型具有隐含且未量化的依赖性。在这里，我们提出了一种新方法，训练一个神经网络纯粹从历史观测中预测未来天气，不依赖再分析。我们使用原始观测来初始化大气模型（在观测空间中），直接从观测本身学习。通过预测未来时间和任意位置的天气参数观测（例如SYNOP地面数据），可以获得关键天气参数（如地表温度和风）的预测。我们提供了关于预测未来12小时观测的初步结果。这些结果已经展示了成功学习真实观测中捕获的物理过程的时间演变。我们认为，这种新方法通过纯粹停留在观测空间，避开了许多传统数据同化的挑战，可以利用更广泛的观测，并且可以轻松扩展到同时预测完整地球系统（大气、陆地、海洋和组成部分）。

论文链接: https://arxiv.org/abs/2407.15586

用一颗药丸进行毒害：规避联邦学习中的检测

原标题: Poisoning with A Pill: Circumventing Detection in Federated Learning

作者: Hanxi Guo, Hao Wang, Tao Song, Tianhang Zheng, Yang Hua, Haibing Guan, Xiangyu Zhang

机构: 普渡大学斯蒂文斯理工学院上海交通大学浙江大学皇后大学贝尔法斯特

摘要: 在没有直接访问客户数据的情况下，联邦学习（FL）以数据隐私保护方面的独特优势而闻名，是现有分布式机器学习技术中的一种。然而，其分布式和迭代的特性使得FL天生容易受到各种毒化攻击的威胁。为了应对这些威胁，人们提出了大量的防御方法来过滤恶意客户端，使用各种检测指标。根据我们对现有攻击和防御的分析，我们发现对模型冗余性缺乏关注。在神经网络中，各种模型参数对模型性能的贡献是不同的。然而，在FL中现有的攻击会使用相同策略操纵所有模型更新参数，使它们容易被常见的防御措施检测到。与此同时，这些防御措施也倾向于分析整个模型更新的整体统计特征，为复杂的攻击留下了空间。基于这些观察，本文提出了一种通用的、攻击无关的增强方法，旨在增强现有FL毒化攻击对FL检测的有效性和隐蔽性，指出了现有防御的固有缺陷，并揭示了细粒度FL安全的必要性。具体来说，我们采用了一种三阶段方法，通过在FL训练过程中战略性地构建、生成和注入毒药（由现有攻击生成）到一个药丸（具有新结构的小子网）中，分别命名为药丸构建、药丸毒化和药丸注射。大量实验结果表明，通过我们的方法增强的FL毒化攻击可以绕过所有流行的防御措施，并且在IID和非IID数据上，无论是跨边界还是跨设备的FL系统中，错误率可以增加高达7倍，平均错误率增加超过2倍。

论文链接: https://arxiv.org/abs/2407.15389

通过 R 峰对齐增强心电图分析的 Rlign 算法，用于可解释的分类和聚类

原标题: The Rlign Algorithm for Enhanced Electrocardiogram Analysis through R-Peak Alignment for Explainable Classification and Clustering

作者: Lucas Plagwitz, Lucas Bickmann, Michael Fujarski, Alexander Brenner, Warnes Gobalakrishnan, Lars Eckardt, Antonius Büscher, Julian Varghese

机构: 明斯特大学电子科技大学

摘要: 心电图（ECG）记录长期以来在诊断不同心脏疾病方面至关重要。最近，在利用机器学习方法进行自动ECG处理的领域中，主要通过在原始ECG信号上利用深度学习方法获得了重要性。像卷积神经网络（CNNs）这样的模型的一个主要优势是它们能够有效处理生物医学成像或信号数据。然而，这种优势受到与它们缺乏可解释性、需要大量训练数据以及在将它们适应无监督聚类任务时涉及的复杂性相关的挑战的限制。在解决这些任务时，我们旨在通过利用半结构化、循环形式的支持向量机和主成分分析等浅层学习技术重新引入ECG信号处理中。为此，我们开发并评估了一种有效地将ECG信号重构为完全结构化格式的转换，从而便于利用浅层学习算法进行后续分析。在这项研究中，我们提出了这种适应性转换方法，通过将数据集中所有信号中的R峰进行对齐，并重新采样R峰之间的段，无论是否存在心率依赖性。我们展示了这种转换对于传统分析技术在分类、聚类和可解释性领域的巨大益处，优于商业软件的中位心跳转换和CNN方法。我们的方法证明了浅层机器学习方法在处理有限训练数据时相对于CNN的显著优势。此外，我们发布了一个经过充分测试且可公开访问的代码框架，提供了一个强大的对齐流水线，以支持未来研究，可在此https URL imi-ms/rlign获取。

论文链接: https://arxiv.org/abs/2407.15555

Github: https://github.com/

利用红外热像测温技术进行发热检测：通过机器学习技术提高准确性

原标题: Fever Detection with Infrared Thermography: Enhancing Accuracy through Machine Learning Techniques

作者: Parsa Razmara, Tina Khezresmaeilzadeh, B. Keith Jenkins

机构: 1. 1、帕萨·拉兹玛拉，蒂娜·凯兹雷斯迈尔扎德，B·基思·詹金斯 -

摘要: 新冠疫情凸显了全球卫生系统中先进诊断工具的必要性。红外热像测温（IRT）已被证明是一种关键的非接触测量体温的方法，对于识别与COVID-19等传染病相关的发热症状至关重要。传统的非接触红外体温计（NCITs）通常在读数上存在显著的变异性。为了解决这个问题，我们将机器学习算法与IRT相结合，以提高温度测量的准确性和可靠性。我们的研究系统地评估了使用启发式特征工程技术的各种回归模型，重点关注特征的生理相关性和统计显著性。利用这些技术的卷积神经网络（CNN）模型实现了最低的RMSE为0.2223，表现优越，比先前文献报道的结果更好。在非神经网络模型中，分箱法的表现最佳，RMSE为0.2296。我们的研究结果突显了将先进特征工程与机器学习相结合以提高诊断工具效果的潜力，对其他非接触或远程感测生物医学应用也具有影响。本文对这些方法进行了全面分析，为非侵入性医学诊断领域的未来研究奠定了基础。

论文链接: https://arxiv.org/abs/2407.15302

Affordance Labeling and Exploration: 基于流形的方法

原标题: Affordance Labeling and Exploration: A Manifold-Based Approach

作者: İsmail Özçil, A. Buğra Koku

机构: 中东技术大学METU 罗卡普和人工智能中心

摘要: 计算能力的进步显著缩短了深度学习的训练时间，促进了为对象识别设计的网络的快速发展。然而，与对象识别相反，对对象效用的探索，即对象的可支配性，却受到了相对较少的关注。这项工作侧重于利用现有网络对对象分类数据集进行训练，探索对象效用的问题。虽然预训练网络已被证明在迁移学习中对分类任务至关重要，但这项工作与传统的对象分类方法有所不同。相反，它利用预训练网络来识别效用标签，无需专门的层，避免通过添加分类层来修改最终层。为了促进在没有这些修改的情况下确定效用标签，测试了两种方法，即子空间聚类和流形曲率方法。这些方法为效用标签识别提供了独特的视角。特别是，流形曲率方法已成功地与九种不同的预训练网络进行了测试，每种网络的准确率均超过95%。此外，观察到流形曲率和子空间聚类方法探索了地面真相中未标记的效用标签，但在各种情况下对象提供了支持。

论文链接: https://arxiv.org/abs/2407.15479

在没有时间反演的情况下进行桥梁的得分匹配

原标题: Score matching for bridges without time-reversals

作者: Elizabeth L. Baker, Moritz Schauer, Stefan Sommer

机构: 哥本哈根大学科技大学乌普萨拉大学

摘要: 我们提出了一种使用得分匹配方法学习桥式扩散过程的新算法。我们的方法依赖于颠倒正向过程的动力学，并利用这一点来学习一个得分函数，通过杜布的 $h$ -变换，这使我们得到了一个桥式扩散过程；也就是，一个在端点条件下的过程。与先前的方法相比，我们的方法直接学习给定 $t, Y$ 的得分项 $\nabla_x \log p(t, x; T, y)$ ，完全避免了首先学习时间反演的需要。我们将我们的算法与现有方法进行比较，发现它在使用（学习的）时间反演来学习得分项时表现优异。该代码可以在此 https URL 找到。

论文链接: https://arxiv.org/abs/2407.15455

Github: https://github.com/libbylbaker/forward_bridge

通过无标签后处理实现在人口统计学平等约束下的回归

原标题: Regression under demographic parity constraints via unlabeled post-processing

作者: Evgenii Chzhen (LMO, CELESTE), Mohamed Hebiri (LAMA), Gayane Taturyan (LAMA, IMT)

机构: 法国国家科学研究中心 (CNRS) Université Paris-Saclay Université Gustave Eiffel IRT SystemX Université Paul-Sabatier

摘要: 我们解决了在执行回归时确保人口统计学平等的问题，即使在推断过程中没有访问敏感属性。我们提出了一种通用的后处理算法，利用对回归函数和敏感属性预测器的准确估计，生成符合人口统计学平等约束的预测。我们的方法涉及对平滑凸函数的离散化和随机最小化。它适用于在线后处理和仅涉及未标记数据的多类分类任务。与先前的方法不同，我们的方法完全是基于理论的。我们需要对凸函数的梯度范数进行精确控制，因此，我们依赖于比标准随机梯度下降更高级的技术。我们的算法得到了有限样本分析和后处理边界的支持，实验结果验证了我们的理论发现。

论文链接: https://arxiv.org/abs/2407.15453

vTensor：灵活的虚拟张量管理，用于高效的大语言模型服务。

原标题: vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving

作者: Jiale Xu, Rui Zhang, Cong Guo, Weiming Hu, Zihan Liu, Feiyang Wu, Yu Feng, Shixuan Sun, Changxu Shao, Yuhong Guo, Junping Zhao, Ke Zhang, Minyi Guo, Jingwen Leng

机构: 上海交通大学上海奇智研究院 Ant Group

摘要: 大语言模型（LLMs）被广泛应用于各个领域，处理每天数百万的请求。需求激增带来了优化吞吐量和延迟的重大挑战，同时保持成本可控。键-值（KV）缓存作为一种保留先前计算结果的标准方法，使LLM推断高度受到内存限制。虽然批处理策略可以提升性能，但往往会导致显著的内存碎片化。尽管像vLLM这样的尖端系统通过分页注意机制缓解了KV缓存的碎片化，但由于页面管理和计算内核紧密耦合，仍然存在内存和计算操作效率低下的问题。

本研究介绍了vTensor，这是一种基于GPU虚拟内存管理（VMM）的创新张量结构，用于LLM推断。vTensor通过将计算与内存整理解耦，并提供动态可扩展性，解决了现有限制。我们的框架采用CPU-GPU异构方法，确保高效、无碎片的内存管理，同时适应不同LLM架构中的各种计算内核。实验结果表明，vTensor在不同模型中实现了平均加速比1.86倍，在多轮对话场景中最高可达2.42倍。此外，vTensor在内核评估中提供了平均加速比2.12倍和3.15倍，分别相对于SGLang Triton前缀预填充内核和vLLM分页注意内核可达3.92倍和3.27倍。此外，与vLLM相比，它在NVIDIA A100 GPU上释放了约71.25%（57GB）的内存，从而支持更多内存密集型工作负载。

论文链接: https://arxiv.org/abs/2407.15309

通过组合多次子抽样进行预测推断的 U-learning：应用于 LASSO 和神经网络

原标题: U-learning for Prediction Inference via Combinatory Multi-Subsampling: With Applications to LASSO and Neural Networks

作者: Zhe Fei, Yi Li

机构: 加利福尼亚大学河滨分校密歇根大学

摘要: 表观遗传学衰老钟在估计个体生物年龄方面发挥关键作用，通过检查其基因组中众多 CpG（Cytosine-phosphate-Guanine）位点的DNA甲基化模式。然而，在对预测的表观年龄，或更广泛地说，对从高维输入导出的预测进行有效推断时，会面临挑战。我们引入了一种新颖的 U-learning 方法，通过组合多子抽样来进行集成预测，并在传统渐近方法不适用时，为连续结果的预测构建置信区间。更具体地说，我们的方法将集成估计器概念化为广义 U-统计框架，并调用 Hájek 投影来推导预测的方差，并构建具有有效条件覆盖概率的置信区间。我们将我们的方法应用于两种常用的预测算法，Lasso 和深度神经网络（DNNs），并通过广泛的数值研究说明推断的有效性。我们已将这些方法应用于预测患有各种健康状况的患者的DNA甲基化年龄（DNAmAge），旨在准确表征衰老过程，并可能指导抗衰老干预措施。

论文链接: https://arxiv.org/abs/2407.15301

在寻找量子优势：估计量子核方法中的拍数

原标题: In Search of Quantum Advantage: Estimating the Number of Shots in Quantum Kernel Methods

作者: Artur Miroszewski, Marco Fellous Asiani, Jakub Mielczarek, Bertrand Le Saux, Jakub Nalepa

机构: 雅盖隆大学华沙大学欧洲空间局西里西亚理工大学 KP实验室

摘要: 量子机器学习（QML）通过量子核机器等方法引起了广泛关注。虽然这些方法具有相当大的潜力，但它们的量子特性也带来了固有挑战。一个主要挑战是由于在量子设备上执行的电路运行次数有限，导致估计核数值的分辨率有限。在这项研究中，我们提出了一套规则和启发式方法，用于估计量子核方法中所需的电路运行次数。我们介绍了两个需要通过额外电路运行增加测量精度的关键效应：扩散效应和集中效应。这些效应在忠实度和投影量子核的背景下进行了分析。为了解决这些现象，我们开发了一种估计核数值所需精度的方法，进而将其转化为电路运行次数。我们的方法经过大量数值模拟验证，重点关注指数值集中问题。我们强调，量子核方法不仅应该从机器学习性能的角度来考虑，还应该从资源消耗的背景下来考虑。结果揭示了量子核方法可能带来的好处，为它们在量子机器学习任务中的应用提供了指导。

论文链接: https://arxiv.org/abs/2407.15776

针对相似音高说话者的语音分离模型的稳健性

原标题: Robustness of Speech Separation Models for Similar-pitch Speakers

作者: Bunlong Lay, Sebastian Zaczek, Kristina Tesch, Timo Gerkmann

机构: 汉堡大学

摘要: 单声道语音分离是在多说话人环境中增强语音识别系统的关键任务。本文研究了最先进的神经网络模型在说话人音高差异极小的情况下的稳健性。基于Ditter和Gerkmann早期的研究结果，他们发现在类似音高条件下，2018年的Chimera++存在显著的性能下降，我们的研究将分析扩展到更加最新和复杂的神经网络模型。我们的实验表明，现代模型在匹配训练和测试条件下大大减少了性能差距。然而，在不匹配条件下仍存在显著的性能差距，模型在音高差异较大时表现良好，但如果说话人的音高相似，则表现较差。这些发现促使进一步研究语音分离模型对音高相似说话人和未知数据的泛化能力。

论文链接: https://arxiv.org/abs/2407.15749

使用物理信息的 Kolmogorov-Arnold 网络从拉格朗日速度测量推断湍流速度和温度场及它们的统计量

原标题: Inferring turbulent velocity and temperature fields and their statistics from Lagrangian velocity measurements using physics-informed Kolmogorov-Arnold Networks

作者: Juan Diego Toscano, Theo Käufer, Martin Maxey, Christian Cierpka, George Em Karniadakis

机构: 布朗大学德国工业大学伊尔梅瑙格鲁吉亚理工学院

摘要: 我们提出了人工智能速度测温（AIVT）方法，用于从实验湍流速度数据推断隐藏的温度场。这种基于物理的机器学习方法使我们能够仅使用稀疏的速度数据推断连续的温度场，从而消除了直接温度测量的需求。具体来说，AIVT基于物理信息的 Kolmogorov-Arnold 网络（而非神经网络），通过优化组合损失函数进行训练，该函数最小化了速度数据、边界条件和控制方程的残差。我们将AIVT应用于我们通过结合粒子图像测温和拉格朗日粒子跟踪获得的独特实验体积和同时温度速度数据集，该数据集涉及瑞利-贝纳德对流（RBC）。这使我们能够直接比较AIVT的预测和测量结果。我们展示了我们可以从稀疏的实验数据中重建和推断连续和瞬时速度和温度场，其保真度可与湍流的直接数值模拟（DNS）相媲美。这反过来使我们能够计算用于量化湍流的重要量，如波动、粘性和热耗散以及QR分布。利用AIVT处理实验数据以推断DNS级别保真度的湍流场，是打破目前在高雷诺数下量化理解湍流的僵局的一个有前途的途径，因为在这种情况下DNS在计算上是不可行的。

论文链接: https://arxiv.org/abs/2407.15727

超越规模和类别平衡：Alpha作为深度学习新数据集质量度量标准

原标题: Beyond Size and Class Balance: Alpha as a New Dataset Quality Metric for Deep Learning

作者: Josiah Couch, Ramy Arnaout, Rima Arnaout

摘要: 在深度学习中，要在图像分类任务上取得高性能，需要多样化的训练集。然而，数据集的多样性尚未完全被理解。目前的最佳实践是尝试最大化数据集的大小和类别平衡。然而，大型、类别平衡的数据集并不能保证是多样化的：图像仍然可以是任意相似的。我们假设，对于给定的模型架构，通过更直接地最大化数据集的多样性，可以实现更好的模型性能。这可以为性能改进打开一条道路，而无需额外的计算资源或架构进步。为了测试这一假设，我们引入了一个全面的多样性度量框架，该框架是在生态学中发展的，通过考虑图像之间的相似性和差异来概括熟悉的量，如香农熵。（数据集大小和类别平衡从这个框架中作为特例出现。）通过分析代表超声波、X射线、CT和病理图像的七个医学数据集中的数千个子集，我们发现性能的最佳相关因素不是大小或类别平衡，而是 $A$ – “大阿尔法” – 一组广义熵度量，被解释为数据集中图像-类别对的有效数量，在考虑图像之间的相似性后。其中之一， $A_0$ ，解释了所有子集中平衡准确率变化的67%，而类别平衡只有54%，大小只有39%。最佳组合是大小和 $A_1$ （79%），它胜过了大小和类别平衡（74%）。 $A$ 在单个数据集的子集以及跨数据集的子集中表现最佳，支持这些结果的普适性。我们提出将最大化 $A$ 作为在医学图像深度学习中改善性能的潜在新方法。