2024年7月29日Arxiv机器学习相关论文

SOAP-RL:在POMDP环境中用于强化学习的顺序选项优势传播

原标题: SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments

作者: Shu Ishida, João F. Henriques

机构: 牛津大学

摘要: 这项工作比较了将强化学习算法扩展到带有选项的部分可观察马尔可夫决策过程(POMDPs)的不同方式。一种看法认为选项是一种时间上延长的动作,可以被视为一种记忆,使智能体能够保留超出策略上下文窗口的历史信息。虽然选项分配可以使用启发式和手工制定的目标来处理,但在没有明确监督的情况下学习时间一致的选项和相关子策略是一项挑战。为了解决这个问题,提出并深入研究了两种算法,PPOEM 和 SOAP。PPOEM 应用前向-后向算法(用于隐马尔可夫模型)来优化带有选项的策略的预期回报。然而,这种学习方法在政策内执行期间是不稳定的。它也不适用于学习因果策略,因为在离线序列中优化选项分配时,选项分配是针对整个情节可用的。作为另一种方法,SOAP 评估了最佳选项分配的策略梯度。它将广义优势估计(GAE)的概念扩展到通过时间传播选项优势,这相当于对选项策略梯度执行时间反向传播的分析等效方法。这种选项策略仅取决于智能体的历史,而不是未来动作。在与竞争基线的比较中,SOAP 表现出最稳健的性能,在 POMDP 走廊环境以及 Atari 和 MuJoCo 等标准基准测试中正确发现选项,优于 PPOEM、LSTM 和 Option-Critic 基线。开源代码可在此 https URL 获取。

论文链接: https://arxiv.org/abs/2407.18913

Github: https://github.com/shuishida/SoapRL

我们在训练过程中真的需要图卷积吗?轻量级后训练图-ODE 用于高效推荐

原标题: Do We Really Need Graph Convolution During Training? Light Post-Training Graph-ODE for Efficient Recommendation

作者: Weizhi Zhang, Liangwei Yang, Zihe Song, Henry Peng Zou, Ke Xu, Henry Peng Zou, Liancheng Fang, Philip S. Yu

机构: 芝加哥伊利诺伊大学

摘要: 图卷积网络(GCNs)在训练推荐系统(RecSys)中的效率和可扩展性一直是持续关注的问题,阻碍了它们在实际应用中的部署。本文对训练阶段中图卷积的必要性进行了关键审查,并提出了一种创新的替代方案:轻量级后训练图常微分方程(LightGODE)。我们的研究发现,GCNs的好处在测试阶段比在训练阶段更为显著。受此启发,LightGODE利用一种新颖的后训练图卷积方法,绕过GCNs的计算密集型消息传递,并采用非参数连续图常微分方程(ODE)动态建模节点表示。这种方法显著减少了训练时间,同时实现了精细的后训练图卷积,避免了原始训练嵌入空间的扭曲,称为嵌入不一致问题。我们在几个不同规模的真实数据集上验证了我们的模型,表明LightGODE不仅在效率和有效性方面优于基于GCN的模型,而且显著减轻了与更深的图卷积层常见相关的嵌入不一致问题。我们的LightGODE挑战了RecSys训练中的主流范式,并建议重新评估图卷积的作用,可能引导未来高效大规模基于图的RecSys的发展。

论文链接: https://arxiv.org/abs/2407.18910

利用大语言模型进行小分子优化

原标题: Small Molecule Optimization with Large Language Models

作者: Philipp Guevorguian, Menua Bedrosian, Tigran Fahradyan, Gayane Chilingaryan, Hrant Khachatrian, Armen Aghajanyan

机构: 亚美尼亚大学 约热万国立大学

摘要: 最近大语言模型的进展为生成式分子药物设计开辟了新的可能性。我们提出了Chemlactica和Chemma,这两个语言模型在一个包含计算属性的新颖语料库(总计40B个Token,包含1.1亿个分子)上进行了微调。这些模型展现出在生成具有指定属性的分子和从有限样本中预测新的分子特性方面的强大性能。我们引入了一种新颖的优化算法,利用我们的语言模型来优化分子以获得任意属性,即使只能有限地访问黑匣子预测器。我们的方法结合了遗传算法、拒绝抽样和提示优化的思想。它在多个分子优化基准测试中实现了最先进的性能,包括在实际分子优化方面比以前的方法提高了8%。我们公开发布了训练语料库、语言模型和优化算法。

论文链接: https://arxiv.org/abs/2407.18897

揭示隐私漏洞:探讨图数据结构在其中的作用

原标题: Unveiling Privacy Vulnerabilities: Investigating the Role of Structure in Graph Data

作者: Hanyang Yuan, Jiarong Xu, Cong Wang, Ziqi Yang, Chunping Wang, Keting Yin, Yang Yang

机构: 浙江大学 东南大学 北京大学 辅仁金融集团

摘要: 用户信息的公开共享为对手推断私人数据打开了大门,导致隐私泄露并促进恶意活动。虽然许多研究集中在通过公开用户属性泄露隐私,但与用户关系曝光相关的威胁,特别是通过网络结构,往往被忽视。本研究旨在填补这一关键空白,通过深入了解和保护免受源自网络结构的隐私风险,超越了与邻居的直接连接,包括间接网络结构模式的更广泛影响。为实现这一目标,我们首先研究了通过结构泄露的图隐私泄露问题,并引入了一种新颖的度量标准,广义同质比,以量化在图隐私泄露中导致隐私泄露风险的各种机制。基于这一认识,我们开发了一种新颖的图私有属性推断攻击,作为评估网络结构下潜在隐私泄露可能性的关键工具,在最坏情况下。为了保护用户的私人数据免受此类漏洞的影响,我们提出了一种图数据发布方法,结合可学习的图采样技术,有效地将原始图转换为保护隐私的版本。大量实验证明,我们的攻击模型对用户隐私构成重大威胁,而我们的图数据发布方法成功地在隐私效用权衡方面实现了最佳结果,与基线相比。

论文链接: https://arxiv.org/abs/2407.18564

一个加速的多层蒙特卡洛方法,用于具有一般策略参数化的平均奖励强化学习

原标题: An Accelerated Multi-level Monte Carlo Approach for Average Reward Reinforcement Learning with General Policy Parametrization

作者: Swetha Ganesh, Vaneet Aggarwal

机构: 印度科学学院 普渡大学

摘要: 在我们的研究中,我们深入研究了具有一般策略参数化的平均奖励强化学习。在这个领域,当前的保证要么保证不足,要么需要先验的混合时间知识。为了解决这些问题,我们引入了随机加速自然演员评论家(Randomized Accelerated Natural Actor Critic)方法,该方法集成了多层蒙特卡洛(Multi-level Monte-Carlo)和自然演员评论家(Natural Actor Critic)。我们的方法是第一个实现全局收敛速率为 O ~ ( 1 / T ) \tilde{\mathcal{O}}(1/\sqrt{T}) O~(1/T ),而无需了解混合时间知识,明显超过了 O ~ ( 1 / T 1 / 4 ) \tilde{\mathcal{O}}(1/T^{1/4}) O~(1/T1/4)的最新界限。

论文链接: https://arxiv.org/abs/2407.18878

在复杂纺织品制造用例中利用可解释技术进行质量预测

原标题: Utilising Explainable Techniques for Quality Prediction in a Complex Textiles Manufacturing Use Case

作者: Briony Forsberg, Dr Henry Williams, Prof Bruce MacDonald, Tracy Chen, Dr Reza Hamzeh, Dr Kirstine Hulse

机构: 新西兰制造商(New Zealand manufacturer)

摘要: 这篇论文开发了一种方法,使用可解释技术对复杂纺织品制造数据集中的产品故障实例进行分类。该研究使用的数据集来自新西兰羊毛地毯和地毯制造商。在研究准确性和可解释性之间的权衡时,评估了三种不同的基于树的分类算法:决策树和两种集成方法,随机森林和XGBoost。此外,还评估了三种特征选择方法:使用卡方作为评分函数的SelectKBest方法,皮尔逊相关系数,以及Boruta算法。毫不奇怪,集成方法通常比决策树模型产生更好的结果。当与Boruta特征选择技术结合时,随机森林模型在整体上产生了最佳结果。最后,使用树集成解释技术提取规则列表,以捕获经过训练的模型对分类的必要和充分条件,这些条件可以被人类轻松解释。值得注意的是,提取的规则列表中的几个特征是统计特征和计算特征,这些特征被添加到原始数据集中。这表明在数据预处理阶段引入额外信息对最终模型性能的影响。

论文链接: https://arxiv.org/abs/2407.18544

通过表示学习和图正则化进行下行链路 CCM 估计

原标题: Downlink CCM Estimation via Representation Learning with Graph Regularization

作者: Melih Can Zerin, Elif Vural, Ali Özgür Yılmaz

摘要: 在这篇论文中,我们提出了一种用于频分双工(FDD)大规模多输入多输出(MIMO)通信系统中下行(DL)信道协方差矩阵(CCM)估计的算法,基站(BS)具有均匀线性阵列(ULA)天线结构。我们利用上行(UL)CCM和DL CCM之间由于角度互易性的固有相似性。我们考虑一个设置,其中通过映射函数将UL CCM映射到DL CCM。我们首先通过构建映射函数对学习非线性嵌入的理论误差进行分析,指出了映射函数的Lipschitz正则性对于实现高估计性能的重要性。然后,基于理论基础,我们提出了一种表示学习算法作为估计问题的解决方案,其中选择高斯RBF核插值器将UL CCM映射到它们的DL对应物。所提出的算法基于优化目标函数,该函数适合在训练数据集中的DL CCM和UL CCM样本之间拟合回归模型,并保留UL CCM空间中数据的局部几何结构,同时根据我们的理论发现明确调节映射函数的Lipschitz连续性。通过模拟,所提出的算法在三个误差指标方面超越了基准方法。

论文链接: https://arxiv.org/abs/2407.18865

纺织品异常检测:对地毯自动质量检验的最新技术进行评估

原标题: Textile Anomaly Detection: Evaluation of the State-of-the-Art for Automated Quality Inspection of Carpet

作者: Briony Forsberg, Dr Henry Williams, Prof Bruce MacDonald, Tracy Chen, Dr Kirstine Hulse

机构: 奥克兰大学 中心自动化和机器人工程科学 新西兰
Bremworth有限公司 Auckland 新西兰

摘要: 在这项研究中,评估了最先进的无监督检测模型,以实现对羊毛地毯进行自动异常检测。创建了一个包含四种独特地毯纹理类型的自定义数据集,以彻底测试模型及其在检测复杂纹理中微小异常时的稳健性。由于在制造业使用案例中需要在线检测系统,因此本研究中重要的指标包括检测异常区域的准确性、误检数量以及每个模型的推理时间以实现实时性能。在评估的模型中,基于学生-教师网络的方法平均具有最高的检测准确性和最低的误检率。当在多类数据集上训练模型时,发现这些模型的结果与单类训练相比要么相当,要么更好。最后,在检测速度方面,除了生成模型外,所有其他评估模型在GPU上的推理时间相当,在每张图像平均为0.16秒。在CPU上,这些模型中的大多数通常产生的结果是GPU推理时间的1.5到2倍。

论文链接: https://arxiv.org/abs/2407.18450

构建增强的互信息用于在线类增量学习

原标题: Constructing Enhanced Mutual Information for Online Class-Incremental Learning

作者: Huan Zhang, Fan Lyu, Shenghua Fan, Yujin Zheng, Dingwen Wang

机构: 清华大学 百度

摘要: 在线课程增量式持续学习(OCIL)解决了从单一通道数据流中持续学习、适应新任务并减轻灾难性遗忘的挑战。最近,基于互信息(MI)的方法在OCIL中表现出了很好的性能。然而,现有的基于MI的方法将各种知识组件孤立处理,忽略了跨任务之间的知识混淆。这种狭窄的关注简单的MI知识对齐可能导致旧任务在引入新任务时容易被遗忘,从而冒着过去和现在之间共同部分丢失的风险。为了解决这个问题,我们从多样性、代表性和可分离性的角度分析MI关系,并提出了一种基于知识解耦的增强互信息(EMI)方法。EMI包括多样性互信息(DMI)、代表性互信息(RMI)和可分离性互信息(SMI)。DMI通过考虑类间样本特征的相似关系来使类内样本特征多样化,从而使网络学习更一般的知识。RMI总结了每个类别的代表性特征,并将样本特征与这些代表性特征对齐,使类内样本分布更加紧凑。SMI为类间代表性特征建立了互信息关系,增强了代表性特征的稳定性,同时增加了类间代表性特征之间的区别,从而在类别之间创建清晰的边界。对广泛使用的基准数据集进行的大量实验结果表明,EMI相对于最先进的基准方法具有更优越的性能。

论文链接: https://arxiv.org/abs/2407.18526

其他链接: http://knowledge.To

QT-TDM:使用Transformer动态模型和自回归Q学习进行规划

原标题: QT-TDM: Planning with Transformer Dynamics Model and Autoregressive Q-Learning

作者: Mostafa Kotb, Cornelius Weber, Muhammad Burhan Hafez, Stefan Wermter

机构: 柏林大学 汉堡大学

摘要: 受到Transformer架构在自然语言处理和计算机视觉中取得的成功的启发,我们研究了在强化学习(RL)中使用Transformers的可能性,特别是在使用Transformer动态模型(TDMs)对环境动态进行建模方面。我们评估了TDM在实时规划场景中连续控制的能力,采用模型预测控制(MPC)。虽然Transformer在长期预测方面表现出色,但它们的标记机制和自回归性质导致在长期规划中成本高昂,特别是当环境的维度增加时。为了缓解这个问题,我们使用TDM进行短期规划,并使用单独的Q-Transformer(QT)模型学习自回归离散Q函数,以估计超出短期规划的长期回报。我们提出的方法,QT-TDM,将Transformer作为动态模型的强大预测能力与无模型的Q-Transformer的高效性相结合,以减轻与实时规划相关的计算负担。在多样的基于状态的连续控制任务中的实验表明,与现有基于Transformer的RL模型相比,QT-TDM在性能和样本效率上表现更优,同时实现了快速和高效的推断。

论文链接: https://arxiv.org/abs/2407.18841

通过统一知识蒸馏实现通用病理基础模型

原标题: Towards A Generalizable Pathology Foundation Model via Unified Knowledge Distillation

作者: Jiabo Ma, Zhengrui Guo, Fengtao Zhou, Yihui Wang, Yingxue Xu, Yu Cai, Zhengjie Zhu, Cheng Jin, Yi Lin Xinrui Jiang, Anjia Han, Li Liang, Ronald Cheong Kin Chan, Jiguang Wang, Kwang-Ting Cheng, Hao Chen

机构: 香港科技大学 中国香港特别行政区

摘要: 在大规模数据集上预训练的基础模型正在彻底改变计算病理学(CPath)领域。基础模型的泛化能力对于在各种下游临床任务中取得成功至关重要。然而,目前的基础模型仅在有限类型和数量的任务上进行了评估,其泛化能力和整体性能尚不清楚。为了填补这一空白,我们建立了一个最全面的基准来评估现成的基础模型在六种不同临床任务类型上的表现,涵盖了总共39个具体任务。我们的研究结果显示,现有的基础模型在某些任务类型上表现出色,但在有效处理全面的临床任务方面存在困难。为了提高病理基础模型的泛化能力,我们提出了一个统一的知识蒸馏框架,包括专家知识蒸馏和自我知识蒸馏,前者允许模型从多个专家模型的知识中学习,而后者利用自我蒸馏实现通过局部-全局对齐进行图像表示学习。基于这一框架,我们预训练了一个通用病理基础模型(GPFM),该模型在一个包含来自大约86,000个公共H&E全切片的190 million张图像的大规模数据集上进行了预训练,涵盖了34种主要组织类型。在建立的基准上评估,GPFM取得了令人印象深刻的平均排名1.36,其中有29个任务排名第一,而第二名模型UNI的平均排名为2.96,仅有4个任务排名第一。GPFM的优越泛化能力展示了其在广泛临床任务范围内的出色建模能力,将其定位为CPath中特征表示的新基石。

论文链接: https://arxiv.org/abs/2407.18449

DTFormer:一种基于Transformer的离散时间动态图表示学习方法

原标题: DTFormer: A Transformer-Based Method for Discrete-Time Dynamic Graph Representation Learning

作者: Xi Chen, Yun Xiong, Siwei Zhang, Jiawei Zhang, Yao Zhang, Shiyang Zhou, Xixi Wu, Mingyang Zhang, Tengfei Liu, Weiqiang Wang

机构: 复旦大学 加州大学戴维斯分校 蚂蚁集团

摘要: 在现实世界的实现中普遍存在的离散时间动态图(DTDGs),以其易于数据获取而闻名,引起了学术研究人员和行业从业者的广泛关注。对于建模时间变化实体及其不断演变的连接动态,DTDGs的表示学习已被广泛应用。目前,DTDG表示学习主要依赖于GNN+RNN架构,这表现出图神经网络(GNNs)和循环神经网络(RNNs)的固有局限性。GNNs在模型架构加深时存在过度平滑问题,而RNNs则难以有效捕捉长期依赖关系。GNN+RNN架构还面临着扩展到大型图和长序列的挑战。此外,这些方法通常单独计算节点表示,并仅关注单个节点特征,从而忽视了正在预测其连接的两个节点之间的行为交集,例如两个节点在相同上下文中出现或共享共同邻居的情况。

本文介绍了一种新颖的表示学习方法DTFormer,用于DTDGs,从传统的GNN+RNN框架转向基于Transformer的架构。我们的方法利用注意力机制同时处理每个时间戳内图的拓扑信息和图的时间动态,规避了GNNs和RNNs的上述基本弱点。此外,我们通过整合节点之间的交集关系和集成多补丁模块增强了模型的表达能力。在六个公共动态图基准数据集上进行的大量实验证实了我们模型的有效性,实现了SOTA性能。

论文链接: https://arxiv.org/abs/2407.18523

强化学习的跨环境超参数设置基准测试

原标题: The Cross-environment Hyperparameter Setting Benchmark for Reinforcement Learning

作者: Andrew Patterson, Samuel Neumann, Raksha Kumaraswamy, Martha White, Adam White

机构: 阿尔伯塔大学

摘要: 本文介绍了一种新的经验方法,即跨环境超参数设置基准(Cross-environment Hyperparameter Setting Benchmark),该方法使用单一超参数设置在不同环境下比较强化学习算法,鼓励算法开发对超参数不敏感。我们证明这一基准对统计噪声具有鲁棒性,并在重复应用中获得定性相似的结果,即使使用少量样本也是如此。这种鲁棒性使得该基准在计算上应用成本低廉,可以以较低成本获得统计上可靠的见解。我们展示了CHS的两个示例实例,一个是在一组六个小控制环境(SC-CHS)上,另一个是在包含28个环境的整个DM Control套件(DMC-CHS)上。最后,为了说明CHS在现代强化学习算法在具有挑战性环境中的适用性,我们进行了一项关于连续控制文献中一个开放问题的新的经验研究。我们展示了在DMC-CHS上使用DDPG算法进行探索时,使用Ornstein-Uhlenbeck噪声和不相关的高斯噪声之间的性能没有实质性差异,这一结论具有很高的置信度。

论文链接: https://arxiv.org/abs/2407.18840

WorkR:智能任务辅助的职业推断

原标题: WorkR: Occupation Inference for Intelligent Task Assistance

作者: Yonchanok Khaokaew, Hao Xue, Mohammad Saiedur Rahaman, Flora D. Salim

机构: 新南威尔士大学 澳大利亚昆士兰大学 墨尔本理工大学

摘要: 数字助理可以利用职业信息提供特定职业的个性化任务支持,包括中断管理、任务规划和建议。数字工作场所助理领域的先前研究要求用户输入其职业信息以获得有效支持。然而,由于许多人每天在多个职业之间切换,当前的解决方案在没有持续用户输入的情况下会出现问题。为了解决这个问题,本研究介绍了WorkR,这是一个利用被动感知来捕获来自各种任务活动的普遍信号的框架,解决了三个挑战:缺乏被动感知架构、职业特征的个性化以及发现职业变量之间的潜在关系。我们认为,应用使用、动作、社交互动和环境等信号可以告知用户的职业。WorkR使用变分自动编码器(VAE)推导潜在特征,用于训练模型推断职业。我们对一个匿名化、上下文丰富的活动和任务日志数据集进行的实验表明,我们的模型可以在六个ISO职业类别中以超过91%的准确率准确推断职业。

论文链接: https://arxiv.org/abs/2407.18518

在广义线性模型中的对话式对抗性学习

原标题: Conversational Dueling Bandits in Generalized Linear Models

作者: Shuhua Yang, Hui Yuan, Xiaoying Zhang, Mengdi Wang, Hong Zhang, Huazheng Wang

机构: 中国科学技术大学 普林斯顿大学 字节跳动 俄勒冈州立大学

摘要: 对话式推荐系统通过与用户互动以获取其对推荐商品的反馈来引出用户偏好。这种系统利用多臂老虎机框架以在线方式学习用户偏好,并在近年取得了巨大成功。然而,现有的对话式老虎机方法存在一些局限性。首先,它们只能让用户对推荐的物品或类别提供明确的二进制反馈,导致解释上存在歧义。在实践中,用户通常面临多个选择。相对反馈以其信息量大而闻名,在推荐系统设计中越来越受欢迎。此外,当前的上下文老虎机方法主要基于线性奖励假设运作,忽略了广义线性模型中的实际非线性奖励结构。因此,在本文中,我们通过将基于相对反馈的对话引入到对话式推荐系统中,通过在广义线性模型(GLM)中集成对决老虎机,并提出了一种名为ConDuel的新型对话式对决老虎机算法。对遗憾上界的理论分析以及对合成和真实数据的实证验证突显了ConDuel的有效性。我们还展示了将我们的算法扩展到多项Logit老虎机,并提供理论和实验保证的潜力,进一步证明了所提出框架的适用性。

论文链接: https://arxiv.org/abs/2407.18488

拉尼翻译指南:拉肖门集的实用归因指导

原标题: Practical Attribution Guidance for Rashomon Sets

作者: Sichao Li, Amanda S. Barnard, Quanling Deng

机构: 澳大利亚国立大学

摘要: 在同一任务中,不同的预测模型可能表现同样出色(拉肖蒙集),但它们对数据提供的解释和结论可能存在冲突。在可解释人工智能(XAI)背景下,拉肖蒙效应被认为是一个关键因素。尽管拉肖蒙集已经在各种情境中被引入和研究,但其实际应用仍处于起步阶段,缺乏足够的指导和评估。我们从实际角度研究了拉肖蒙集抽样的问题,并确定了两个基本公理 - 泛化性和实现稀疏性,探索方法在实际使用中应该满足这两个公理。大多数已知的归因方法都无法满足这两个公理,我们认为这是一个基本弱点。我们使用规范来指导设计一个基于 ϵ \epsilon ϵ-次梯度的抽样方法。我们将这种方法应用于一个基本的数学问题作为概念验证,并将其应用于一组实际数据集,以展示其与现有抽样方法的能力对比。

论文链接: https://arxiv.org/abs/2407.18482

使用图神经网络学习供应链的生产函数

原标题: Learning production functions for supply chains with graph neural networks

作者: Serina Chang, Zhiyin Lin, Benjamin Yan, Swapnil Bembde, Qi Xiu, Chi Heem Wong, Yu Qin, Frank Kloster, Alex Luo, Raj Palleti, Jure Leskovec

机构: 斯坦福大学 哈佳美国有限公司 图兰大学

摘要: 全球经济依赖于货物在供应链网络中的流动,其中节点是公司,边是公司之间的交易。虽然我们可以观察到这些外部交易,但它们受不可见的生产函数的控制,这些函数决定了公司如何将它们接收到的输入产品内部转化为它们销售的输出产品。在这种情况下,推断这些生产函数可以极大地有助于更好地理解和改进供应链,并更准确地预测未来的交易。然而,现有的图神经网络(GNNs)无法捕捉节点输入和输出之间的这些隐藏关系。在这里,我们介绍了一种新的模型类别,通过将时间GNNs与一种新颖的库存模块相结合,通过注意力权重和特殊损失函数学习生产函数。我们对真实供应链数据以及从我们的新开源模拟器SupplySim生成的数据广泛评估了我们的模型。我们的模型成功推断出生产函数,比基线改进了6-50%,并在真实和合成数据上预测未来交易,胜过基线11-62%。

论文链接: https://arxiv.org/abs/2407.18772

可扩展图压缩卷积

原标题: Scalable Graph Compressed Convolutions

作者: Junshu Sun, Chenxue Yang, Shuhui Wang, Qingming Huang

机构: 清华大学 哈尔滨工业大学

摘要: 使用消息传递设计有效的图神经网络(GNNs)存在两个基本挑战,即确定最佳的消息传递路径和设计本地聚合器。先前设计最佳路径的方法存在输入特征信息丢失的局限性。另一方面,现有的本地聚合器通常无法提取多尺度特征并在有限参数尺度下近似多样的运算符。与这些方法相比,欧几里得卷积已被证明是一种表达丰富的聚合器,使其成为GNN构建的理想候选。然而,将欧几里得卷积推广到图形的挑战源于图形的不规则结构。为了弥合欧几里得空间和图拓扑之间的差距,我们提出了一种可微分方法,该方法应用排列来校准输入图形以进行欧几里得卷积。排列约束了一行中的所有节点,而不考虑它们的输入顺序,因此实现了欧几里得卷积对图形的灵活泛化。基于图形校准,我们提出了用于分层图表示学习的压缩卷积网络(CoCN)。CoCN遵循卷积神经网络的本地特征学习和全局参数共享机制。整个模型可以端到端地进行训练,应用压缩卷积来学习各个节点特征及其相应的结构特征。CoCN还可以借鉴欧几里得卷积的成功实践,包括残差连接和启发式机制。我们在节点级和图级基准上验证了CoCN。CoCN在竞争性GNN基线上取得了卓越的性能。代码可在此https网址获得。

论文链接: https://arxiv.org/abs/2407.18480

Github: https://github.com/sunjss/CoCN

无监督储层计算用于多变量去噪严重受污染信号

原标题: Unsupervised Reservoir Computing for Multivariate Denoising of Severely Contaminated Signals

作者: Jaesung Choi, Pilwon Kim

机构: 韩国高等研究院、乌山国立科学技术学院

摘要: 多变量信号的相互依赖性和高维度给去噪带来了重大挑战,因为传统的单变量方法通常难以捕捉变量之间复杂的相互作用。成功的方法必须考虑所需信号的多变量依赖性,同时也必须考虑干扰噪声的多变量依赖性。在我们先前的研究中,我们引入了一种利用机器学习从单变量信号中提取“可预测信息”的方法。我们将这种方法扩展到多变量信号,关键思想是正确地将噪声的相互依赖性合理地纳入信号的相互依赖重建中。该方法成功地应用于各种多变量信号,包括受空间相关强噪声污染的混沌信号和高度振荡的正弦信号。在各种情景下,它始终优于其他现有的多变量去噪方法。

论文链接: https://arxiv.org/abs/2407.18759

FLUE:使用未加密模型权重的联邦学习

原标题: FLUE: Federated Learning with Un-Encrypted model weights

作者: Elie Atallah

机构: 威斯康星大学格林贝分校

摘要: 联邦学习使各种设备能够共同训练共享模型,同时保持训练数据在本地存储,避免了对集中式云存储的需求。尽管存在现有的隐私保护措施,但人们担心梯度可能被逆向工程,即使添加了噪声也可能暴露私人数据。为了解决这个问题,最近的研究强调在训练过程中使用加密模型参数。本文介绍了一种新颖的联邦学习算法,利用编码的本地梯度而无需加密,交换编码的代理以获取模型参数,并注入额外噪声以增强隐私性。文中提出了两种算法变体,展示了适应编码方案和原始数据特征的收敛和学习速率。提供了两种无加密的实现方式,分别使用固定和随机编码矩阵,展示了从联邦优化和机器学习角度获得的有希望的模拟结果。

论文链接: https://arxiv.org/abs/2407.18750

使用基于多GAN的模型进行机器遗忘

原标题: Machine Unlearning using a Multi-GAN based Model

作者: Amartya Hatua, Trung T. Nguyen, Andrew H. Sung

机构: Fidelity Investments Boston Winona State University The University of Southern Mississippi

摘要: 这篇文章介绍了一种利用多个基于生成对抗网络(GAN)的模型的新的机器去学习方法。所提出的方法包括两个阶段:i)数据重组,在这个阶段中,使用GAN模型生成合成数据,并将忘记数据集的类标签反转;ii)微调预训练模型。GAN模型由两对生成器和判别器组成。生成器-判别器对为保留和忘记数据集生成合成数据。然后,利用预训练模型获取合成数据集的类标签。合成和原始忘记数据集的类标签被反转。最后,所有组合数据集被用来微调预训练模型,得到去学习模型。我们在CIFAR-10数据集上进行了实验,并使用成员推断攻击(MIA)测试了去学习模型。反转类标签过程和合成生成的数据有助于获取有价值的信息,使模型能够胜过最先进的模型和其他标准的去学习分类器。

论文链接: https://arxiv.org/abs/2407.18467

MistralBSM:利用 Mistral-7B 进行车载网络违规行为检测

原标题: MistralBSM: Leveraging Mistral-7B for Vehicular Networks Misbehavior Detection

作者: Wissal Hamhoum, Soumaya Cherkaoui

机构: 蒙特利尔理工大学

摘要: 车载网络面临来自恶意攻击的各种威胁。这些威胁损害了道路用户之间通信的安全性和可靠性,从而危及道路和交通安全。在车载网络中,这些攻击的主要向量之一是行为不端的车辆。为了解决这一挑战,我们提出在边缘-云检测框架中部署一个预训练的大语言模型(LLM)增强的行为检测系统(MDS)。具体而言,我们对Mistral-7B进行微调,作为边缘组件以实现实时检测,而部署在云端的更大型LLM可以进行更全面的分析。我们在扩展的VeReMi数据集上进行的实验表明,Mistral-7B表现出优越的性能,达到了98%的准确率,相比之下,其他LLM(如LLAMA2-7B和RoBERTa)的表现要差。此外,我们研究了窗口大小对计算成本的影响,以优化部署效率。利用LLM在MDS中显示出改善车辆不端行为检测的有趣结果,从而加强车载网络安全,确保道路用户的安全。

论文链接: https://arxiv.org/abs/2407.18462

FairAIED:在教育人工智能应用中导航公平性、偏见和伦理

原标题: FairAIED: Navigating Fairness, Bias, and Ethics in Educational AI Applications

作者: Sribala Vidyadhari Chinta, Zichong Wang, Zhipeng Yin, Nhat Hoang, Matthew Gonzalez, Tai Le Quy, Wenbin Zhang

机构: 佛罗里达国际大学 特拉环境研究所 L3S研究中心

摘要: 人工智能(AI)融入教育领域具有变革潜力,提供定制学习体验和创造性教学方法。然而,AI算法中固有的偏见阻碍了这一进步,无意中在人类中心的应用(如教育)中持续地对特定人群持有偏见。这项调查深入探讨了教育背景下算法公平性这一新兴主题,全面评估了关于AI驱动教育应用中公平性、偏见和伦理的多样文献。它确定了常见的偏见形式,如与数据相关的、算法的和用户交互的偏见,这些偏见从根本上破坏了AI教学辅助工具中公平性的实现。通过概述现有的减轻这些偏见的技术,从各种数据收集到算法公平性干预,该调查强调了伦理考虑和法律框架在塑造更加公平的教育环境中的关键作用。此外,它引导读者了解公平性测量、方法和数据集的复杂性,阐明了减少偏见的途径。尽管取得了这些进展,这项调查突出了长期存在的问题,如在公平性和准确性之间取得平衡,以及对多样化数据集的需求。克服这些挑战,确保在教育中道德和公平地使用AI的承诺需要采取一种协作的、跨学科的方法。

论文链接: https://arxiv.org/abs/2407.18745

循环神经网络和深度学习框架对实时轻量级时间序列异常检测的影响

原标题: Impact of Recurrent Neural Networks and Deep Learning Frameworks on Real-time Lightweight Time Series Anomaly Detection

作者: Ming-Chang Lee, Jia-Chun Lin, Sokratis Katsikas

摘要: 实时轻量级时间序列异常检测在网络安全和许多其他领域变得日益关键。其适应未预料到的模式变化并迅速识别异常的能力使得能够做出及时响应和关键决策成为可能。尽管近年来引入了几种这样的异常检测方法,但它们主要利用了一种类型的循环神经网络(RNNs),并且仅在一个深度学习框架中实现。目前尚不清楚不同深度学习框架中可用的不同类型的RNNs对这些异常检测方法的性能有何影响,因为缺乏全面的评估。随意选择RNN变体和深度学习框架来实现异常检测方法可能无法反映其真实性能,并可能误导用户偏好一种方法而不是另一种。本文旨在研究流行的深度学习框架中可用的各种类型的RNNs对实时轻量级时间序列异常检测的影响。我们回顾了几种最先进的方法,并使用三个广泛认可的深度学习框架支持的知名RNN变体实现了一个代表性的异常检测方法。然后进行了全面评估,分析了每种实现在真实世界的开源时间序列数据集上的性能。评估结果为选择适用于实时轻量级时间序列异常检测的合适RNN变体和深度学习框架提供了有价值的指导。

论文链接: https://arxiv.org/abs/2407.18439

LLASP:为答案集编程微调大语言模型

原标题: LLASP: Fine-tuning Large Language Models for Answer Set Programming

作者: Erica Coppolillo, Francesco Calimeri, Giuseppe Manco, Simona Perri, Francesco Ricca

机构: 卡拉布里亚大学 ICAR-CNR DLVSystem Srl

摘要: 最近,大语言模型(LLMs)展示了它们在各种自然语言处理任务中的潜力,包括代码生成。然而,虽然在将LLMs调整为为几种命令式编程语言和任务生成代码方面已经取得了显著进展,但它们在应用于声明性形式主义(如Answer Set Programming,ASP)方面仍存在明显差距。在本文中,我们迈出了一步,探索LLMs在ASP代码生成方面的能力。首先,我们对几种最先进的LLMs进行了系统评估。尽管它们在参数数量、训练数据和计算资源方面具有强大的能力,但实证结果表明在生成正确的ASP程序方面表现不佳。因此,我们提出了LLASP,这是一个经过精细调整的轻量级模型,专门用于编码基本的ASP程序模式。为此,我们创建了一个特定的数据集,涵盖了可以在ASP中编码的各种基本问题规范。我们的实验表明,LLASP生成的ASP程序质量是显著的。这不仅适用于与未经过精细调整的对照组相比,而且还适用于大多数急切的LLM候选者,特别是从语义角度来看。用于执行实验的所有代码和数据都可以在https://anonymous.4open.science/r/LLASP-D86C/上公开获取。

论文链接: https://arxiv.org/abs/2407.18723

一个用于组合式字典学习和推断的模型

原标题: A Model for Combinatorial Dictionary Learning and Inference

作者: Avrim Blum, Kavya Ravichandran

机构: 芝加哥丰田技术研究所

摘要: 我们经常对将复杂的结构化数据分解为解释数据的简单组件感兴趣。这个问题的线性版本被称为字典学习和因子分析,已经得到了广泛研究。在这项工作中,我们提出了一个组合模型来研究这个问题,灵感来自于场景中对象相互遮挡以形成图像的方式。首先,我们确定了一种我们称之为“良好结构化”的低维组件集的属性,确保集合中没有两个组件太相似。我们展示了良好结构化对学习包含一组样本实例的潜在组件集是足够的。然后,我们考虑了这个问题:给定一组组件和从其中某个未知子集生成的实例,确定实例的哪些部分来自哪些组件。我们考虑了两种变体:(1)确定解释实例所需的最小组件数量;(2)确定尽可能多位置的正确解释。对于后一目标,我们还设计了一个对抗性破坏鲁棒的版本,只需对组件做出略微更强的假设。最后,我们展示了在没有任何假设的情况下,学习问题在计算上是不可行的。

论文链接: https://arxiv.org/abs/2407.18436

有限神经网络作为高斯过程混合:从可证错误边界到先验选择

原标题: Finite Neural Networks as Mixtures of Gaussian Processes: From Provable Error Bounds to Prior Selection

作者: Steven Adams, Patanè, Morteza Lahijanian, Luca Laurenti

机构: 代尔夫特理工大学 特立尼达学院都柏林科罗拉多大学博尔德分校

摘要: 具有独立同分布(i.i.d.)参数的无限宽或深的神经网络(NNs)已被证明等价于高斯过程。由于高斯过程的有利特性,这种等价关系通常被用于分析神经网络,并在多年来导致了各种突破。然而,神经网络和高斯过程仅在极限情况下等价;在有限情况下,目前没有可用的方法来近似具有界限的高斯模型的训练神经网络的误差。在这项工作中,我们提出了一种算法框架,用高斯过程的混合来近似具有有限宽度和深度、参数不一定是i.i.d.的神经网络,并对近似误差设定了误差界限。特别地,我们考虑Wasserstein距离来量化概率模型之间的接近程度,并依靠最优输运和高斯过程的工具,迭代地将神经网络每一层的输出分布近似为高斯过程的混合。至关重要的是,对于任何NN和 ϵ > 0 \epsilon >0 ϵ>0,我们的方法能够返回一个在有限输入点上与NN ϵ \epsilon ϵ-接近的高斯过程混合。此外,我们依赖所得误差界限的可微性,展示了我们的方法如何被用来调整NN的参数以模仿给定高斯过程的功能行为,例如,在贝叶斯推断的背景下进行先验选择。我们通过在各种神经网络架构上进行回归和分类问题的实证研究来验证我们结果的有效性。我们的实验突显了我们的结果如何代表理解神经网络预测并正式量化其不确定性的重要一步。

论文链接: https://arxiv.org/abs/2407.18707

用于预测临界点发生的深度学习

原标题: Deep learning for predicting the occurrence of tipping points

作者: Chengzuo Zhuge, Jiawei Li, Wei Chen

机构: 北京航空航天大学 中关村实验室 北京大数据与脑计算高级创新中心

摘要: 许多现实世界系统都存在临界点,系统在此处突然从一种状态转变为另一种状态。从时间序列数据中预测临界点的发生仍然是一个重大挑战,也是广泛研究领域的主要兴趣之一。特别是,基于分岔理论的常用方法在预测准确性上既不可靠,也不适用于常见于现实世界系统的不规则采样时间序列。在这里,我们通过开发一种深度学习算法来预测未经训练系统中临界点的发生,利用关于正常形式的信息来解决这一挑战。我们的算法不仅在定期采样的模型时间序列上优于传统方法,而且在不规则采样的模型时间序列和经验时间序列上实现了准确的预测。我们能够预测复杂系统的临界点为减轻风险、预防灾难性故障和恢复受损系统铺平道路,在社会科学、工程和生物学等领域具有广泛应用。

论文链接: https://arxiv.org/abs/2407.18693

Github: https://github.com/zhugchzo/dl_occurrence_tipping

现在,错误的是:在偏好漂移下的非静态直接偏好优化

原标题: Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift

作者: Seongho Son, William Bankes, Sayak Ray Chowdhury, Brooks Paige, Ilija Bogunovic

机构: 清华大学 威廉·班克斯 布鲁克斯·佩奇 伊利亚·博古诺维奇

摘要: 人类反馈强化学习(RLHF)通过与人类偏好对齐大语言模型(LLMs)。然而,这些偏好往往会因外部因素(例如环境变化和社会影响)而随时间改变。因此,过去的错误可能现在是正确的。当前的偏好优化算法没有考虑建模中的时间偏好漂移,这可能导致严重的不对齐。为了解决这一限制,我们使用动态 Bradley-Terry 模型,通过时间相关的奖励函数来建模偏好,并提出了非稳态直接偏好优化(NS-DPO)。通过在损失函数中引入折扣参数,NS-DPO 应用指数加权,从而比例地将学习集中在更具时间相关性的数据点上。我们在离线设置中理论分析了 NS-DPO 的收敛性,并提供了由非稳态偏好引起的估计误差的上界。最后,我们展示了 NS-DPO1 在具有漂移偏好的场景中微调LLMs的有效性。通过使用知名奖励模型模拟偏好漂移,并相应修改流行的LLM数据集,我们展示了NS-DPO微调的LLMs在非稳态下仍然保持稳健,在不牺牲稳态情况下的性能的情况下,明显优于忽略时间偏好变化的基线算法。

论文链接: https://arxiv.org/abs/2407.18676

一个用于识别受污染的多通道EMG和MMG信号的双重集成分类器,在上肢生物假肢控制中使用。

原标题: A dual ensemble classifier used to recognise contaminated multi-channel EMG and MMG signals in the control of upper limb bioprosthesis

作者: Pawel Trajdos, Marek Kurzynski

机构: 弗罗茨瓦夫科技大学

摘要: 肌电位模式识别以解码用户意图是控制动力生物假体的最先进方法。不幸的是,许多因素使这成为一个困难问题,在真实环境条件下实现可接受的识别质量是一个严峻的挑战。本文旨在开发一个识别系统,以减轻与生物信号的多模态和多通道记录以及其高易受污染性相关的因素。所提出的方法涉及使用两个协作的多分类器系统。第一个系统由与个体肌电图(EMG)和机械肌电图(MMG)生物信号记录通道相关的单类分类器组成,其任务是识别受污染的通道。第二个系统的作用是识别由患者意图导致的运动类别。集成系统由使用来自不同通道的生物信号的表示(提取特征)的基分类器组成。该系统使用动态选择机制,消除那些与被单类集成系统识别为受污染的生物信号通道相关联的基分类器。实验研究使用模拟截肢的健全人员信号进行。所得结果使我们能够拒绝零假设,即双重集成的应用并没有导致改进的分类质量。

论文链接: https://arxiv.org/abs/2407.18675

使用小波变换在神经网络参数选择中重要性抽样的方面

原标题: Aspects of importance sampling in parameter selection for neural networks using ridgelet transform

作者: Hikaru Homma, Jun Ohkubo

机构: 埼玉大学

摘要: 在神经网络中,参数的选择对性能至关重要,而从ridgelet变换导出的oracle分布使我们能够获得合适的初始参数。换句话说,参数的分布与目标函数的积分表示相关联。Oracle分布使我们能够避免传统的反向传播学习过程;在简单情况下,仅需要进行线性回归就足以构建神经网络。这项研究提供了对oracle分布和ridgelet变换的新视角,即重要性抽样的一个方面。此外,我们提出了参数抽样方法的扩展。我们通过一维和高维示例展示了重要性抽样的方面和所提出的抽样算法;结果表明,权重参数的大小可能比截距参数更为关键。

论文链接: https://arxiv.org/abs/2407.18655

金融时间序列资产嵌入的对比学习

原标题: Contrastive Learning of Asset Embeddings from Financial Time Series

作者: Rian Dolphin, Barry Smyth, Ruihai Dong

机构: 都柏林大学学院 计算机科学学院

摘要: 表示学习已经成为从复杂、高维数据中提取有价值的潜在特征的强大范式。在金融领域,学习资产的信息表示可以用于诸如行业分类和风险管理等任务。然而,金融市场的复杂和随机性提出了独特的挑战。我们提出了一个新颖的对比学习框架,从金融时间序列数据中生成资产嵌入。我们的方法利用资产收益在许多子窗口上的相似性生成信息丰富的正负样本,使用基于假设检验的统计抽样策略来解决金融数据的噪声特性。我们探索了各种对比损失函数,以不同方式捕捉资产之间的关系,从而学习出一个具有判别性的表示空间。对真实数据集的实验表明,所学习的资产嵌入在基准行业分类和投资组合优化任务上的有效性。在每种情况下,我们的新方法明显优于现有基准,突显了对比学习捕捉金融数据中有意义且可操作关系的潜力。

论文链接: https://arxiv.org/abs/2407.18645

通过生成过程的噪声增强数据实现稳健的VAE

原标题: Robust VAEs via Generating Process of Noise Augmented Data

作者: Hiroo Irobe, Wataru Aoki, Kimihiro Yamazaki, Yuhui Zhang, Takumi Nakagawa, Hiroki Waida, Yuichiro Wada, Takafumi Kanamori

机构: 东京工业大学 福建富士通有限公司 理化学研究所

摘要: 在生成模型中加强对抗性攻击的防御机制是机器学习中的一个关键研究课题。我们的研究聚焦于一种特定类型的生成模型 - 变分自动编码器(VAEs)。与普遍观点和现有文献相反,即向训练数据注入噪声可以使模型更加健壮,我们的初步实验发现,天真地使用噪声增强技术并没有显著改善VAE的鲁棒性。事实上,这甚至降低了学习表示的质量,使VAEs更容易受到对抗性扰动的影响。本文介绍了一种新颖的框架,通过规范化原始数据和噪声增强数据之间的潜在空间差异,增强了模型的鲁棒性。通过将成对的概率先验纳入标准变分下界,我们的方法显著增强了对抗性攻击的防御能力。我们的实证评估表明,这种方法,称为Robust Augmented Variational Auto-Encoder(RAVEN),在广泛认可的基准数据集上对抗性输入具有更优越的性能。

论文链接: https://arxiv.org/abs/2407.18632

多智能体深度强化学习用于能效高的多跳STAR-RIS辅助传输

原标题: Multi-Agent Deep Reinforcement Learning for Energy Efficient Multi-Hop STAR-RIS-Assisted Transmissions

作者: Pei-Hsiang Liao, Li-Hsiang Shen, Po-Chen Wu, Kai-Ten Feng

机构: 国立阳明交通大学 中央大学

摘要: 同时传输和反射可重构智能表面(STAR-RIS)为无线通信的覆盖范围扩展提供了一种有前途的方式。然而,单个STAR-RIS的局限性激发了我们将多跳传输的概念整合到现有研究中,重点放在RIS上。因此,我们提出了多跳STAR-RIS的新颖架构,以实现更广泛的全平面服务覆盖范围。在本文中,我们打算解决基站的主动波束成形和STAR-RIS的被动波束成形,旨在通过STAR-RIS的硬件限制来最大化能效。此外,我们研究了STAR-RIS元件的开关状态对能效的影响。为了解决这个复杂的问题,设计了一种名为多智体全局和局部深度强化学习(MAGAR)算法。全局智能体提升了本地智能体之间的协作,后者专注于个体学习。在数值结果中,我们观察到MAGAR相对于其他基准方法(包括Q-learning、具有全局奖励的多智体深度Q网络(DQN)以及具有本地奖励的多智体DQN)有显著改进。此外,所提出的多跳STAR-RIS的架构相比基于模式切换的STAR-RIS、传统RIS以及没有RIS或STAR-RIS的部署,实现了最高的能效。

论文链接: https://arxiv.org/abs/2407.18627

双重解耦学习和度量自适应阈值用于半监督多标签学习

原标题: Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning

作者: Jia-Hao Xiao, Ming-Kun Xie, Heng-Bo Fan, Gang Niu, Masashi Sugiyama, Sheng-Jun Huang

机构: 南京航空航天大学 东京理化学研究所 东京大学

摘要: 半监督多标签学习(SSMLL)是一种强大的框架,利用未标记数据来减少收集精确多标签注释的昂贵成本。与半监督学习不同,SSMLL 中不能选择最可能的标签作为伪标签,因为一个实例中包含多个语义。为了解决这个问题,主流方法开发了一种有效的阈值策略来生成准确的伪标签。不幸的是,该方法忽略了模型预测质量及其对伪标记性能的潜在影响。在本文中,我们提出了一种双重视角方法来生成高质量的伪标签。为了提高模型预测质量,我们执行双解耦以增强相关和区分特征的学习,同时改进伪标签的生成和利用。为了获得适当的按类别阈值,我们提出了度量自适应阈值策略来估计阈值,这些阈值最大化了标记数据上给定度量的伪标签性能。在多个基准数据集上的实验表明,所提出的方法可以实现最先进的性能,并且在很大程度上优于比较方法。

论文链接: https://arxiv.org/abs/2407.18624

去噪 Lévy 概率模型

原标题: Denoising Lévy Probabilistic Models

作者: Dario Shariatian, Umut Simsekli, Alain Durmus

机构: INRIA École Normale Supérieure PSL Research University École Polytechnique IP Paris

摘要: 在扩散生成模型中调查超出高斯噪声分布的问题是一个开放问题。高斯情况在实验和理论上取得了成功,为基于评分和去噪公式提供了统一的SDE框架。最近的研究表明,重尾噪声分布可以解决模式崩溃问题,并处理具有类别不平衡、重尾或异常值的数据集。Yoon等人(NeurIPS 2023)引入了Lévy-Ito模型(LIM),将SDE框架扩展到具有 α \alpha α-稳定噪声的重尾SDE。尽管LIM在理论上优雅且性能提升,但其复杂的数学可能限制了其可访问性和更广泛的采用。本研究通过将去噪扩散概率模型(DDPM)与 α \alpha α-稳定噪声扩展,创建了去噪Lévy概率模型(DLPM),采用基本的证明技术,我们展示DLPM可以简化为运行基本的DDPM,并且只需进行最小的更改,允许使用现有的实现。DLPM和LIM具有不同的训练算法,并且与高斯情况不同,它们采用不同的反向过程和采样算法。我们的实验表明,DLPM实现了更好的数据分布尾部覆盖率,改善了不平衡数据集的生成,并且在较少的反向步骤下计算速度更快。

论文链接: https://arxiv.org/abs/2407.18609

一个数据平衡方法的设计,用于心脏病预测专家系统

原标题: A data balancing approach designing of an expert system for Heart Disease Prediction

作者: Rahul Karmakar, Udita Ghosh, Arpita Pal, Sattwiki Dey, Debraj Malik, Priyabrata Sain

机构: 布尔德万大学 西孟加拉邦 巴尔德曼 印度

摘要: 心脏疾病是一个导致数百万人每年死亡的重大全球健康问题。预防和有效治疗心脏相关问题在很大程度上取决于早期检测和准确预测。先前曾用机器学习方法准确预测过。这种创新发展在医疗保健领域有改变预防护理和挽救大量生命的潜力。研究从对涵盖广泛主题的文献进行彻底评估开始,包括预处理技术、性能评估措施、心脏疾病研究中使用的数据集、预测建模策略、诊断方法学和该领域的当前问题。在这些基本理解的基础上,背景部分描述了在这项调查中进行的具体操作,如数据集描述、数据预处理技术、标签编码、特征选择方法学、算法选择策略和严格的性能评估技术。结果表明,集成方法,特别是随机森林,在预测心脏疾病方面优于单个分类器。确定的关键预测因子包括高血压、胆固醇水平、吸烟状况和体育不活动。决策树和随机森林模型的准确率达到99.83%。这项工作展示了机器学习模型,特别是集成方法,如何提高心脏疾病预测的准确性。与传统技术相比,这些模型提供了更可靠的风险评估,因为它们整合了广泛的变量和复杂的算法。结果为定制的医疗保健治疗打开了大门,促进了心脏疾病的早期识别和治疗。

论文链接: https://arxiv.org/abs/2407.18606

混合摘要统计:超越功率谱的神经弱引力透镜推断

原标题: Hybrid summary statistics: neural weak lensing inference beyond the power spectrum

作者: T. Lucas Makinen, Tom Charnock, Natalia Porqueres, Axel Lapel, Alan Heavens, Benjamin D. Wandelt

机构: 帝国理工学院 牛津大学 索邦大学 Flatiron Institute

摘要: 在推断问题中,我们经常拥有领域知识,这使我们能够定义捕捉数据集中大部分信息内容的摘要统计数据。在这篇论文中,我们提出了一种混合方法,其中基于物理的摘要统计数据被一组压缩的神经摘要统计数据所增强,这些神经摘要统计数据被优化以提取未被预定义摘要所捕获的额外信息。由此产生的统计数据是模型参数的基于模拟或隐式推断的非常强大的输入。我们将这种信息最大化神经网络(IMNNs)的泛化应用于来自弱引力透镜收敛图的参数约束,以找到明确优化以补充角功率谱估计的摘要统计数据。我们研究了低噪声和高噪声情况下的几种暗物质模拟分辨率。我们展示了:i)信息更新形式至少提取出所有噪声情况下角功率谱的3倍至8倍的信息,ii)网络摘要与现有的2点摘要非常互补,iii)我们的形式允许具有较小、物理上知情的架构的网络与需要更少模拟即可获得渐近最优推断的远大规模回归网络相匹配。

论文链接: https://arxiv.org/abs/2407.18909

关于道德偏好引导的主动学习的利弊

原标题: On the Pros and Cons of Active Learning for Moral Preference Elicitation

作者: Vijay Keswani, Vincent Conitzer, Hoda Heidari, Jana Schaich Borg, Walter Sinnott-Armstrong

机构: 杜克大学 康奈尔大学 牛津大学

摘要: 计算偏好引 elicitation 方法是用于在给定背景下定量学习人们偏好的工具。关于偏好引 elicitation 的最新研究主张积极学习作为一种有效的方法,通过迭代构建查询(被构建为特定背景案例之间的比较)来了解关于智能体潜在偏好的最具信息量的查询。在这项工作中,我们认为,将积极学习用于道德偏好 elicitation 依赖于对潜在道德偏好的某些假设,这些假设在实践中可能会被违反。具体来说,我们强调以下常见假设:(a) 偏好随时间稳定且不受呈现查询顺序的影响,(b) 选择适当的假设类来建模道德偏好,以及 © 智能体响应中的噪声是有限的。虽然这些假设对于某些领域的偏好 elicitation 可能是合适的,但有关道德心理学的先前研究表明,它们可能不适用于道德判断。通过对违反上述假设的偏好进行合成模拟,我们观察到,在某些情况下,积极学习的表现可能与基本的随机查询选择方法相似或更糟。然而,模拟结果也表明,如果不稳定性或噪声程度相对较小,并且智能体的偏好可以用于学习的假设类来近似表示,则积极学习仍然是可行的。我们的研究突显了实践中有效道德偏好 elicitation 的细微差别,并主张谨慎使用积极学习作为学习道德偏好的方法论。

论文链接: https://arxiv.org/abs/2407.18889

利用 TTS 合成数据来高效开发关键词检测模型

原标题: Utilizing TTS Synthesized Data for Efficient Development of Keyword Spotting Model

作者: Hyun Jin Park, Dhruuv Agarwal, Neng Chen, Rentao Sun, Kurt Partridge, Justin Chen, Harry Zhang, Pai Zhu, Jacob Bartel, Kyle Kastner, Gary Wang, Andrew Rosenberg, Quan Wang

机构: 谷歌有限责任公司

摘要: 这篇论文探讨了在尽量减少开发成本和时间的情况下,利用 TTS 合成的训练数据进行 KWS(关键词检测)任务。关键词检测模型需要大量的训练数据才能准确,而获取这样的训练数据可能成本高昂。在当前的技术水平下,TTS 模型可以生成大量自然语音数据,有助于减少 KWS 模型开发的成本和时间。然而,与真实数据相比,TTS 生成的数据可能缺乏多样性。为了在有限资源和当前 TTS 能力的约束下追求最大化 KWS 模型的准确性,我们探索了各种策略来混合 TTS 数据和真实人类语音数据,重点是减少真实数据的使用并最大化 TTS 输出的多样性。我们的实验结果表明,相对较少量的具有说话者多样性的真实音频数据(100位说话者,2k次话语)和大量的 TTS 合成数据可以实现相当高的准确性(与基线相比的错误率不超过3倍),相比之下基线模型(使用了3.8M真实正面话语进行训练)表现出色。

论文链接: https://arxiv.org/abs/2407.18879

在脉冲神经网络中时间层次的作用

原标题: The Role of Temporal Hierarchy in Spiking Neural Networks

作者: Filippo Moro, Pau Vilimelis Aceituno, Laura Kriener, Melika Payvand

机构: 苏黎世大学和苏黎世联邦理工学院

摘要: 脉冲神经网络(SNNs)由于利用了空间和时间参数,具有丰富的时空信号处理潜力。最近显示,诸如突触和神经元的时间常数以及延迟等时间动态具有计算优势,有助于减少网络所需的参数总数,并提高 SNN 在解决时间任务时的准确性。通过梯度下降等方式优化这些时间参数,为不同问题提供了一种时间架构。正如在机器学习中所展示的,为了减少优化成本,可以应用架构偏差,即在时间域中的情况。神经科学研究中发现了时间参数中的这种归纳偏差,突显了皮层不同层次的时间结构和输入表示。受此启发,我们提议在 SNN 的隐藏层中施加时间表示的层次结构,强调这种归纳偏差可以提高它们的性能。我们展示了在应用于时间任务(多时间尺度异或和关键词识别)的前馈 SNN 的时间常数中引入时间层次结构的积极效果(分类准确率提高了高达4.1%)。此外,我们展示了当通过梯度下降优化时间常数时,这种架构偏差,即时间常数的层次结构,会在初始化为均匀值时自然出现。我们进一步在时间卷积 SNN 中追求这一提议,通过在时间核的大小和扩张中引入层次偏差,在流行的基于时间脉冲的数据集中取得了竞争性的结果。

论文链接: https://arxiv.org/abs/2407.18838

深度伴侣学习:通过历史一致性增强泛化

原标题: Deep Companion Learning: Enhancing Generalization Through Historical Consistency

作者: Ruizhao Zhu, Venkatesh Saligrama

机构: 波士顿大学

摘要: 我们提出了深度伴侣学习(DCL),这是一种新颖的用于增强深度神经网络(DNNs)泛化能力的训练方法,通过惩罚与其历史性能相比不一致的模型预测来实现。为了实现这一目标,我们训练了一个深度伴侣模型(DCM),通过使用先前版本的模型对新输入进行预测。这个伴侣模型解析了数据中的有意义的潜在语义结构,从而提供有针对性的监督,鼓励主要模型解决它认为最具挑战性的场景。我们通过理论分析和大量实验验证了我们的方法,包括消融研究,使用各种基准数据集(CIFAR-100,Tiny-ImageNet,ImageNet-1K)和不同的架构模型(ShuffleNetV2,ResNet,Vision Transformer等),展示了最先进的性能。

论文链接: https://arxiv.org/abs/2407.18821

解释人工神经网络以检测复杂特征的全基因组关联信号

原标题: Interpreting artificial neural networks to detect genome-wide association signals for complex traits

作者: Burak Yelmen, Maris Alver, Estonian Biobank Research Team, Flora Jay, Lili Milani

机构: 爱沙尼亚基因组中心,塔尔图大学 欧赛,法国巴黎萨克雷大学

摘要: 研究复杂疾病的遗传结构具有挑战性,因为遗传和环境因素的高度多基因和互动性景观。尽管全基因组关联研究(GWAS)已经为多种复杂表型鉴定了成千上万的变体,但传统的统计方法可能受到简化假设(如线性和缺乏上位基因模型)的限制。在这项工作中,我们使用模拟和真实的基因型/表型数据集训练人工神经网络来预测复杂特征。我们通过不同的事后可解释性方法提取特征重要性分数,以识别与目标表型相关的潜在关联位点(PAL)。我们使用各种参数进行的模拟表明,使用严格的选择标准可以检测到相关位点,并且由于连锁不平衡,类似于传统GWAS,需要进行下游分析以对确切变体进行精细映射。通过将我们的方法应用于爱沙尼亚生物库中的精神分裂症队列,我们能够检测到与这种高度多基因和遗传性疾病相关的多个PAL。我们还对基因区域中的PAL进行富集分析,主要识别与脑形态相关的术语。通过进一步改进模型优化和置信度措施,人工神经网络可以增强与复杂疾病相关的基因位点的识别,为GWAS提供更全面的方法,并作为随后功能研究的初步筛选工具。
关键词:深度学习,可解释性,全基因组关联研究,复杂疾病

论文链接: https://arxiv.org/abs/2407.18811

使用对数凹耦合进行神经网络后验采样

原标题: Log-Concave Coupling for Sampling Neural Net Posteriors

作者: Curtis McDonald, Andrew R Barron

机构: 耶鲁大学

摘要: 在这项工作中,我们提出了一种用于单隐藏层神经网络的抽样算法。该算法建立在一系列递归的贝叶斯后验上,使用了我们称之为“贪婪贝叶斯”的方法。由于神经元权重向量 w w w的贝叶斯后验具有多峰性,对维度为 d d d的神经元权重向量 w w w进行抽样是具有挑战性的。我们用一个辅助随机变量 ξ \xi ξ w w w的后验密度耦合来解决这个问题。
神经元权重给定辅助随机变量的结果逆条件 w ∣ ξ w|\xi wξ被证明是对数凹的。在后验分布的构建中,我们在选择先验时提供了一定的自由度。特别是对于 w w w的高斯先验,方差足够小,得到的辅助变量 ξ \xi ξ的边际密度被证明对于所有维度 d d d都是严格对数凹的。对于单位 ℓ 1 \ell_1 1球上的均匀先验,有证据表明 ξ \xi ξ的密度在维度足够大时再次严格对数凹。
辅助随机变量 ξ \xi ξ的边际密度得分由对 w ∣ ξ w|\xi wξ的期望确定,因此可以通过各种快速混合的马尔可夫链蒙特卡洛方法来计算。此外,计算 ξ \xi ξ的得分允许通过从这个得分构建的漂移函数的随机扩散(朗之万动力学)方法来抽样 ξ \xi ξ。通过这样的动力学,由Bakry和Emery开创的信息论方法表明,当其密度确实严格对数凹时,可以迅速获得对 ξ \xi ξ的准确抽样。之后,再从 w ∣ ξ w|\xi wξ中抽取一次,得到的神经元权重 w w w的边际分布来自所需的后验分布。

论文链接: https://arxiv.org/abs/2407.18802

在医学影像中进行基准测试依赖度量以防止捷径学习

原标题: Benchmarking Dependence Measures to Prevent Shortcut Learning in Medical Imaging

作者: Sarah Müller, Louisa Fay, Lisa M. Koch, Sergios Gatidis, Thomas Küstner, Philipp Berens

机构: 图宾根大学、斯图加特大学、伯尔尼大学医院、斯坦福大学

摘要: 医学影像队列往往受到诸如采集设备、医院地点、患者背景等因素的干扰。因此,深度学习模型往往会学习到偶然相关性,而不是因果相关的特征,从而限制了它们对新数据和未见数据的泛化能力。这个问题可以通过最小化任务相关和非任务相关变量的中间表示之间的依赖度量来解决。这些度量包括互信息、距离相关性以及对抗分类器的性能。在这里,我们对用于防止捷径学习的这些依赖度量进行基准测试。我们使用 Morpho-MNIST 和 CheXpert 胸部放射照片的医学影像任务来研究一个简化的设置。我们的结果为如何减轻医学影像中的混杂因素提供了见解。

论文链接: https://arxiv.org/abs/2407.18792

Github: https://github.com/berenslab/dependence-measures-medical-imaging

基于物理信息神经网络的球形麦克风阵列空间上采样方法

原标题: A Physics-Informed Neural Network-Based Approach for the Spatial Upsampling of Spherical Microphone Arrays

作者: Federico Miotello, Ferdinando Terminiello, Mirco Pezzoli, Alberto Bernardini, Fabio Antonacci, Augusto Sarti

机构: 意大利米兰理工大学 Dipartimento di Elettronica, Informazione e Bioingegneria

摘要: 球形麦克风阵列是捕捉声场空间特性的便利工具。然而,要实现卓越的空间分辨率,需要具有大量胶囊的阵列,从而导致设备昂贵。为解决这一问题,我们提出了一种用有限数量胶囊对球形麦克风阵列进行空间上采样的方法。我们的方法利用一种具有Rowdy激活函数的物理信息神经网络,利用物理约束提供高阶麦克风阵列信号,从低阶设备开始。结果表明,在其应用领域内,我们的方法优于基于信号处理的球形麦克风阵列上采样的最新方法。

论文链接: https://arxiv.org/abs/2407.18732

快速对象标注

原标题: Rapid Object Annotation

作者: Misha Denil

摘要: 在这份报告中,我们考虑了快速为一种新对象在视频中标注边界框的问题。我们描述了一个用户界面和相关工作流程,旨在使这一过程对于任意新目标都能快速完成。

论文链接: https://arxiv.org/abs/2407.18682

关于细胞核实例分割和分类的调查:利用上下文和注意力

原标题: A Survey on Cell Nuclei Instance Segmentation and Classification: Leveraging Context and Attention

作者: João D. Nunes, Diana Montezuma, Domingos Oliveira, Tania Pereira, Jaime S. Cardoso

机构: INESC TEC 大学 of Porto IMP诊断 癌症生物学和表观遗传学研究组 医学科学博士学位项目 FCTUC科学与技术学院 of Coimbra

摘要: 手动注释来自吉盖皮克Hematoxylin和Eosin(H&E)染色全幻灯片图像(WSIs)中的细胞核是一项费时费力且昂贵的任务,这意味着用于细胞核实例分割和分类的自动化算法可以减轻病理学家和临床研究人员的工作量,同时促进临床可解释特征的自动提取。但由于细胞核形态和色彩特征的高内部和类间变异性,以及H&E染料对伪迹的敏感性,最先进的算法无法正确检测和分类具有必要性能的实例。在这项工作中,我们假设人工神经网络(ANNs)中的上下文和注意力归纳偏差可以增加用于细胞核实例分割和分类的算法的泛化能力。我们对H&E染色显微成像中用于细胞核实例分割和分类的上下文和注意力方法进行了彻底调查,同时全面讨论了通过上下文和注意力解决的挑战。此外,我们阐明了当前方法的一些局限性,并提出了未来研究的想法。作为案例研究,我们将通用实例分割和分类方法(Mask-RCNN)和定制的细胞核实例分割和分类模型(HoVer-Net)都扩展为基于上下文和注意力的机制,并对多中心结肠细胞核识别和计数数据集进行了比较分析。尽管病理学家在分析和注释WSIs时在多个级别上依赖上下文,同时关注特定感兴趣区域(RoIs),但我们的研究结果表明,将该领域知识转化为算法设计并不是一项简单的任务,但要充分利用这些机制,应该解决对这些方法的科学理解。

论文链接: https://arxiv.org/abs/2407.18673

通过文本到图像扩散模型的对抗性强化

原标题: Adversarial Robustification via Text-to-Image Diffusion Models

作者: Daewon Choi, Jongheon Jeong, Huiwon Jang, Jinwoo Shin

机构: 韩国科学技术研究院(KAIST) 韩国大学

摘要: 对抗鲁棒性一直被传统认为是神经网络中难以编码的一个挑战性属性,需要大量的训练数据。然而,在采用现成模型的最近范式中,访问它们的训练数据通常是不可行或不切实际的,而大多数这类模型最初并未针对对抗鲁棒性进行训练。在本文中,我们开发了一种可扩展且与模型无关的解决方案,实现对抗鲁棒性而无需使用任何数据。我们的直觉是将最近的文本到图像扩散模型视为可“适应”的去噪器,可以被优化以指定目标任务。基于此,我们提出:(a)启动一个去噪和分类流水线,提供针对对抗攻击的可证保证;(b)利用从文本到图像模型生成的少量合成参考图像,实现新颖的适应方案。我们的实验表明,我们的无数据方案应用于预训练的CLIP,可以提高其各种零样本分类派生物的(可证)对抗鲁棒性(同时保持它们的准确性),明显超过利用完整训练数据的先前方法。不仅适用于CLIP,我们还证明我们的框架可以轻松应用于高效增强其他视觉分类器的鲁棒性。

论文链接: https://arxiv.org/abs/2407.18658

Github: https://github.com/choidae1/robustify-t2i

通过将黑盒模型功能分解为可解释的预测效果,实现可解释的机器学习。

原标题: Achieving interpretable machine learning by functional decomposition of black-box models into explainable predictor effects

作者: David Köhler (1), David Rügamer (2 and 3), Matthias Schmid (1) ((1) Institute for Medical Biometry, Informatics and Epidemiology, University of Bonn, (2) Department of Statistics, LMU Munich, (3) Munich Center for Machine Learning)

机构: 波恩大学 德国 慕尼黑大学 统计学系 慕尼黑机器学习中心

摘要: 机器学习(ML)在受欢迎程度和重要性方面取得了显著增长。ML模型的高预测准确性通常是通过复杂的黑盒架构实现的,这些架构难以解释。这种可解释性问题一直在阻碍ML在医学、生态学和保险等领域的应用,这些领域对模型内部工作原理的理解至关重要,以确保用户接受和公平性。对可解释ML模型的需求推动了可解释机器学习(IML)领域的研究。在这里,我们提出了一种用于黑盒预测功能分解的新方法,这被认为是IML的核心概念。我们方法的思想是通过由简单子函数组成的替代模型来替换预测函数。类似于加法回归模型,这些函数提供了关于主要特征贡献及其相互作用方向和强度的见解。我们的方法基于一种称为堆叠正交性的新概念,该概念确保主效应尽可能捕获尽可能多的功能行为,并且不包含由高阶交互作用解释的信息。与早期的功能IML方法不同,它既不受外推影响,也不受隐藏特征交互作用的影响。为了计算子函数,我们提出了一种基于神经加性建模和高效的事后正交化程序的算法。

论文链接: https://arxiv.org/abs/2407.18650

快速可靠的概率反射测深反演与先验摊销神经后验估计

原标题: Fast and Reliable Probabilistic Reflectometry Inversion with Prior-Amortized Neural Posterior Estimation

作者: Vladimir Starostin, Maximilian Dax, Alexander Gerlach, Alexander Hinderhofer, Álvaro Tejero-Cantero, Frank Schreiber

摘要: 从散射X射线或中子的测量中重建薄膜和多层结构对于物理、化学和生物学的进展至关重要。然而,对于标准算法来说,找到与反射率数据兼容的所有结构在计算上是不可行的,通常导致分析不可靠,只能识别出单一潜在解决方案。我们通过一种概率深度学习方法来解决这种缺乏可靠性的问题,该方法可以在几秒钟内识别出所有现实结构,为反射率测量设立了新的标准。我们的方法,Prior-Amortized Neural Posterior Estimation (PANPE),结合了基于模拟的推断和新颖的自适应先验,这些先验可以向推断网络提供关于已知结构特性和可控实验条件的信息。PANPE网络支持关键场景,如高通量样品表征、实时监测结构演变,或者多个实验数据集的共同优化,可以适应提供快速、可靠和灵活的推断,解决许多其他反问题。

论文链接: https://arxiv.org/abs/2407.18648

通过机器学习在以太坊智能合约中进行漏洞检测:定性分析

原标题: Vulnerability Detection in Ethereum Smart Contracts via Machine Learning: A Qualitative Analysis

作者: Dalila Ressi, Alvise Spanò, Lorenzo Benetollo, Carla Piazza, Michele Bugliesi, Sabina Rossi

机构: 威尼斯大学、卡梅里诺大学、乌迪内大学

摘要: 智能合约对于众多关键的区块链应用至关重要,涵盖了从金融交易到供应链管理等多个领域。然而,它们的采用受到安全漏洞的阻碍,这可能导致重大的财务损失。目前大多数漏洞检测工具和方法都利用静态分析方法或机器学习。然而,尽管它们非常有价值,但这两种方法都存在局限性,使它们只能部分有效。在这项调查中,我们通过对现有工具和方法进行分类、评估和突出它们的局限性,分析了以太坊智能合约中机器学习漏洞检测的现状。我们的批判性评估揭示了诸如漏洞覆盖范围受限和数据集构建缺陷等问题,为我们提供了新的指标来克服阻碍对现有解决方案进行有效比较的困难。在我们的发现驱动下,我们讨论了增强智能合约漏洞检测准确性、范围和效率的最佳实践。我们的指南解决了已知的缺陷,同时为研究和发展开辟了新的方向。通过揭示当前挑战并提供改进的新方向,我们为安全智能合约开发和区块链技术的进步做出了贡献。

论文链接: https://arxiv.org/abs/2407.18639

CardioLab:从心电图特征估计实验室数值 —— 一项探索性研究

原标题: CardioLab: Laboratory Values Estimation from Electrocardiogram Features – An Exploratory Study

作者: Juan Miguel Lopez Alcaraz, Nils Strodthoff

机构: 卡尔·冯·奥西茨基老年堡大学

摘要: 介绍:实验室数值代表了医学诊断的基石,但存在着较慢的反馈时间、高昂的成本,并且仅提供关于某一时间点的信息。从非侵入性数据(如心电图)连续估计实验室数值将在医疗监测领域标志着一个重要的前沿。尽管具有改变潜力,但这一领域在医学界中仍相对未被充分探索。
方法:在这项初步研究中,我们使用一个公开可用的数据集(MIMIC-IV-ECG)来调查利用基于树的模型(XGBoost)从心电图特征和患者人口统计学信息推断实验室数值的可行性。我们将预测任务定义为一个二元预测问题,即预测实验室数值是否属于低异常或高异常。然后可以使用AUROC来评估模型的性能。
结果:我们的研究结果展示了基于一小部分全面特征对不同器官系统相关的实验室数值进行估计的有希望结果。虽然进一步的研究和验证有必要来充分评估基于心电图的实验室数值估计在医疗监测中的临床效用和泛化能力,但我们的发现为未来探讨利用心电图数据进行实验室数值估计的方法奠定了基础。这样的进展有望革新预测性医疗应用,提供更快速、非侵入性和更经济的患者监测手段。

论文链接: https://arxiv.org/abs/2407.18629

FedUD:利用不对齐数据进行跨平台联邦点击率预测

原标题: FedUD: Exploiting Unaligned Data for Cross-Platform Federated Click-Through Rate Prediction

作者: Wentao Ouyang, Rui Dong, Ri Tao, Xiangzheng Liu

机构: 阿里巴巴集团

摘要: 点击率(CTR)预测在在线广告平台中起着重要作用。大多数现有方法使用广告平台本身的数据进行CTR预测。由于用户行为也存在于许多其他平台,例如媒体平台,进一步利用这些补充信息以更好地建模用户兴趣并提高CTR预测性能是有益的。然而,由于隐私问题,来自不同平台的数据不能上传到服务器进行集中式模型训练。垂直联邦学习(VFL)提供了一种可能的解决方案,可以在各参与方保留原始数据的同时以保护隐私的方式学习协作模型。然而,传统的VFL方法只利用各方之间具有共同键的对齐数据,这严重限制了它们的应用范围。在本文中,我们提出了FedUD,能够利用未对齐数据以及对齐数据,以实现更准确的联邦CTR预测。FedUD包含两个步骤。在第一步中,FedUD利用各方之间的对齐数据,类似于传统的VFL,但它还包括一个知识蒸馏模块。该模块从客方的高级表示中提炼有用的知识,并指导表示转移网络的学习。在第二步中,FedUD将学到的知识应用于丰富主方未对齐数据的表示,使得对齐数据和未对齐数据都能为联邦模型训练做出贡献。对两个真实数据集的实验表明,FedUD在联邦CTR预测方面表现出优越性能。

论文链接: https://arxiv.org/abs/2407.18472

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值