2024年1月18日Arxiv最热论文推荐：LLM化身符号逻辑大师、谷歌DeepMind新算法挑战动态环境下的在线优化极限、中科院打造新模型分钟级生成Vlog

夕小瑶

已于 2024-01-18 16:27:15 修改

阅读量1k

点赞数 19

文章标签：人工智能 nlp 语言模型深度学习大模型算法

于 2024-01-18 16:21:58 首次发布

本文链接：https://blog.csdn.net/xixiaoyaoww/article/details/135677693

版权

本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。

论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台（saibomaliang.com）上的智能体 「AI论文解读达人」 提供。

如需查看其他热门论文，欢迎移步 saibomaliang.com ^_^

Top1

Large Language Models Are Neurosymbolic Reasoners

标题：
大语言模型化身符号逻辑大师，AAAI 2024见证文本游戏新纪元

标签：

NLP、ML、AAAI 2024

作者：
Meng Fang, Shilong Deng, Yudi Zhang, Zijing Shi, Ling Chen, Mykola Pechenizkiy, Jun Wang

推荐理由：

这篇论文被接受在顶级会议AAAI 2024上发表，且论文标题表明研究了大型语言模型（LLMs）在神经符号推理方面的能力，这是当前AI领域的热点话题之一。此外，论文来自于知名机构，这增加了其吸引力。

论文简介：

许多现实世界的应用都具有符号性质，需要强大的符号推理能力。本文研究了大型语言模型（LLMs）作为符号推理器的潜在应用。我们关注基于文本的游戏，这是自然语言能力代理在符号任务（如数学、地图阅读、排序和在文本世界中应用常识）方面的重要基准。

为了帮助这些代理，我们提出了一个专门用于解决符号挑战和实现游戏目标的LLM代理。我们首先初始化LLM代理并告知其角色。然后代理接收来自文本游戏的观察和一组有效动作，以及一个特定的符号模块。利用这些输入，LLM代理选择一个动作并与游戏环境进行交互。我们的实验结果表明，我们的方法显著提升了LLMs作为自动代理符号推理的能力，我们的LLM代理在涉及符号任务的文本游戏中表现出了良好的效果，平均性能达到了 88%。

论文解读链接：

赛博马良——懂流量密码的新媒体AI员工定制平台

Top2

Adaptive Regret for Bandits Made Possible: Two Queries Suffice

标题：

双查询革命：谷歌DeepMind &卡内基梅隆 &伯克利联合研究，提出StABL算法，挑战动态环境下的在线优化极限

标签：
Google、Deepmind、Carnegie Mellon University、Berkeley、ML、ICLR 2024

作者：
Zhou Lu, Qiuyi Zhang, Xinyi Chen, Fred Zhang, David Woodruff, Elad Hazan

推荐理由：

论文被接受在ICLR 2024上发表，这是一个顶级会议，且论文涉及到自适应遗憾最小化，这是机器学习领域的一个重要问题。论文的作者和机构包括Google、Deepmind和顶尖大学，这些都是在AI领域具有很高影响力的机构。

论文简介：
快速变化的状态或不稳定的环境对在线优化提出了重大挑战，需要在有限观测下进行快速适应。本文在严格的强自适应遗憾概念下，给出了查询和遗憾最优的赌博算法，该概念衡量了任意连续区间𝐼上的最大遗憾。由于其最坏情况特性，当每轮只允许一个查询时，存在几乎线性的Ω(|𝐼|1−𝜖)遗憾下界[Daniely et al, ICML 2015]。

令人惊讶的是，仅使用每轮两个查询，我们提出了强自适应赌博学习器(StABL)，对于具有𝑛个臂的多臂赌博机，实现了𝑂̃ (√‾‾‾(𝑛|𝐼|)自适应遗憾。该界限是紧致的，一般情况下无法改进。我们的算法利用了变步长的乘法更新方案和精心选择的观测分布来控制方差。此外，我们扩展了我们的结果，并在赌博凸优化设置中提供了最优算法。最后，我们在不稳定环境和下游任务(如超参数优化的算法选择)中经验性地展示了我们算法的优越性能。

论文解读链接：

赛博马良——懂流量密码的新媒体AI员工定制平台

Top3

P22OT: Progressive Partial Optimal Transport for Deep Imbalanced Clustering

标题：

英特尔 ICLR 2024 研究颠覆传统：提出新框架重塑深度不平衡聚类

标签：
Intel、CV、ICLR 2024

作者：

Chuyu Zhang, Hui Ren, Xuming He

推荐理由：

这篇论文同样被接受在ICLR 2024上发表，研究了深度不平衡聚类问题，这是一个具有实际应用前景的研究领域。论文来自Intel，这是一个在AI领域具有重要影响的大公司。

论文简介：

深度聚类是一种在没有标签信息的情况下学习表示和语义聚类的深度学习方法，对于基于深度学习的方法来说，这是一个巨大的挑战。尽管近年来取得了显著的进展，但大多数现有方法都集中在均匀分布的数据集上，严重限制了其方法的实际适用性。在本文中，我们首先介绍了一个更实际的问题设置，称为深度不平衡聚类，其中底层类别呈现不平衡分布。

为了解决这个问题，我们提出了一种新颖的基于伪标签的学习框架。我们的框架将伪标签生成形式化为一个渐进的部分最优传输问题，通过在先验分布约束下逐渐将每个样本传输到不平衡的聚类中，从而生成具有不平衡感知的伪标签，并从高置信度样本中学习。此外，我们将初始形式转化为一个带有增强约束的不平衡最优传输问题，可以通过快速矩阵缩放算法高效求解。在包括人工筛选的长尾CIFAR100、具有挑战性的ImageNet-R和大规模细粒度iNaturalist2018数据集的各种数据集上的实验证明了我们方法的优越性。

论文解读链接：
赛博马良——懂流量密码的新媒体AI员工定制平台

Top4

A Characterization Theorem for Equivariant Networks with Point-wise Activations

标题：

牛津大学 ICLR 2024 研究突破！揭秘对称领域中等变网络的激活函数之谜

标签：

Oxford、ML、ICLR 2024

作者：
Marco Pacini, Xiaowen Dong, Bruno Lepri, Gabriele Santin

推荐理由：
论文被接受在ICLR 2024上发表，探讨了等变网络的特性，这是深度学习理论研究中的一个重要方向。论文来自牛津大学，这是一个在学术界具有高度声誉的机构。

论文简介：
等变神经网络在对称域上表现出了改进的性能、表达能力和样本复杂性。但对于某些特定的对称性、表示和坐标选择，最常见的逐点激活函数（如ReLU）不是等变的，因此不能在等变神经网络的设计中使用。本文中我们提出的定理描述了所有可能的有限维表示、坐标选择和逐点激活函数的组合，以获得一个完全等变的层，从而推广和加强现有的表征。相关的实际情况作为推论进行了讨论。

事实上，我们证明了旋转等变网络只能是不变的，就像对于任何与连通紧致群等变的网络一样。然后，我们讨论了当应用于重要的完全等变网络实例时，我们的发现的影响。首先，我们完全刻画了诸如具有逐点非线性和其几何对应的不变图网络等置换等变网络，突出了一系列模型，其表达能力和性能仍然未知。其次，我们证明了解缠结可转动卷积神经网络的特征空间是平凡表示。

论文解读链接：
赛博马良——懂流量密码的新媒体AI员工定制平台

Top5

Vlogger: Make Your Dream A Vlog

标题：
梦想成真，用AI导演你的生活！中科院打造Vlogger，分钟级Vlog生成突破技术壁垒

标签：

Chinese Academy of Sciences、ML、CV
作者：
Shaobin Zhuang, Kunchang Li, Xinyuan Chen, Yaohui Wang, Ziwei Liu, Yu Qiao, Yali Wang

推荐理由：
论文来自中国科学院，这是一个在中国具有很高影响力的研究机构。论文的标题表明研究了视频博客（Vlog）的自动生成，这是一个新兴的研究领域，具有较高的社会影响和媒体传播潜力。

论文简介：
在这项工作中，我们提出了Vlogger，一个通用的人工智能系统，用于根据用户描述生成一分钟级别的视频博客（即vlog）。与几秒钟的短视频不同，vlog通常包含一个复杂的故事情节和多样化的场景，这对大多数现有的视频生成方法来说是具有挑战性的。为了突破这个瓶颈，我们的Vlogger巧妙地利用大型语言模型（LLM）作为导演，并将vlog的长视频生成任务分解为四个关键阶段，其中我们调用各种基础模型来扮演vlog专业人员的关键角色，包括（1）剧本，（2）演员，（3）节目制作人和（4）配音员。

通过模仿人类的设计，我们的Vlogger可以通过自上而下的规划和自下而上的拍摄来生成vlogs。此外，我们引入了一种新颖的视频扩散模型ShowMaker，它在我们的Vlogger中充当摄影师，用于生成每个拍摄场景的视频片段。通过细致地结合剧本和演员作为文本和视觉提示，它可以有效地增强片段的时空连贯性。此外，我们为ShowMaker设计了一种简洁的混合训练范式，提升了其在T2V生成和预测方面的能力。最后，广泛的实验证明，我们的方法在零样本T2V生成和预测任务上取得了最先进的性能。更重要的是，Vlogger可以从开放世界的描述中生成超过5分钟的vlogs，而不会在剧本和演员上失去视频的连贯性。代码和模型都可以在…中获得。

论文解读链接：

论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台（saibomaliang.com）上的智能体 「AI论文解读达人」 提供。

如需查看其他热门论文，欢迎移步 saibomaliang.com ^_^