cs.CL: 代码预训练改善了语言模型的实体跟踪能力
原标题: Code Pretraining Improves Entity Tracking Abilities of Language Models
作者: Najoung Kim, Sebastian Schuster, Shubham Toshniwal
机构: 波士顿大学 伦敦大学学院 NVIDIA
摘要: 最近的研究提供了间接证据,表明在代码上对语言模型进行预训练可以提高模型跟踪自然语言中表达的话语实体状态变化的能力。在这项工作中,我们通过比较语言模型对实体跟踪性能的对比来系统地测试这一说法。关键是,这些对比包括基础模型和在这些基础模型之上使用额外代码数据进行训练的模型。我们扩展这一分析,另外检验数学训练的影响,这是另一种高度结构化的数据类型,以及对齐调整,这是增强模型可用性的重要步骤。我们发现明显的证据表明,另外在大量代码上进行训练的模型优于基础模型。另一方面,我们发现在各种模型系列中,额外的数学训练或对齐调整并没有一致的益处。
论文链接: https://arxiv.org/pdf/2405.21068
cs.CL: 通过质量感知的自我完善直接对齐语言模型
原标题: Direct Alignment of Language Models via Quality-Aware Self-Refinement
作者: Runsheng Yu, Yong Wang, Xiaoqi Jiao, Youzhi Zhang, James T. Kwok
机构: 香港科技大学 腾讯光子工作室 中国科学院香港创新人工智能与机器人中心
摘要: 强化学习从人类反馈中学习(RLHF)已被广泛用于使大语言模型(LLMs)的行为与人类偏好相一致。最近,一种流行的替代方法是直接策略优化(DPO),它用策略本身取代了基于LLM的奖励模型,从而省去了学习奖励模型所需的额外内存和训练时间。然而,DPO并未考虑积极和消极反馈的相对质量,可能导致次优的训练结果。为了缓解这一问题,我们研究了在动态微调的LLM中利用内在知识来获取相对质量,并帮助优化损失函数。具体来说,我们利用LLM的知识设计了一个精炼函数,用于估计积极和消极反馈的质量。我们展示了构建的精炼函数可以在温和的假设下帮助自我优化损失函数。这个精炼函数被整合到DPO及其变种Identity Policy Optimization(IPO)中。跨多个评估者的实验表明,它们可以提高微调模型的性能,超过DPO和IPO。
论文链接: https://arxiv.org/pdf/2405.21040
cs.CL: LACIE:针对大语言模型中置信度校准的听众感知微调
原标题: LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models
作者: Elias Stengel-Eskin, Peter Hase, Mohit Bansal
机构: 北卡罗来纳大学教堂山分校
摘要: 在回答问题时,大语言模型不仅可以传达答案,还可以传达答案正确性的信心水平。这包括显式的信心标记(例如给出数值分数)以及隐式标记,比如权威的语气或者通过额外知识的阐述。为了让大语言模型成为可信赖的知识来源,它们传达的信心应该与它们的实际专业知识相匹配;然而,大多数当前的模型倾向于过度自信。为了校准隐式和显式的信心标记,我们引入了一种实用的、关注听众的微调方法(LACIE),该方法模拟了听众,不仅考虑答案是否正确,还考虑了答案是否会被听众接受。我们将校准视为偏好优化,通过一个两个智能体的游戏创建数据,其中一个发言模型的输出由一个模拟听众来评判。然后,我们用LACIE对三个大语言模型(Mistral-7B、Llama3-8B、Llama3-70B)进行微调,并展示得到的模型在模拟听众方面更加校准。至关重要的是,这些趋势可以转移到人类听众身上,帮助他们正确预测模型的正确性:我们进行了一个人类评估,标注者接受或拒绝大语言模型的答案,结果发现使用LACIE进行训练可以使接受的错误答案减少47%,同时保持正确答案的接受水平不变。此外,LACIE可以推广到另一个数据集,在TrivaQA上训练时,在TruthfulQA上产生了真实性大幅增加。我们的分析表明,LACIE导致了正确和错误示例之间更好的信心分离。从定性上看,我们发现,经过LACIE训练的模型在正确时更加谨慎,并通过权威的语气或包含细节来隐含地表明确定性。最后,LACIE的微调导致模型在可能错误的答案上出现了紧急的弃权增加(例如说“我不知道”)。
论文链接: https://arxiv.org/pdf/2405.21028
cs.CL: 你只扫描一次:使用LightNet进行高效的多维序列建模
原标题: You Only Scan Once: Efficient Multi-dimension Sequential Modeling with LightNet
作者: Zhen Qin, Yuxin Mao, Xuyang Shen, Dong Li, Jing Zhang, Yuchao Dai, Yiran Zhong
摘要: 线性注意机制因其线性计算复杂度和增强速度而在因果语言模型中备受关注。然而,在线性注意中固有的衰减机制在应用于多维序列建模任务(如图像处理和多模态学习)时存在挑战。在这些情况下,利用顺序扫描建立全局感受野需要对多维数据进行多次扫描,从而导致低效率。本文确定了由乘法线性递归引起的低效率,并提出了一种有效的替代加法线性递归以避免这一问题,因为它可以在单次扫描中处理多维数据。我们进一步基于新的递归开发了一个名为LightNet的高效多维顺序建模框架。此外,我们提出了两种新的多维线性相对位置编码方法,MD-TPE和MD-LRPE,以增强模型在多维场景中识别位置信息的能力。我们在包括图像分类、图像生成、双向语言建模和自回归语言建模在内的各种任务上进行了实证评估,展示了LightNet的有效性,展示了其作为多维顺序建模的多才多艺和高效解决方案的潜力。
论文链接: https://arxiv.org/pdf/2405.21022
cs.CL: SaySelf: 教导大语言模型通过自我反思的理由表达自信
原标题: SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales
作者: Tianyang Xu, Shujin Wu, Shizhe Diao, Xiaoze Liu, Xingyao Wang, Yangyi Chen, Jing Gao
机构: 普渡大学 伊利诺伊大学厄巴纳-香槟分校 南加州大学 香港科技大学
摘要: 大语言模型(LLMs)经常生成不准确或虚假信息,并且通常无法表明它们的置信度,这限制了它们的广泛应用。先前的工作通过直接或自一致提示,或构建特定数据集进行监督微调来引出LLMs的置信度。基于提示的方法性能较差,而基于训练的方法则仅限于二进制或不准确的群体级置信度估计。在这项工作中,我们提出了先进的SaySelf,这是一个培训框架,教导LLMs表达更准确的细粒度置信度估计。除了置信度分数,SaySelf还启动了指导LLMs生成自我反思原因的过程,清晰地识别其参数化知识中的差距并解释其不确定性。这是通过使用LLMs自动总结特定知识中的不确定性来实现的,通过自然语言进行总结。总结是基于对多个采样推理链中的不一致性的分析,生成的数据用于监督微调。此外,我们利用精心设计的奖励函数进行强化学习,来校准置信度估计,激励LLMs提供准确、高置信度的预测,并惩罚错误输出中的过度自信。在分布内和分布外数据集上的实验结果表明,SaySelf在减少置信度校准误差和保持任务性能方面的有效性。我们展示生成的自我反思原因是合理的,并且可以进一步有助于校准。代码已在\url{this https URL}上公开。
论文链接: https://arxiv.org/pdf/2405.20974
Github: https://github.com/xu1868/SaySelf
cs.CL: 超级级别的语境:超级级别框架的显式和隐式领域限制
原标题: Superlatives in Context: Explicit and Implicit Domain Restrictions for Superlative Frames
作者: Valentina Pyatkin, Bonnie Webber, Ido Dagan, Reut Tsarfaty
机构: 巴伊兰大学 爱丁堡大学 艾伦人工智能研究所
摘要: 最高级形式用于突出具有最大/最小属性的元素。从语义上讲,最高级形式执行一种集合比较:某物(或某些事物)在一组中具有最小/最大属性。因此,最高级形式为研究隐含现象和话语限制提供了一个理想的现象。虽然这种比较集合通常没有明确定义,但可以从表达式出现的话语背景中推断出其(隐含的)限制。在这项工作中,我们对最高级形式的语义进行了广泛的计算研究。我们提出了一个统一的最高级语义解释,使我们能够推导出一个广泛覆盖的注释模式。使用这个统一模式,我们对一个多领域的最高级数据集及其语义解释进行了注释。我们专门关注解释隐含或模糊的最高级表达,通过分析话语背景如何限制解释的集合。在一系列实验中,我们分析了模型在预测最高级语义的不同变体时表现如何,包括有无上下文。我们展示了最高级形式在上下文中的细粒度语义对于当代模型(包括 GPT-4)来说可能具有挑战性。
论文链接: https://arxiv.org/pdf/2405.20967
cs.CL: OR-Bench:大语言模型的过度拒绝基准
原标题: OR-Bench: An Over-Refusal Benchmark for Large Language Models
作者: Justin Cui, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh
机构: 加州大学洛杉矶分校 加州大学伯克利分校
摘要: 大语言模型(LLMs)需要仔细的安全对齐以防止恶意输出。虽然大量研究集中在减轻有害内容生成上,但增强的安全性往往伴随着过度拒绝的副作用,即LLMs可能拒绝无害提示并变得不太有帮助。尽管过度拒绝的问题已经被经验性地观察到,但由于难以制作看似有害但实际无害的提示,系统性的测量具有挑战性。本研究提出了一种新方法,用于自动生成大规模的“看似有毒提示”集合(LLMs可能拒绝的无害提示)。利用这一技术,我们引入了OR-Bench,第一个大规模过度拒绝基准。OR-Bench包括80,000个看似有毒提示,涵盖10个常见的拒绝类别,约1,000个难度较大的提示的子集,即使对于最先进的LLMs也具有挑战性,并额外包含600个有毒提示以防止不加区分的响应。然后,我们进行了一项全面研究,以测量25个流行LLMs在8个模型系列中的过度拒绝情况。我们的数据集可在此https URL找到,相应的演示可在此https URL找到。我们希望这一基准可以帮助社区开发更好的安全对齐模型。
论文链接: https://arxiv.org/pdf/2405.20947
其他链接: https://huggingface.co/datasets/bench-llm/OR-Bench
cs.CL: 学习使用Transformer和Mamba来估计线性时序逻辑中的系统规范
原标题: Learning to Estimate System Specifications in Linear Temporal Logic using Transformers and Mamba
作者: İlker Işık, Ebru Aydin Gol, Ramazan Gokberk Cinbis
机构: 中东技术大学 微软
摘要: 时间逻辑是一个用于表示和推理随时间演变的命题的框架。它通常用于在各种领域中指定要求,包括硬件和软件系统,以及机器人技术。规范挖掘或公式生成涉及从系统跟踪中提取时间逻辑公式,并具有诸多应用,如检测错误和提高可解释性。尽管近年来出现了大量基于深度学习的时间逻辑可满足性检查方法,但规范挖掘文献在采用深度学习方法方面一直落后,尽管这些方法具有诸多优势,如可扩展性。在本文中,我们介绍了能够从跟踪中生成线性时间逻辑公式的自回归模型,以解决规范挖掘问题。我们针对这一任务提出了多种架构:Transformer 编码器-解码器、仅解码器的 Transformer 和 Mamba,这是 Transformer 模型的一种新兴替代方案。此外,我们设计了一个用于量化生成公式的独特性的度量标准,以及一个简单的算法来强制执行语法约束。我们的实验表明,所提出的架构产生了令人鼓舞的结果,以较小的计算成本生成了正确且独特的公式,而这只需组合基线所需的一小部分计算成本。
论文链接: https://arxiv.org/pdf/2405.20917
cs.CL: 对链式推理的“先发制人”回答攻击
原标题: Preemptive Answer “Attacks” on Chain-of-Thought Reasoning
作者: Rongwu Xu, Zehan Qi, Wei Xu
机构: 清华大学
摘要: 大语言模型(LLMs)在与思维链(CoT)提示相结合时展现出令人印象深刻的推理能力。然而,这种方法的鲁棒性需要进一步调查。在本文中,我们介绍了一种称为预先回答的新情景,在这种情况下,LLM在进行推理之前就获得了答案。这种情况可能是无意中发生的,也可能是恶意用户通过提示注入攻击而引起的。实验证明,预先回答显著削弱了模型在各种CoT方法和广泛数据集上的推理能力。为了增强推理的鲁棒性,我们提出了两项旨在在一定程度上减轻这一问题的措施。
论文链接: https://arxiv.org/pdf/2405.20902
cs.CL: 大语言模型:大规模隐私政策分析的新方法
原标题: Large Language Models: A New Approach for Privacy Policy Analysis at Scale
作者: David Rodriguez, Ian Yang, Jose M. Del Alamo, Norman Sadeh
机构: 马德里理工大学 卡内基梅隆大学
摘要: Web和移动应用程序的数量和动态性给评估它们是否符合数据保护法律带来了重大挑战。在这种情况下,符号和统计自然语言处理(NLP)技术已被用于自动分析这些系统的隐私政策。然而,这些技术通常需要耗时且潜在存在错误的手动注释数据集用于训练和验证。这项研究提出了将大语言模型(LLMs)应用作为一种替代方法,以有效且高效地从隐私政策中提取隐私实践。特别是,我们利用众所周知的LLMs,如ChatGPT和Llama 2,并就提示、参数和模型的最佳设计提供指导,结合少样本学习等先进策略。我们进一步展示了其准确检测详细和多样的隐私实践的能力。通过使用该领域中的几个知名数据集作为基准,我们的评估验证了其出色的性能,实现了超过93%的F1分数。此外,它在降低成本、加快处理时间和减少技术知识要求方面做到了这一点。因此,我们主张基于LLMs的解决方案作为传统NLP技术的一种可靠替代方案,用于大规模自动分析隐私政策。
论文链接: https://arxiv.org/pdf/2405.20900
cs.CL: 一项将对应分析与基于PMI的词嵌入方法进行比较的研究
原标题: A comparison of correspondence analysis with PMI-based word embedding methods
作者: Qianqian Qi, David J. Hessen, Peter G. M. van der Heijden
摘要: 流行的词嵌入方法,如GloVe和Word2Vec,与点间互信息(PMI)矩阵的因子分解有关。在本文中,我们将对应分析(CA)与PMI矩阵的因子分解联系起来。CA是一种使用奇异值分解(SVD)的降维方法,我们展示了CA在数学上与PMI矩阵的加权因子分解非常接近。此外,我们提出了CA的变体,这些变体在词-上下文矩阵的因子分解中表现出成功,即应用于条目经历平方根转换的矩阵的CA(ROOT-CA)和根-根转换的矩阵的CA(ROOTROOT-CA)。CA和基于PMI的方法的实证比较表明,总体而言,ROOT-CA和ROOTROOT-CA的结果略优于基于PMI的方法。
论文链接: https://arxiv.org/pdf/2405.20895
cs.CL: clembench-2024:一个具有挑战性、动态、多语言的基准测试和灵活框架,用于LLMs作为多动作智能体。
原标题: clembench-2024: A Challenging, Dynamic, Complementary, Multilingual Benchmark and Underlying Flexible Framework for LLMs as Multi-Action Agents
作者: Anne Beyer, Kranti Chalamalasetti, Sherzod Hakimov, Brielen Madureira, Philipp Sadler, David Schlangen
摘要: 最近的研究表明,大语言模型(LLMs)可以被提示进行“自我对话”来探索某些能力(一般的指令遵循、战略目标定位、语言理解能力),在这种交互式游戏中的结果可以被自动评分。在本文中,我们采用了一个提出的框架来建立这样的游戏环境,并进一步测试其作为评估工具的实用性,涉及多个方面:我们展示它可以轻松跟上新的发展,同时避免数据污染,我们展示其中实施的测试还没有饱和(人类表现远高于甚至最好的模型),并且我们展示它适用于探讨其他问题,比如提示语言对性能的影响。我们相信这种方法为在构建应用交互系统的模型选择上提供了良好的基础,也许最终可以建立一个系统和模拟评估者的闭环开发环境。
论文链接: https://arxiv.org/pdf/2405.20859
cs.CL: 通过多层多粒度对比学习实现口语理解
原标题: Towards Spoken Language Understanding via Multi-level Multi-grained Contrastive Learning
作者: Xuxin Cheng, Wanshi Xu, Zhihong Zhu, Hongxiang Li, Yuexian Zou
机构: 北京大学
摘要: 口语理解(SLU)是任务导向对话系统中的核心任务,旨在通过构建语义框架来理解用户当前的目标。SLU通常包括两个子任务,包括意图检测和槽填充。尽管有一些SLU框架联合建模这两个子任务并取得了很高的性能,但大多数仍然忽视了意图和槽之间固有的关系,未能实现两个子任务之间的相互引导。为了解决这个问题,我们提出了一个多级多粒度的SLU框架MMCL,应用对比学习在三个级别上,包括话语级别、槽级别和词级别,使意图和槽能够相互引导。对于话语级别,我们的框架同时实现了粗粒度对比学习和细粒度对比学习。此外,我们还应用了自蒸馏方法来提高模型的鲁棒性。实验结果和进一步分析表明,我们提出的模型在两个公共多意图SLU数据集上取得了新的最先进结果,在MixATIS数据集上相比之前最佳模型提高了2.6的整体准确率。
论文链接: https://arxiv.org/pdf/2405.20852
cs.CL: 改进奖励模型与合成评论
原标题: Improving Reward Models with Synthetic Critiques
作者: Zihuiwen Ye, Fraser Greenlee-Scott, Max Bartolo, Phil Blunsom, Jon Ander Campos, Matthias Gallé
机构: 牛津大学 Cohere
摘要: 奖励模型(RM)在通过从人类反馈中进行强化学习来对齐语言模型中发挥关键作用。 RM被训练为预测反映人类偏好的分数,这需要大量的时间和成本进行人工标注。此外,RM往往会迅速过拟合训练集中的表面特征,从而阻碍它们在未知分布上的泛化性能。我们提出了一种新方法,利用大型语言模型生成的合成自然语言评论,以提供额外的反馈,评估诸如遵循指示、正确性和风格等方面。这为RM提供了更丰富的信号和更强大的特征,以便进行评估和打分。我们证明高质量的评论提高了从不同预训练模型初始化的RM的性能和数据效率。相反,我们还表明低质量的评论会对性能产生负面影响。此外,整合评论提升了RM训练的可解释性和稳健性。
论文链接: https://arxiv.org/pdf/2405.20850
cs.CL: 不要购买!重新评估对比多模态模型的广告理解能力
原标题: Don’t Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models
作者: A. Bavaresco, A. Testoni, R. Fernández
机构: 阿姆斯特丹大学逻辑、语言和计算研究所
摘要: 基于图像的广告是复杂的多模态刺激,通常包含不寻常的视觉元素和比喻语言。先前关于自动广告理解的研究报告了对广告解释检索任务的对比视觉-语言模型(VLMs)的令人印象深刻的零样本准确性。在这里,我们检查原始任务设置,并展示对比VLMs可以通过利用基础启发式解决它。为了控制这种混淆,我们引入了TRADE,一个带有对抗性基础解释的新评估测试集。虽然这些解释对人类看起来不太可能,但我们展示它们“愚弄”了四种不同的对比VLMs。我们的发现突显了对自动广告理解的改进操作化的需求,真正评估VLMs的多模态推理能力。我们将我们的代码和TRADE提供在此 https URL。
论文链接: https://arxiv.org/pdf/2405.20846
Github: https://github.com/dmg-illc/trade
cs.CL: 这是可选的:对英语从属子句中“that”省略的当代探讨
原标题: That’s Optional: A Contemporary Exploration of “that” Omission in English Subordinate Clauses
作者: Ella Rabinovich
机构: 特拉维夫-雅法学术学院
摘要: 统一信息密度(UID)假设认为,说话者通过避免信息突增,从而在时间上保持相对均匀的信息分布,优化其话语的传达属性。本文研究了UID原则对句法简化的影响,特别关注英语从属从句中连接词“that”的可选省略。在前期研究基础上,我们将调查范围扩大到更大的英语书面语料库,利用当代大语言模型(LLMs),并通过熵的概念扩展信息均匀性原则,以估计在句法简化选择案例中UID表现形式。
论文链接: https://arxiv.org/pdf/2405.20833
cs.CL: 自我增强偏好优化:用于语言模型对齐的离策略范式
原标题: Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment
作者: Yueqin Yin, Zhendong Wang, Yujia Xie, Weizhu Chen, Mingyuan Zhou
摘要: 传统的语言模型对齐方法,如直接偏好优化(DPO),受限于对静态、预先收集的配对偏好数据的依赖,这限制了它们的适应性和实际适用性。为了克服这一限制,我们引入了自增强偏好优化(SAPO),这是一种有效且可扩展的训练范式,不需要现有的配对数据。基于自我对弈概念,自动生成负面响应,我们进一步结合离策略学习管道,以增强数据的探索和利用。具体而言,我们采用指数移动平均(EMA)模型,结合重放缓冲区,实现响应片段的动态更新,有效地将实时反馈与历史数据的见解相结合。我们对 LLaMA3-8B 和 Mistral-7B 模型在基准测试中的全面评估,包括 Open LLM 排行榜、IFEval、AlpacaEval 2.0 和 MT-Bench,表明 SAPO 与已建立的离线对照基线(如 DPO 和 Odds Ratio Preference Optimization)相匹配或超越,并且优于离线自我对弈方法,如 SPIN。我们的代码可在此 https URL 上找到。
论文链接: https://arxiv.org/pdf/2405.20830
Github: https://github.com/yinyueqin/SAPO
cs.CL: 一个混合了监督学习和无监督学习的语言变化的迭代学习模型
原标题: An iterated learning model of language change that mixes supervised and unsupervised learning
作者: Jack Bunyan, Seth Bullock, Conor Houghton
摘要: 迭代学习模型是一种基于智能体的语言变化模型,其中语言从导师传递给学生,学生本身又成为新学生的导师,依此类推。稳定、表达丰富且具有组合性的语言会自发地产生,这是语言传递瓶颈的结果。先前的模型实现了智能体从信号到含义的映射,使用了人工神经网络解码器,但依赖于一个不切实际且计算昂贵的过程来实现相关的编码器,即从含义到信号的映射。在这里,提出了一个新模型,其中解码器和编码器都是神经网络,通过监督学习分别进行训练,并通过自编码器形式的无监督学习一起进行训练。这避免了涉及 obversion 的大量计算负担,并引入了在人类发展过程中观察到的监督和无监督学习的混合。
论文链接: https://arxiv.org/pdf/2405.20818
cs.CL: 通过本地样本混合来改善代码混合仇恨检测:以印地语-英语混合代码为案例研究
原标题: Improving code-mixed hate detection by native sample mixing: A case study for Hindi-English code-mixed scenario
作者: Debajyoti Mazumder, Aakash Kumar, Jasabanta Patro
机构: 印度科学教育与研究学院博帕尔分院 印度
摘要: 仇恨检测长期以来一直是自然语言处理社区的一项具有挑战性的任务。在混合编码环境中,这项任务变得更加复杂,因为模型必须理解语言变化中表达的上下文和仇恨。与单语言设置相比,我们发现在混合编码仇恨方面的工作很少,因为缺乏大规模标注的仇恨语料库来进行研究。为了克服这一瓶颈,我们提出使用本地语言的仇恨样本。我们假设在多语言语言模型(MLMs)时代,混合编码环境中的仇恨可以主要依赖于本地语言样本来检测。尽管自然语言处理文献报告了MLMs在许多跨语言设置下对仇恨检测的有效性,但它们在混合编码场景中的广泛评估尚未完成。本文试图通过严格的实证实验来填补这一空白。我们将印地语-英语混合编码设置作为案例研究,因为我们对该领域具有语言学专业知识。我们得到的一些有趣观察是:(i)在混合编码训练集中添加本地仇恨样本,即使数量很少,也提高了MLMs对混合编码仇恨检测的性能,(ii)仅使用本地样本训练的MLMs观察到在很大程度上检测到混合编码仇恨,(iii)注意力分数的可视化显示,当在训练中包含本地样本时,MLMs能够更好地关注混合编码上下文中表达仇恨的词语,(iv)最后,当仇恨是主观的或讽刺的时,简单地混合本地样本并不能很好地检测混合编码仇恨。我们将发布数据和代码存储库以重现报告的结果。
论文链接: https://arxiv.org/pdf/2405.20755
cs.CL: FinGen:金融领域论点生成数据集
原标题: FinGen: A Dataset for Argument Generation in Finance
作者: Chung-Chi Chen, Hiroya Takamura, Ichiro Kobayashi, Yusuke Miyao
机构: 人工智能研究中心、AIST、日本 东京大学、日本 御茶水女子大学
摘要: 思考未来是人们日常生活中重要的活动之一。未来学家也付出了很多努力来揣摩未来可能出现的场景。我们认为,在自然语言处理研究中,对这个方向的探索仍处于早期阶段。为此,我们在金融应用场景中提出了三个论证生成任务。我们的实验结果显示,这些任务对于代表性生成模型仍然是巨大挑战。根据我们的实证结果,我们进一步指出了这一研究方向中一些未解决的问题和挑战。
论文链接: https://arxiv.org/pdf/2405.20708
cs.CL: 有时候很简单:关于提高基于方面的情感分析性能的研究
原标题: It is Simple Sometimes: A Study On Improving Aspect-Based Sentiment Analysis Performance
作者: Laura Cabello, Uchenna Akujuobi
机构: 哥本哈根大学 索尼人工智能公司
摘要: 方面为基础的情感分析(ABSA)涉及通过各种互补子任务从文本数据中提取关于特定实体及其相应方面的意见。先前的一些研究侧重于为这些子任务开发各种复杂性的特设设计。在本文中,我们提出了一个可扩展到任何ABSA子任务的生成框架。我们在Scaria等人(2023年)提出的指导调整模型基础上构建,他们提出了一个基于指导的模型,其中包括ABSA子任务的任务描述,后跟上上下文示例。我们提出了PFInstruct,这是对这种指导学习范式的扩展,通过在任务描述中添加一个与自然语言处理相关的任务前缀。这种简单方法导致在所有经过测试的SemEval子任务中性能提升,超过了先前在ATE子任务(Rest14)上的最新技术(SOTA)+3.28 F1分数,并且在SemEval数据集中的AOOE子任务上平均提高了+5.43 F1分数。此外,我们探讨了前缀增强提示质量对ABSA子任务的影响,并发现即使是嘈杂的前缀也会提高模型性能,与基准相比。我们的方法还在生物医学领域数据集(ERSA)上取得了竞争性的结果。
论文链接: https://arxiv.org/pdf/2405.20703
cs.CL: 揭示LLM的词汇敏感性:用于提示增强的组合优化
原标题: Unveiling the Lexical Sensitivity of LLMs: Combinatorial Optimization for Prompt Enhancement
作者: Pengwei Zhan, Zhen Xu, Qian Tan, Jie Song, Ru Xie
机构: 中国科学院信息工程研究所 中国科学院大学网络空间安全学院
摘要: 大语言模型(LLMs)展示了出色的指令遵循能力,可以完成各种下游任务。尽管这种令人印象深刻的能力使LLMs成为灵活的任务解决者,但它们在解决任务时的表现也严重依赖于指令。在本文中,我们揭示了LLMs对任务指令中的词汇变化过于敏感,即使这些变化对人类来说是难以察觉的。通过为模型提供邻近指令,这些指令在潜在表示空间中紧密相邻,仅有一个语义相似的词汇不同,下游任务的表现就会有很大差异。基于这一特性,我们提出了一个用于提示词汇增强的黑盒组合优化框架(COPLE)。COPLE根据一批代理任务的反馈执行迭代的词汇优化,使用与词汇影响相关的搜索策略。实验证明,即使是当前基准测试中广泛使用的人工设计的提示也受到模型对词汇的敏感性的影响,而COPLE在遵循指令和解决下游任务方面恢复了下降的模型能力。
论文链接: https://arxiv.org/pdf/2405.20701
cs.CL: DORY: 用于大语言模型的审慎提示恢复
原标题: DORY: Deliberative Prompt Recovery for LLM
作者: Lirong Gao, Ru Peng, Yiming Zhang, Junbo Zhao
机构: 浙江大学
摘要: 大语言模型(LLMs)的快速恢复对于理解LLMs的工作原理并解决与隐私、版权等相关的问题至关重要。只针对推理的API的趋势使得通过限制对恢复所必需的关键输出的访问来复杂化这一任务。为了解决这一挑战,我们从有限的输出中提取与提示相关的信息,并确定了基于输出概率的不确定性与提示恢复成功之间的强(负)相关性。这一发现促使我们开发了Deliberative PrOmpt RecoverY(DORY),这是我们的一种新方法,利用不确定性准确恢复提示。DORY包括从输出中重建草稿,通过提示对其进行改进,并根据不确定性滤除噪音。我们在各种LLMs和提示基准上的评估表明,DORY优于现有基准线,性能提高约10.82%,并在提示恢复任务中建立了新的最先进记录。值得注意的是,DORY使用单个LLM而无需任何外部资源或模型,提供了一种经济高效、用户友好的提示恢复解决方案。
论文链接: https://arxiv.org/pdf/2405.20657
cs.CL: 针对大语言模型在问答中的段落重新排序进行特定段落提示调整
原标题: Passage-specific Prompt Tuning for Passage Reranking in Question Answering with Large Language Models
作者: Xuyang Wu, Zhiyuan Peng, Sravanthi Rajanala, Hsin-Tai Wu, Yi Fang
机构: 圣克拉拉大学 沃尔玛全球科技 Docomo创新
摘要: 有效的段落检索和重新排序方法已被广泛应用于识别开放域问答任务中的合适候选项,最近的研究已经开始使用LLMs通过问题在每个段落上的对数似然来重新排序检索到的段落。尽管这些方法已经展示出有希望的结果,但性能明显受到人工编写提示(或困难提示)的影响,而且微调LLMs可能会耗费大量的计算资源和时间。此外,这种方法限制了利用问题-段落相关性对和特定段落知识来增强LLMs的排名能力。在本文中,我们提出了用于在开放域问答中重新排序的特定段落提示调整(PSPT):一种参数高效的方法,微调可学习的特定段落软提示,将来自有限问题-段落相关性对的特定段落知识纳入其中。该方法涉及根据模型生成的问题在每个段落上的对数似然和学习的软提示来对检索到的段落进行排名。我们进行了大量实验,利用Llama-2-chat-7B模型跨三个公开可用的开放域问答数据集,结果表明了所提方法的有效性。
论文链接: https://arxiv.org/pdf/2405.20654
cs.CL: 基于奖励的输入构建用于跨文档关系抽取
原标题: Reward-based Input Construction for Cross-document Relation Extraction
作者: Byeonghu Na, Suhyeon Jo, Yeongmin Kim, Il-Chul Moon
机构: 清华大学 基础科学研究院
摘要: 关系抽取(RE)是自然语言处理中的一个基本任务,旨在识别文本中目标实体之间的关系。虽然许多关系抽取方法是为单个句子或文档设计的,但跨文档关系抽取已经出现,以解决跨多个长文档的关系。鉴于跨文档关系抽取中长文档的特性,由于预训练语言模型的长度限制,提取文档嵌入是具有挑战性的。因此,我们提出了基于奖励的输入构造(REIC),这是用于跨文档关系抽取的第一个基于学习的句子选择器。REIC基于关系证据提取句子,使得RE模块能够有效推断关系。由于通常无法获得证据句子的监督,我们使用以RE预测分数作为奖励的强化学习来训练REIC。实验结果表明,我们的方法在跨文档关系抽取中的不同RE结构和骨干上优于启发式方法。我们的代码可以在此 https URL 公开获取。
论文链接: https://arxiv.org/pdf/2405.20649
Github: https://github.com/aailabkaist/REIC
cs.CL: 利用大语言模型进行实体匹配
原标题: Leveraging Large Language Models for Entity Matching
作者: Qianyu Huang, Tongfang Zhao
摘要: 实体匹配(EM)是数据集成中的关键任务,旨在识别跨不同数据集指向同一实际实体的记录。传统方法通常依赖于手动设计的特征和基于规则的系统,这些方法在处理多样化和非结构化数据时存在困难。大语言模型(LLMs)如GPT-4的出现为实体匹配带来了变革性潜力,利用它们先进的语义理解和上下文能力。这篇展望性论文探讨了将LLMs应用于实体匹配的可能性,讨论了它们的优势、挑战和未来研究方向。此外,我们还回顾了将弱监督和无监督方法应用于实体匹配的相关工作,突出了LLMs如何可以增强这些方法。
论文链接: https://arxiv.org/pdf/2405.20624
cs.CL: FineRadScore:一种放射学报告逐行评估技术,生成带有严重程度评分的更正。
原标题: FineRadScore: A Radiology Report Line-by-Line Evaluation Technique Generating Corrections with Severity Scores
作者: Alyssa Huang, Oishi Banerjee, Kay Wu, Eduardo Pontes Reis, Pranav Rajpurkar
摘要: 目前评估生成的胸部X射线(CXR)报告的黄金标准是通过放射科医师的注释。然而,这个过程可能非常耗时和昂贵,特别是在评估大量报告时。在这项工作中,我们提出了FineRadScore,一种基于大语言模型(LLM)的自动化评估指标,用于生成的CXR报告。给定一个候选报告和一个地面真实报告,FineRadScore给出了从候选到地面真实报告所需的逐行更正的最小数量。此外,FineRadScore提供了每个更正的错误严重程度评分,并生成解释为什么需要更正的评论。我们证明了FineRadScore的更正和错误严重程度评分与放射科医师的意见一致。我们还展示,当用于判断整体报告质量时,FineRadScore与放射科医师以及当前最先进的自动化CXR评估指标一致。最后,我们分析了FineRadScore的不足之处,提出了未来改进的建议。
论文链接: https://arxiv.org/pdf/2405.20613
cs.CL: UniBias: 通过内部注意力和FFN调整揭示和减轻LLM偏见
原标题: UniBias: Unveiling and Mitigating LLM Bias through Internal Attention and FFN Manipulation
作者: Hanzhang Zhou, Zijian Feng, Zixiao Zhu, Junlang Qian, Kezhi Mao
摘要: 大语言模型(LLMs)已经展示了在各种任务中使用上下文学习(ICL)范式的令人印象深刻的能力。然而,它们的有效性通常会受到固有偏见的影响,导致提示脆弱性,即对设计设置的敏感,比如示例选择、顺序和提示格式。先前的研究已经通过外部调整模型输出来解决LLM的偏见问题,但导致这种偏见的内部机制仍未被探索。我们的工作深入探讨了这些机制,特别是研究了前馈神经网络(FFNs)和注意力头是如何导致LLMs的偏见的。通过解释单个FFN向量和注意力头的贡献,我们确定了偏见LLM组件,这些组件使LLMs的预测偏向特定标签。为了减轻这些偏见,我们引入了UniBias,这是一种仅用于推断的方法,能够有效地识别和消除有偏见的FFN向量和注意力头。在12个自然语言处理数据集上进行的大量实验证明,UniBias显著提高了ICL的性能,并减轻了LLMs的提示脆弱性。
论文链接: https://arxiv.org/pdf/2405.20612
cs.CL: 在学习中识别文档事件因果关系识别
原标题: Identifying while Learning for Document Event Causality Identification
作者: Cheng Liu, Wei Xiang, Bang Wang
机构: 华中科技大学 软件工程学院
摘要: 事件因果识别(ECI)旨在检测文档中两个事件之间是否存在因果关系。现有研究采用一种学习后识别的范式,首先学习事件的表示,然后用于识别。此外,它们主要关注因果关系的存在,但忽略了因果方向。本文关注因果方向,提出了一种新的在学习过程中进行识别的模式,用于ECI任务。我们认为一些因果关系可以很容易地以高置信度进行识别,并且这些已识别因果关系的方向性和结构可以用于更新事件的表示,以提升下一轮因果识别的效果。为此,本文设计了一个迭代学习和识别框架:在每次迭代中,我们构建一个事件因果图,其中事件的因果结构表示被更新以提升因果识别。在两个公共数据集上的实验表明,我们的方法在因果存在识别和方向识别的两个评估方面均优于现有算法的表现。
论文链接: https://arxiv.org/pdf/2405.20608
cs.CL: DAFNet: 大语言模型中用于顺序模型编辑的动态辅助融合
原标题: DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models
作者: Taolin Zhang, Qizhou Chen, Dongyang Li, Chengyu Wang, Xiaofeng He, Longtao Huang, Hui Xue, Jun Huang
机构: 阿里巴巴集团 东华师范大学
摘要: 最近,尽管大语言模型(LLMs)展示了令人印象深刻的结果,但它们仍然存在幻觉,即生成虚假信息。模型编辑是修复LLMs中事实错误的任务;然而,大多数先前的工作将其视为一次性任务,很少关注LLMs生成的不断出现的错误。我们解决了连续模型编辑(SME)任务,旨在持续纠正错误。设计了一个动态辅助融合网络(DAFNet),以增强整个序列中事实知识之间的语义交互,防止在多个知识三元组的编辑过程中发生灾难性遗忘。具体地,(1)对于关系三元组内的语义融合,我们将编辑内部注意力流聚合到LLMs中具有标记级粒度的自回归自注意力中。我们进一步利用多层对角线的编辑间注意力流来更新整个序列级粒度的加权表示。(2)考虑到需要辅助参数来存储知识以进行顺序编辑,我们构建了一个名为DAFSet的新数据集,满足最近、流行、长尾和稳健属性,以增强顺序编辑的通用性。实验证明,DAFNet在单轮和连续编辑中明显优于强基线。DAFSet的使用还在各种场景中始终提高了其他基于辅助网络的方法的性能。
论文链接: https://arxiv.org/pdf/2405.20588
cs.CL: GAMedX: 使用大语言模型的生成式AI医疗实体数据提取器
原标题: GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models
作者: Mohammed-Khalil Ghali, Abdelrahman Farrag, Hajar Sakai, Hicham El Baz, Yu Jin, Sarah Lam
机构: 纽约州立大学宾汉姆顿分校
摘要: 在不断发展的医疗保健领域以及其他领域中,将生成式人工智能集成到电子健康记录(EHRs)中代表了一个重大进步,解决了当前信息提取技术中的重要缺口。本文介绍了GAMedX,一种利用大语言模型(LLMs)进行命名实体识别(NER)的方法,可以高效地从医学叙述和患者住院期间生成的非结构化文本中提取实体。通过解决处理非结构化医学文本的重大挑战,GAMedX利用生成式人工智能和LLMs的能力来改进数据提取。采用统一的方法,该方法集成了开源LLMs进行NER,利用链式提示和Pydantic模式进行结构化输出,以应对专业医学术语的复杂性。研究结果显示,在一个评估数据集上取得了显著的ROUGE F1分数,准确率达到了98%。这一创新增强了实体提取,为从非结构化数据自动填写表单提供了可扩展、具有成本效益的解决方案。因此,GAMedX简化了非结构化叙述的处理,并在NER应用中树立了新的标准,对医疗技术领域以外的理论和实际进步做出了重大贡献。
论文链接: https://arxiv.org/pdf/2405.20585
cs.CL: 一个情感的观点:朝向精神科笔记中临床医生偏见检测
原标题: The Point of View of a Sentiment: Towards Clinician Bias Detection in Psychiatric Notes
作者: Alissa A. Valentine, Lauren A. Lepow, Alexander W. Charney, Isotta Landi
机构: 西奈山医疗系统
摘要: 在精神病学中,负面的患者描述和带有污名化语言可能以两种方式导致医疗保健不平等:(1)患者阅读可能损害他们对医疗中心的信任和参与;(2)未来的医生阅读可能会对患者未来的观点产生负面影响。通过利用大型语言模型,这项工作旨在根据读者的观点识别精神病临床记录中表达的情绪。从西奈山健康系统的大量多样化临床记录中提取句子,我们使用提示和上下文学习来调整三个大型语言模型(GPT-3.5、Llama 2、Mistral)以根据提供者或非提供者的观点对句子传达的情绪进行分类。结果显示,GPT-3.5 最符合提供者的观点,而 Mistral 最符合非提供者的观点。
论文链接: https://arxiv.org/pdf/2405.20582
cs.CL: Video-MME:首个视频分析中多模态LLM的全面评估基准。
原标题: Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
作者: Chaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun
机构: 中国科学技术大学 厦门大学 香港大学 北京大学 香港中文大学 华东师范大学
摘要: 在追求人工通用智能的过程中,多模态大语言模型(MLLMs)已经成为最近进展的焦点。然而,主要关注点仍然集中在发展它们在静态图像理解方面的能力上。MLLMs在处理序列视觉数据方面的潜力仍然未被充分探索,突显了对其性能进行全面、高质量评估的缺失。在本文中,我们介绍了Video-MME,这是首个全谱多模态评估基准,用于评估MLLMs在视频分析中的性能。我们的工作通过四个关键特点与现有基准有所区别:1)视频类型的多样性,涵盖了6个主要视觉领域,30个子领域,以确保广泛的场景泛化能力;2)时间维度的持续性,包括短、中、长期视频,涵盖了从11秒到1小时的视频,以获得强大的上下文动态性;3)数据模态的广度,整合了视频帧之外的多模态输入,包括字幕和音频,以揭示MLLMs的全面能力;4)注释的质量,利用专家标注者进行严格的手动标注,以促进精确可靠的模型评估。我们手动选择了900个视频,总计256小时,并通过反复观看所有视频内容进行了注释,生成了2700个问答对。通过Video-MME,我们广泛评估了各种最先进的MLLMs,包括GPT-4系列和Gemini 1.5 Pro,以及像InternVL-Chat-V1.5和LLaVA-NeXT-Video这样的开源图像模型和视频模型。我们的实验表明,Gemini 1.5 Pro是表现最佳的商业模型,明显优于开源模型。我们的数据集以及这些发现强调了在处理更长序列和多模态数据方面进一步改进的必要性。项目页面:this https URL
论文链接: https://arxiv.org/pdf/2405.21075
Github: https://video-mme.github.io
cs.CL: 数据不平衡的泛化:关于 CLIP 的可控研究,可转移的见解
原标题: Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights
作者: Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi
机构: 香港大学 爱丁堡大学 上海人工智能实验室
摘要: 存在于大规模视觉-语言数据集中的严重数据不平衡是自然而然的。尽管如此,我们发现,与监督学习相比,CLIP在此基础上的预训练表现出显著的对数据不平衡的鲁棒性,并且在学习可泛化表示方面表现出显著的有效性。为了调查这一发现背后的原因,我们进行了控制实验,研究了各种潜在因素,并揭示了CLIP的假设任务形成了一个动态分类问题,其中只有训练中的一个子集类别存在。这隔离了主导类别的偏见,并隐式地平衡了学习信号。此外,CLIP的鲁棒性和可区分性随着更具描述性的语言监督、更大规模的数据和更广泛的开放世界概念而提高,这些是监督学习无法访问的。我们的研究不仅揭示了CLIP在数据不平衡之外的泛化机制,还为研究社区提供了可转移的见解。这些发现在监督学习和自监督学习中得到了验证,使得在不平衡数据上训练的模型能够在各种识别任务上实现与CLIP相当的性能。代码将在此 https URL 上提供。
论文链接: https://arxiv.org/pdf/2405.21070
Github: https://github.com/CVMI-Lab/clip-beyond-tail
cs.CL: 语法对齐解码
原标题: Grammar-Aligned Decoding
作者: Kanghee Park, Jiayu Wang, Taylor Berg-Kirkpatrick, Nadia Polikarpova, Loris D’Antoni
机构: 威斯康星大学麦迪逊分校 加州大学圣地亚哥分校
摘要: 大语言模型(LLMs)在可靠生成高度结构化输出方面存在困难,例如程序代码、数学公式或格式良好的标记。受限解码方法通过贪婪地限制LLM在每个步骤可以输出的Token,以确保输出符合给定的约束条件,从而缓解了这个问题。具体而言,在语法约束解码(GCD)中,LLM的输出必须遵循给定的语法。在本文中,我们证明了GCD技术(以及一般的受限解码技术)可能会扭曲LLM的分布,导致输出是符合语法但出现的可能性与LLM给出的不成比例,因此最终质量较低。我们将与语法约束对齐的采样问题称为语法对齐解码(GAD),并提出了自适应采样与近似预期未来(ASAp),这是一种解码算法,可以保证输出是符合语法的,同时可以证明产生的输出与LLM在给定语法约束条件下的条件概率相匹配。我们的算法使用先前的样本输出来合理地近似未来不同输出前缀的语法性。我们在代码生成和结构化NLP任务上的评估显示,ASAp通常会产生具有更高可能性(根据LLM的分布)的输出,而仍然强制执行所需的语法约束。
论文链接: https://arxiv.org/pdf/2405.21047
cs.CL: 探索性偏好优化:利用隐式 Q* 近似进行样本高效 RLHF
原标题: Exploratory Preference Optimization: Harnessing Implicit Q-Approximation for Sample-Efficient RLHF*
作者: Tengyang Xie, Dylan J. Foster, Akshay Krishnamurthy, Corby Rosset, Ahmed Awadallah, Alexander Rakhlin
机构: 威斯康星大学 微软 麻省理工学院
摘要: 强化学习从人类反馈中(RLHF)已经成为语言模型对齐的核心工具。我们考虑在RLHF中的在线探索,它利用与人类或AI反馈的互动访问,有意地鼓励模型产生多样化、最大程度信息化的响应。通过允许RLHF自信地偏离预训练模型,在线探索提供了新颖的、潜在的超人类能力的可能性,但作为语言模型训练范式的全部潜力尚未实现,这归因于直接调整现有强化学习技术中的计算和统计瓶颈。我们提出了一种新的RLHF在线探索算法,即探索性偏好优化(XPO),它简单实用——对(在线)直接偏好优化(DPO;Rafailov等,2023)进行了一行改动——但享有已知最强的可证明保证和有希望的经验性能。XPO通过一种新颖而有原则的探索奖励来增强DPO目标,使算法能够在初始模型和人类反馈数据的支持之外进行探索。在理论上,我们展示了XPO在自然探索条件下可以被证明是样本高效的,并且收敛到接近最优语言模型策略,不论初始模型是否具有良好的覆盖率。我们的分析建立在观察到DPO隐式执行一种 Q ⋆ Q^{\star} Q⋆-近似(或贝尔曼误差最小化)的基础上,通过KL正则化马尔可夫决策过程的视角,以一种偶然的方式结合了语言建模和理论强化学习的先前不同技术。在经验上,我们发现XPO在初步评估中比非探索性DPO变体更加样本高效。
论文链接: https://arxiv.org/pdf/2405.21046
cs.CL: 在大语言模型上改进的基于优化的越狱技术
原标题: Improved Techniques for Optimization-Based Jailbreaking on Large Language Models
作者: Xiaojun Jia, Tianyu Pang, Chao Du, Yihao Huang, Jindong Gu, Yang Liu, Xiaochun Cao, Min Lin
机构: 新加坡南洋理工大学 海洋人工智能实验室 牛津大学 深圳中山大学 Cyber科学与技术学院
摘要: 大语言模型(LLMs)正在迅速发展,它们广泛部署的关键组成部分是与安全相关的对齐。许多红队努力旨在越狱LLMs,在这些努力中,贪婪坐标梯度(GCG)攻击的成功导致人们对基于优化的越狱技术的研究越来越感兴趣。尽管GCG是一个重要的里程碑,但其攻击效率仍然令人不满意。在本文中,我们提出了几种改进的(经验性)技术,用于像GCG这样基于优化的越狱。我们首先观察到,“Sure”单目标模板在很大程度上限制了GCG的攻击性能;鉴于此,我们建议应用包含有害的自我建议和/或指导的多样化目标模板来误导LLMs。此外,从优化的角度出发,我们提出了一种自动多坐标更新策略在GCG中(即,自适应地决定每一步替换多少个标记)以加速收敛,以及易于困难初始化等技巧。然后,我们将这些改进的技术结合起来开发出一种高效的越狱方法,称为 I \mathcal{I} I-GCG。在我们的实验中,我们评估了一系列基准测试(如NeurIPS 2023 Red Teaming Track)。结果表明,我们改进的技术可以帮助GCG胜过最先进的越狱攻击,并实现近100%的攻击成功率。代码发布在此https URL。
论文链接: https://arxiv.org/pdf/2405.21018
Github: https://github.com/jiaxiaojunQAQ/I-GCG
cs.CL: 朝向流体计算机
原标题: Towards a Fluid computer
作者: Robert Cardona, Eva Miranda, Daniel Peralta-Salas
摘要: 1991年,Moore [20]提出了一个关于流体动力学是否能够进行计算的问题。类似地,2016年,Tao [25]提出了一个关于机械系统,包括流体流动,是否能够模拟通用图灵机的问题。在这篇阐述性文章中,我们回顾了在维度3中结合了符号动力学技术和Etnyre和Ghrist揭示的稳态Euler流与接触几何之间联系的构造[8],构建了一个“流体计算机”。此外,我们认为使向量场Beltrami成为临界的度量在Chern-Hamilton意义上不可能是关键的[9]。我们还概述了在 R 3 \mathbb R^3 R3中给出的欧几里德度量的完全不同构造[7]。这些结果揭示了不可判定的流体粒子路径的存在。我们在文章结尾列出了一系列未解决的问题。
论文链接: https://arxiv.org/pdf/2405.20999
cs.CL: CWRCzech:100M查询-文档捷克点击数据集及其在Web相关性排名中的应用
原标题: CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking
作者: Josef Vonášek, Milan Straka, Rostislav Krč, Lenka Lasoňová, Ekaterina Egorova, Jana Straková, Jakub Náplava
机构: 查尔斯大学 捷克共和国 信封数学与物理学院 Seznam.cz
摘要: 我们介绍了 CWRCzech,Click Web Ranking dataset for Czech,这是一个包含1亿个查询-文档捷克点击数据集,用于相关性排名,其中包括从该 http URL 的搜索引擎日志中收集的用户行为数据。据我们所知,CWRCzech 是迄今为止发布的带有原始文本的最大点击数据集。它提供了搜索结果中的文档位置,以及有关用户行为的信息:2760万个点击文档和1080万个停留时间。此外,我们还发布了一个手动注释的捷克语相关性任务测试集,包含将近5万个查询-文档对,每个对都由至少2名注释者注释。最后,我们分析了用户行为数据如何改进相关性排名,并展示了在足够规模上自动利用数据训练的模型可以超越在人工注释数据上训练的模型的性能。CWRCzech 是根据学术非商业许可发布的,并可供研究社区使用。详细信息请参阅此 https URL。
论文链接: https://arxiv.org/pdf/2405.20994
其他链接: http://Seznam.cz
cs.CL: LCQ: 基于低秩码书的量化方法,用于大语言模型
原标题: LCQ: Low-Rank Codebook based Quantization for Large Language Models
作者: Wen-Pu Cai, Wu-Jun Li
机构: 南京大学
摘要: 大语言模型(LLMs)最近在许多任务中展现出了有希望的性能。然而,LLMs 的高存储和计算成本已经成为LLMs 部署的挑战。权重量化已被广泛用于模型压缩,可以减少存储和计算成本。大多数现有的LLMs 权重量化方法使用秩为一的码书进行量化,当压缩比高时会导致显著的准确性损失。在本文中,我们提出了一种新颖的权重量化方法,称为基于低秩码书的量化(LCQ),用于LLMs。LCQ采用低秩码书进行量化,其秩可以大于一。实验表明,LCQ可以在几乎没有额外存储成本的情况下实现比现有方法更好的准确性。
论文链接: https://arxiv.org/pdf/2405.20973
cs.CL: 大语言模型是零样本下一个位置预测器
原标题: Large Language Models are Zero-Shot Next Location Predictors
作者: Ciro Beneduce, Bruno Lepri, Massimiliano Luca
机构: 特伦托大学 布鲁诺·凯斯勒基金会
摘要: 预测个人将来会访问的地点对于解决诸如疾病传播和减少污染等许多社会问题至关重要。然而,用于解决下一个位置预测的模型需要大量个人级别信息才能有效训练。这些数据在某些地理区域或特殊场景(例如,在推荐系统中的冷启动)可能稀缺甚至不可用。此外,设计一个能够泛化或地理转移知识的下一个位置预测器仍然是一个开放的研究挑战。自然语言处理的最新进展导致了大语言模型(LLMs)的快速传播,这些模型表现出良好的泛化和推理能力。这些见解,再加上最近的发现,即LLMs富含地理知识,使我们相信这些模型可以作为零样本下一个位置预测器。本文评估了许多流行的LLMs在这一角色中的能力,具体包括Llama、GPT-3.5和Mistral 7B。在设计了适当的提示后,我们在三个真实世界的移动数据集上测试了这些模型。结果显示,LLMs可以获得高达32.4%的准确率,与专门设计用于人类移动性的复杂DL模型相比,相对改进显著,超过600%。此外,我们表明其他LLMs无法正确执行该任务。为了防止结果出现正面偏差,我们还提出了一个受其他研究启发的框架来测试数据污染。最后,我们探讨了将LLMs用作基于文本的下一个位置预测解释器的可能性,表明它们可以有效地解释其决策。值得注意的是,7B模型相比较更大的对应模型提供更通用但仍可靠的解释。代码:此 http URL
论文链接: https://arxiv.org/pdf/2405.20962
Github: http://github.com/ssai-trento/LLM-zero-shot-NL
cs.CL: 一个机器人走进酒吧:语言模型能否作为创意支持工具为喜剧服务?对大语言模型与喜剧演员幽默对齐的评估
原标题: A Robot Walks into a Bar: Can Language Models Serve asCreativity Support Tools for Comedy? An Evaluation of LLMs’ Humour Alignment with Comedians
作者: Piotr Wojciech Mirowski, Juliette Love, Kory W. Mathewson, Shakir Mohamed
摘要: 我们采访了二十位专业喜剧演员,他们在观众面前进行现场表演,并在艺术创作过程中使用人工智能。这是在2023年8月在爱丁堡艺术节和在线举办的“AI x 喜剧”3小时研讨会的一部分。研讨会包括与大语言模型(LLMs)进行喜剧创作会话,进行人机交互问卷调查以评估AI作为创作工具的创造力支持指数,以及一个焦点小组,询问喜剧演员使用AI的动机和过程,以及他们对偏见、审查和版权的道德关切。参与者指出,现有的安全过滤和指导调整的LLMs使用的内容审查策略通过抹去少数群体及其观点来强化霸权观点,并将其定性为一种形式的审查。与此同时,大多数参与者认为LLMs并未成功作为创造力支持工具,因为它们产生了乏味和带有偏见的喜剧模式,类似于“20世纪50年代的游轮喜剧材料,但稍微不那么种族主义”。我们的工作扩展了关于有害言论与“冒犯性”语言之间微妙差别的学术研究,一方面是有害言论,另一方面是作为抵抗、讽刺和“向上打击”的语言实践。我们还审视了这类语言模型背后的全球价值观调整,并讨论了基于社区的价值观调整和数据所有权的重要性,以构建更适合艺术家需求的人工智能工具。
论文链接: https://arxiv.org/pdf/2405.20956
cs.CL: 增强视觉模型,以便理解和交互文本密集内容
原标题: Enhancing Vision Models for Text-Heavy Content Understanding and Interaction
作者: Adithya TG, Adithya SK, Abhinav R Bharadwaj, Abhiram HA, Dr. Surabhi Narayan
摘要: 与传统视觉模型相比,与包含多幅图像的文本密集视觉内容进行交互和理解是一个重大挑战。本文旨在增强视觉模型理解和学习包含大量文本信息的图像的能力,这些信息来自教科书和研究论文,其中包含多幅图像,如图表等,并且其中包含不同类型的轴和刻度。该方法涉及数据集预处理、微调(通过使用面向指令的数据)和评估。我们还构建了一个视觉聊天应用程序,集成了用于图像编码的CLIP和来自大规模文本嵌入基准的模型,该模型旨在考虑文本和视觉输入。获得了96.71%的准确率。该项目旨在增加并增强先进视觉模型在理解复杂的视觉文本数据相互关联数据方面的能力,从而为多模态人工智能做出贡献。
论文链接: https://arxiv.org/pdf/2405.20906
cs.CL: 异常值和校准集对现代大语言模型的量化影响逐渐减弱。
原标题: Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs
作者: Davide Paglieri, Saurabh Dash, Tim Rocktäschel, Jack Parker-Holder
摘要: 后训练量化(PTQ)通过减少内存使用,提高大语言模型(LLMs)的效率,使其能够更快地运行并与更多可用的硬件兼容,但代价是性能略微下降。我们探讨了PTQ中校准集的作用,特别是它们对各种知名开源LLMs中隐藏激活的影响。校准集对评估激活幅度和识别异常值至关重要,这些异常值可能扭曲量化范围并对性能产生负面影响。我们的分析揭示了不同模型之间量化效果的显著差异。较老的OPT模型,这是许多量化文献基于的模型,显示出明显的性能恶化,并对不同校准集的异常值高度敏感。相比之下,像Llama-27B、Llama-38B、Command-R 35B和Mistral 7B这样的新模型表现出很强的鲁棒性,其中Mistral 7B几乎对异常值免疫,并且激活稳定。这些发现表明,可能需要调整PTQ策略。随着预训练方法的进步减少了异常值的相关性,我们需要重新评估当前量化文献的基本原理。重点应转向优化推理速度,而不是主要关注异常值的保留,以与最新大语言模型的不断变化特性保持一致。
论文链接: https://arxiv.org/pdf/2405.20835
cs.CL: Ovis: 结构嵌入对齐多模态大语言模型
原标题: Ovis: Structural Embedding Alignment for Multimodal Large Language Model
作者: Shiyin Lu, Yang Li, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Han-Jia Ye
机构: 阿里巴巴集团 南京大学 National Key Laboratory for Novel Software Technology
摘要: 当前的多模态大语言模型(MLLMs)通常通过连接器(如MLP)将一个预训练的LLM与另一个预训练的视觉Transformer集成在一起,赋予LLM视觉能力。然而,在MLLMs中两种嵌入策略之间的不一致性–基于嵌入查找表的结构文本嵌入和由视觉编码器直接生成的连续嵌入–给视觉和文本信息更无缝融合带来了挑战。我们提出了Ovis,这是一种新颖的MLLM架构,旨在结构上对齐视觉和文本嵌入。Ovis将一个可学习的视觉嵌入表集成到视觉编码器的过程中。为了捕捉丰富的视觉语义,每个图像块多次索引视觉嵌入表,最终产生的视觉嵌入是索引嵌入的概率组合。这种结构化方法反映了生成文本嵌入所使用的方法。在各种多模态基准测试中的实证评估表明,Ovis在性能上优于类似参数规模的开源MLLMs,甚至在整体上超过了专有模型Qwen-VL-Plus。这些结果突显了Ovis结构化视觉表示的潜力,有助于推进MLLM架构设计并促进更有效的多模态学习。Ovis的源代码和训练数据集将公开提供。
论文链接: https://arxiv.org/pdf/2405.20797
cs.CL: 图指令调整的联合嵌入
原标题: Joint Embeddings for Graph Instruction Tuning
作者: Vlad Argatu, Aaron Haag, Oliver Lohse
机构: 西门子技术部 慕尼黑 德国
摘要: 大语言模型(LLMs)在文本理解方面取得了令人印象深刻的表现,并已成为构建智能助手的重要工具。最初专注于文本,最近的研究已经增强了它们的多模态能力,成功构建了视觉指导助手。然而,就图形模态而言,尚未开发出这样的助手。图结构复杂,因为它们表示不同特征之间的关系,并且是排列不变的。此外,纯文本形式表示它们并不总是导致良好的LLM性能,即使对于微调模型也是如此。因此,有必要开发一种新方法,将图形集成到LLMs中,以实现对一般图形的理解。本文探讨了将图形模态集成到LLM中,用于一般图形指导任务。它旨在产生一个深度学习模型,通过图嵌入增强基础LLM,并训练它理解图形并产生在图形表示中基于指令的答案。该方法的表现明显优于图到文本方法,即使对于更大的图形也保持一致。
论文链接: https://arxiv.org/pdf/2405.20684
cs.CL: 揭示和减轻在检索增强的大语言模型中的检索不一致性
原标题: Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models
作者: Mingda Li, Xinyu Li, Yifan Chen, Wenfeng Xuan, Weinan Zhang
机构: 哈尔滨工业大学 XVERSE科技公司
摘要: 尽管检索增强的大型语言模型(RALMs)在事实性方面表现出优势,但它们并不始终胜过原始的无检索语言模型(LMs)。我们的实验揭示了这种例级性能不一致性不仅存在于检索增强和无检索LM之间,还存在于不同的检索器之间。为了理解这一现象,我们调查了RALMs的退化行为,并在理论上将其分解为四类。基于我们的分解的进一步分析显示,知识来源的固有差异和阅读模型的不可预测的退化对不一致性贡献最大。根据我们的分析,我们引入了检索器集成(EoR),这是一个可训练的框架,可以自适应地从不同的知识来源中检索,并有效地减少不可预测的阅读错误。我们在开放域问答实验中发现,EoR显著提高了性能,大大减少了与单个检索器相比RALM的不一致行为。
论文链接: https://arxiv.org/pdf/2405.20680
cs.CL: 位置耦合:利用任务结构提高Transformer的长度泛化能力
原标题: Position Coupling: Leveraging Task Structure for Improved Length Generalization of Transformers
作者: Hanseul Cho, Jaeyoung Cha, Pranjal Awasthi, Srinadh Bhojanapalli, Anupam Gupta, Chulhee Yun
机构: 清华大学 谷歌研究所 纽约大学
摘要: 即使是对于像整数加法这样的简单算术任务,对于Transformer来说,要推广到比训练过程中遇到的更长的序列是具有挑战性的。为了解决这个问题,我们提出了位置耦合,这是一种简单而有效的方法,它直接将任务的结构嵌入到(仅解码器)Transformer的位置编码中。我们离开了将唯一位置ID分配给每个标记的香草绝对位置机制,而是将相同的位置ID分配给两个或多个“相关”的标记;对于整数加法任务,我们将相同重要性的数字视为相同位置。在实证方面,我们展示了通过提出的位置耦合,一个小型(1层)Transformer在训练过程中可以推广到200位数字的加法(训练长度的6.67倍)。在理论方面,我们证明了具有耦合位置的1层Transformer可以解决涉及指数多位数字的加法任务,而没有位置信息的任何1层Transformer都无法完全解决它。我们还证明了位置耦合可以应用于其他算法任务,如多个加数的加法,Nx2乘法,复制/反转和二维任务。
论文链接: https://arxiv.org/pdf/2405.20671
cs.CL: 夏洛克·肖特:一种用于视频字幕和摘要的高效小规模大语言视觉模型家族
原标题: Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization
作者: Richard Luo, Austin Peng, Adithya Vasudev, Rishabh Jain
摘要: 视频是一种越来越突出且信息密集的媒介,但对于语言模型来说却带来了重大挑战。典型的视频由一系列较短的片段或镜头组成,共同构成一个连贯的叙事。每个镜头类似于句子中的一个单词,其中必须同时处理多个数据流的信息(如视觉和听觉数据)。理解整个视频不仅需要理解每个镜头的视听信息,还需要模型将每个镜头之间的思想联系起来,生成一个更大、全面的故事。尽管该领域取得了显著进展,但当前的研究往往忽视了视频更细粒度的逐镜头语义信息。在这个项目中,我们提出了一系列高效的大型语言视觉模型(LLVMs),以提升视频摘要和字幕生成的能力,名为Shotluck Holmes。通过利用更好的预训练和数据收集策略,我们将现有小型LLVMs的能力从理解图片扩展到理解一系列帧。具体来说,我们展示了Shotluck Holmes在Shot2Story视频字幕生成和摘要任务上比最先进的结果表现更好,同时采用了更小、更高效的模型。
论文链接: https://arxiv.org/pdf/2405.20648
cs.CL: 大语言模型增强了长尾用户和物品的顺序推荐
原标题: Large Language Models Enhanced Sequential Recommendation for Long-tail User and Item
作者: Qidong Liu, Xian Wu, Xiangyu Zhao, Yejing Wang, Zijian Zhang, Feng Tian, Yefeng Zheng
摘要: 顺序推荐系统(SRS)的目的是根据用户过去的互动来预测他们随后的偏好,并已应用于诸如电子商务和社交网络平台等各个领域。然而,实际的SRS面临挑战,因为大多数用户只与有限数量的物品互动,而大多数物品很少被消费。这些挑战,被称为长尾用户和长尾物品困境,经常给传统SRS方法造成障碍。缓解这些挑战至关重要,因为它们可以显著影响用户满意度和业务盈利能力。虽然一些研究努力已经缓解了这些问题,但它们仍然在应对由互动稀缺引起的平衡或噪声等问题。大语言模型(LLMs)的出现为从语义角度解决这些挑战提供了一个有希望的途径。在这项研究中,我们介绍了用于顺序推荐的大语言模型增强框架(LLM-ESR),该框架利用LLMs的语义嵌入来增强SRS性能,而不增加计算开销。为了应对长尾物品挑战,我们提出了一种双视图建模方法,将LLMs的语义信息与传统SRS的协同信号融合。为了解决长尾用户挑战,我们引入了一种检索增强的自蒸馏技术,通过将来自相似用户的更丰富互动数据纳入来完善用户偏好表示。通过在三个真实数据集上进行的全面实验,使用三种广泛使用的SRS模型,我们提出的增强框架表现出比现有方法更优越的性能。
论文链接: https://arxiv.org/pdf/2405.20646
cs.CL: ToxVidLLM:一个基于多模态LLM的框架,用于检测代码混合视频中的毒性
原标题: ToxVidLLM: A Multimodal LLM-based Framework for Toxicity Detection in Code-Mixed Videos
作者: Krishanu Maity, A.S. Poornash, Sriparna Saha, Pushpak Bhattacharyya
机构: 印度理工学院巴特那分校 印度理工学院孟买分校
摘要: 在快速发展的互联网技术时代,多模态内容(包括视频)的激增拓展了在线交流的视野。然而,在这种多样化的环境中,尤其是在资源匮乏的混合编码语言中,有毒内容的检测仍然是一个关键挑战。虽然大量研究已经解决了文本数据中有毒内容的检测问题,但视频内容领域,尤其是非英语语言的视频内容,仍然相对未被充分探索。本文通过引入一个基准数据集来填补这一研究空白,这是首个由YouTube收集的包含931个视频和4021个混合编码的印地语-英语话语的数据集。该数据集中的每个话语都经过了精心的标注,标注了毒性、严重程度和情感标签。我们开发了一个先进的多模态多任务框架,专门用于利用大语言模型(LLMs)进行视频内容的毒性检测,同时还进行情感和严重程度分析。ToxVidLLM包括三个关键模块:编码器模块、跨模态同步模块和多任务模块,打造了一个专门用于复杂视频分类任务的通用多模态LLM。我们的实验表明,从视频中整合多种模态显著提高了有毒内容检测的性能,准确率和加权F1分数分别达到了94.29%和94.35%。
论文链接: https://arxiv.org/pdf/2405.20628
cs.CL: 双向Transformer vs. word2vec:发现提升编译代码中的漏洞
原标题: Bi-Directional Transformers vs. word2vec: Discovering Vulnerabilities in Lifted Compiled Code
作者: Gary A. McCully, John D. Hastings, Shengjie Xu, Adam Fortier
机构: 贝考姆学院 达科他州立大学 应用科学与技术学院 乔治亚理工学院
摘要: 检测编译后的二进制文件中的漏洞是具有挑战性的,因为丢失了高级代码结构以及诸如架构依赖、编译器和优化选项等因素。为了解决这些障碍,这项研究探讨了使用自然语言处理(NLP)嵌入技术,如word2vec、BERT和RoBERTa,通过学习中间表示(LLVM)代码的语义来检测漏洞。长短期记忆(LSTM)神经网络是在从Juliet数据集中创建的约118,000个LLVM函数的嵌入中进行训练的。该研究在比较使用LLVM代码构建的word2vec模型与多个双向Transformer(BERT、RoBERTa)嵌入来训练神经网络以检测编译后的二进制文件中的漏洞方面具有开创性。word2vec连续词袋(CBOW)模型在检测漏洞方面取得了92.3%的验证准确率,优于word2vec跳字模型、BERT和RoBERTa。这表明,当使用有限数量(例如118,000个)的数据样本来训练基于双向Transformer的模型时,复杂的上下文NLP嵌入可能并不比更简单的word2vec模型在这项任务中提供优势。比较结果为选择学习与编译器无关的语义代码表示的最佳嵌入提供了新颖的见解,以推进机器学习在编译后的二进制文件中检测漏洞的能力。
论文链接: https://arxiv.org/pdf/2405.20611
cs.CL: 遮蔽语言建模变成了表格数据合成的条件密度估计
原标题: Masked Language Modeling Becomes Conditional Density Estimation for Tabular Data Synthesis
作者: Seunghwan An, Gyeongdong Woo, Jaesung Lim, ChangHyun Kim, Sungchul Hong, Jong-June Jeon
机构: 首尔大学 统计数据科学系 韩国 统计学系
摘要: 在这篇论文中,我们的目标是生成对异构(混合类型)表格数据具有高机器学习效用(MLu)的合成数据。鉴于 MLu 性能依赖于准确逼近条件分布,我们专注于设计一种基于条件分布估计的合成数据生成方法。我们提出了一种新颖的合成数据生成方法 MaCoDE,通过将 Masked Language Modeling(MLM)的多类分类任务重新定义为基于直方图的非参数条件密度估计。我们提出的方法使得能够在目标和条件变量的任意组合上估计条件密度。此外,我们证明了我们提出的方法弥合了分布学习和 MLM 之间的理论差距。为了验证我们提出的模型的有效性,我们在 10 个真实世界数据集上进行了合成数据生成实验。鉴于在 MLM 中预测掩盖的输入标记与缺失数据插补之间的类比,我们还评估了在具有各种缺失数据机制的不完整数据集上多重插补的性能。此外,我们提出的模型还具有在不需要重新训练的情况下调整数据隐私级别的优势。
论文链接: https://arxiv.org/pdf/2405.20602