AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.08.05-2024.08.10

本文链接：https://blog.csdn.net/weixin_44362044/article/details/141174571

文章目录～

1.How Well Do LLMs Identify Cultural Unity in Diversity?
2.MooER: LLM-based Speech Recognition and Translation Models from Moore Threads
3.Instruction Tuning-free Visual Token Complement for Multimodal LLMs
4.GlitchProber: Advancing Effective Detection and Mitigation of Glitch Tokens in Large Language Models
5.ChatGPT Meets Iris Biometrics
6.Compromesso! Italian Many-Shot Jailbreaks Undermine the Safety of Large Language Models
7.Recognizing Emotion Regulation Strategies from Human Behavior with Large Language Models
8.Enhancing Healthcare through Large Language Models: A Study on Medical Question Answering
9.Improving Large Language Model (LLM) fidelity through context-aware grounding: A systematic approach to reliability and veracity
10.Large Language Models for Base Station Siting: Intelligent Deployment based on Prompt or Agent
11.LLM Stability: A detailed analysis with some surprises
12.500xCompressor: Generalized Prompt Compression for Large Language Models
13.Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement
14.Targeted Visual Prompting for Medical Visual Question Answering
15.Fact Finder -- Enhancing Domain Expertise of Large Language Models by Incorporating Knowledge Graphs

1.How Well Do LLMs Identify Cultural Unity in Diversity?

标题:法学硕士如何在多样性中识别文化统一性？

author:Jialin Li, Junli Wang, Junjie Hu, Ming Jiang

publish:COLM 2024

date Time:2024-08-09

paper pdf:http://arxiv.org/pdf/2408.05102v1

摘要：
有关大型语言模型（LLMs）文化意识的许多工作都集中在模型对地缘文化多样性的敏感性上。然而，除了跨文化差异之外，不同文化之间也存在共同点。例如，美国的新娘面纱与中国的 "红盖头 "在文化上扮演着相似的角色。在本研究中，我们引入了一个基准数据集 CUNIT，用于评估纯解码器 LLM 在理解概念的文化统一性方面的能力。具体来说，CUNIT 包含 1,425 个评估示例，基于 10 个国家的 285 个传统文化特定概念。基于对每个概念的文化相关特征进行系统的人工标注，我们计算出任何一对跨文化概念之间的文化关联。在此数据集的基础上，我们设计了一个对比匹配任务，以评估 LLMs 识别高度关联的跨文化概念对的能力。有趣的是，我们发现各国关于服装概念的文化关联在很大程度上不同于食品。我们的分析表明，与人类相比，LLMs 在捕捉概念间的跨文化关联方面仍然存在局限性。此外，地理文化接近性对捕捉跨文化关联的模型性能影响较弱。

2.MooER: LLM-based Speech Recognition and Translation Models from Moore Threads

标题:MooER：来自摩尔线程的基于 LLM 的语音识别和翻译模型

author:Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang

date Time:2024-08-09

paper pdf:http://arxiv.org/pdf/2408.05101v1

摘要：
本文介绍了基于 LLM 的大规模自动语音识别（ASR）/自动语音翻译（AST）模型 Moore Threads。我们使用了一个包含开源语音数据和自己收集的语音数据的 5000h 伪标签数据集进行训练。我们所取得的性能可与其他使用多达数十万小时标注语音数据训练的开源模型相媲美。同时，在 Covost2 Zh2en 测试集上进行的实验表明，我们的模型优于其他开源语音 LLM。BLEU 得分为 25.2。本文的主要贡献总结如下。首先，本文针对语音相关任务（包括 ASR 和 AST）提出了编码器和 LLM 的训练策略，使用了少量伪标记数据，无需额外的人工标注和选择。其次，我们发布了 ASR 和 AST 模型，并计划在不久的将来开源我们的训练代码和策略。此外，我们还计划稍后发布在 8wh 级训练数据上训练的模型。

3.Instruction Tuning-free Visual Token Complement for Multimodal LLMs

标题:多模态词法的无指令调谐视觉标记补全

author:Dongsheng Wang, Jiequan Cui, Miaoge Li, Wang Lin, Bo Chen, Hanwang Zhang

publish:Accepted by ECCV2024 (20pages)

date Time:2024-08-09

paper pdf:http://arxiv.org/pdf/2408.05019v1

摘要：
随着大型语言模型（LLM）开放社区的成熟，多模态语言模型（MLLM）有望在视觉和语言之间架起一座优雅的桥梁。然而，目前的研究受到了一些固有挑战的限制，例如需要高质量的指令对，以及在图像到文本的训练目标中损失视觉信息。为此，我们提出了一个视觉令牌补充框架（VTC），帮助 MLLM 恢复缺失的视觉特征，从而提高反应的准确性。具体来说，我们的 VTC 整合了文本到图像的生成，作为识别与文本无关特征的指南，然后开发一个视觉选择器来生成补充视觉标记，以丰富原始视觉输入。此外，还进一步设计了一种迭代策略，通过迭代使用视觉选择器来提取更多视觉信息，而无需任何额外的训练。值得注意的是，训练管道不需要额外的图像-文本对，从而实现了所需的无指令调整特性。定性和定量实验都证明了我们的 VTC 的优越性和高效性。

4.GlitchProber: Advancing Effective Detection and Mitigation of Glitch Tokens in Large Language Models

标题:GlitchProber：推进大型语言模型中缺陷标记的有效检测和缓解

author:Zhibo Zhang, Wuxia Bai, Yuxi Li, Mark Huasong Meng, Kailong Wang, Ling Shi, Li Li, Jun Wang, Haoyu Wang

date Time:2024-08-09

paper pdf:http://arxiv.org/pdf/2408.04905v1

摘要：
大型语言模型（LLM）在自然语言处理领域取得了前所未有的成功。然而，由于其内部机制的黑箱性质，人们对其可信度和可解释性产生了许多担忧。最近的研究发现了模型词汇空间中的一类异常词块，并将其命名为 “故障词块”。这些词库一旦被纳入输入，就可能诱使模型产生错误、不相关甚至有害的结果，从而严重破坏 LLM 的可靠性和实用性。在这项工作中，我们旨在加深对 "故障标记 "的理解，并提出检测和减少 "故障标记 "的技术。我们首先揭示了小故障标记在 LLM 上诱发的特征，这些特征表现为中间模型层的注意力模式和动态信息分布的显著偏差。在此基础上，我们开发了 GlitchProber，一种高效检测和缓解故障标记的工具。GlitchProber 利用小规模采样、主成分分析加速特征提取，并利用简单分类器进行高效词汇筛选。更进一步，GlitchProber 还能纠正异常的模型中间层值，以减轻故障标记的破坏性影响。GlitchProber 在五个主流开源 LLM 上进行了评估，与现有方法相比，GlitchProber 展示了更高的效率、精确度和召回率，平均 F1 得分为 0.86，平均修复率为 50.06%。GlitchProber 为解决故障令牌带来的挑战开辟了一条新的道路，并激励着未来的研究朝着更稳健、更可解释的 LLM 方向发展。

5.ChatGPT Meets Iris Biometrics

标题:聊天 GPT 遇见虹膜生物识别技术

author:Parisa Farmanifard, Arun Ross

publish:Published at IJCB 2024

date Time:2024-08-09

paper pdf:http://arxiv.org/pdf/2408.04868v1

摘要：
本研究利用 GPT-4 多模态大语言模型（LLM）的先进功能，探索其在虹膜识别领域的潜力–与人脸识别相比，虹膜识别是一个不太常见且更加专业的领域。通过专注于这一细分但至关重要的领域，我们研究了 ChatGPT 等人工智能工具在理解和分析虹膜图像方面的能力。通过一系列精心设计的实验，采用零镜头学习方法，我们评估了 ChatGPT-4 在各种挑战条件下的能力，包括不同的数据集、呈现攻击、遮挡物（如眼镜）和其他真实世界的变化。研究结果表明，ChatGPT-4 具有出色的适应性和精确性，能熟练识别独特的虹膜特征，同时还能检测化妆等对虹膜识别的微妙影响。与谷歌人工智能模型 Gemini Advanced 的对比分析表明，ChatGPT-4 在复杂的虹膜分析任务中具有更好的性能和用户体验。这项研究不仅验证了将 LLMs 用于专业生物识别应用的有效性，而且还强调了细微的查询框架和交互设计对于从生物识别数据中提取重要信息的重要性。我们的研究结果为未来研究和开发适应性更强、更高效、更稳健和更具交互性的生物识别安全解决方案提供了一条充满希望的道路。

6.Compromesso! Italian Many-Shot Jailbreaks Undermine the Safety of Large Language Models

标题:Compromesso！意大利多枪越狱事件破坏了大型语言模型的安全性

author:Fabio Pernisi, Dirk Hovy, Paul Röttger

publish:Accepted at ACL 2024 (Student Research Workshop)

date Time:2024-08-08

paper pdf:http://arxiv.org/pdf/2408.04522v1

摘要：
随着不同语言社区和用户采用大型语言模型（LLM），评估其跨语言安全性变得至关重要。尽管人们一直在努力提高 LLM 的安全性，但仍有可能通过 "越狱 "技术使 LLM 做出不安全的行为。然而，到目前为止，有关 LLM 安全性和越狱的研究主要集中在英语领域，限制了我们对其他语言中 LLM 安全性的理解。我们用意大利语研究了多镜头越狱的有效性，在这种情况下，模型会受到不安全演示的提示，从而诱发不安全行为，从而为缩小这一差距做出了贡献。为了进行分析，我们创建了一个新的意大利语不安全问答数据集。通过这个数据集，我们在四个开放式重量级 LLM 家族中发现了明显的安全漏洞。我们发现，这些模型即使在只有少量不安全演示的情况下也会表现出不安全行为，更令人担忧的是，这种趋势会随着演示次数的增加而迅速加剧。

7.Recognizing Emotion Regulation Strategies from Human Behavior with Large Language Models

标题:利用大型语言模型从人类行为中识别情绪调节策略

author:Philipp Müller, Alexander Heimerl, Sayed Muddashir Hossain, Lea Siegel, Jan Alexandersson, Patrick Gebhard, Elisabeth André, Tanja Schneeberger

publish:Accepted to ACII’24

date Time:2024-08-08

paper pdf:http://arxiv.org/pdf/2408.04420v1

摘要：
人类的情绪通常不会直接表达，而是根据内部过程和社会显示规则进行调节。对于情感计算系统来说，了解用户如何调节自己的情绪非常有用，例如在求职面试培训或心理治疗场景中提供反馈。然而，目前还没有一种方法可以自动对跨用户场景中的不同情绪调节策略进行分类。与此同时，最近的研究表明，经过指令调整的大型语言模型（LLM）可以在分类情绪识别或情感分析等各种情绪识别任务中取得令人印象深刻的性能。虽然这些结果令人鼓舞，但在对用户的内部情绪调节策略进行分类这一更为微妙的任务中，LLM 的表征能力能发挥到什么程度，目前仍不清楚。为了缩小这一差距，我们利用最近推出的 \textsc{Deep} 语料库来模拟羞愧情绪的社会展示，其中每个时间点都标注了七种不同情绪调节类别中的一种。我们使用低秩优化（Low-rank Optimization）技术对 Llama2-7B 和最近推出的 Gemma 模型进行了微调，这些模型的提示信息来自 \textsc{Deep} 语料库中的不同信息源。这些信息包括语言和非语言行为、人的因素以及互动后的深度访谈结果。我们的研究结果表明，经过微调的 Llama2-7B LLM 能够以较高的准确率（0.84）对所使用的情绪调节策略进行分类，而无需访问互动后的访谈数据。这与之前基于贝叶斯网络的方法相比有了很大的改进，并强调了在情绪调节中对言语行为进行建模的重要性。

8.Enhancing Healthcare through Large Language Models: A Study on Medical Question Answering

标题:通过大型语言模型加强医疗保健：医疗问题解答研究

author:Haoran Yu, Chang Yu, Zihan Wang, Dongxian Zou, Hao Qin

publish:received by IEEE ICPICS

date Time:2024-08-08

paper pdf:http://arxiv.org/pdf/2408.04138v1

摘要：
近年来，大语言模型（LLMs）在医疗保健领域的应用在改善医疗知识的可及性和传播方面显示出了巨大的前景。本文详细研究了在 MedQuAD 医疗问题解答数据集上训练的各种 LLM，重点是找出能提供准确医疗信息的最有效模型。在测试的模型中，Sentence-t5 与 Mistral 7B 的结合表现出了卓越的性能，精确度达到了 0.762 分。该模型能力的提升归功于其先进的预训练技术、强大的架构和有效的提示构建方法。通过利用这些优势，Sentence-t5 + Mistral 7B 模型在理解和生成精确的医疗答案方面表现出色。我们的研究结果凸显了在医疗环境中整合先进的 LLMs 的潜力，以促进高效、准确的医学知识检索，从而显著增强对患者的教育和支持。

9.Improving Large Language Model (LLM) fidelity through context-aware grounding: A systematic approach to reliability and veracity

标题:通过上下文感知接地提高大语言模型（LLM）的保真度：实现可靠性和真实性的系统方法

author:Wrick Talukdar, Anjanava Biswas

publish:14 pages

date Time:2024-08-07

paper pdf:http://arxiv.org/pdf/2408.04023v1

摘要：
随着大型语言模型（LLM）在自然语言处理（NLP）应用中变得越来越复杂和无处不在，确保其稳健性、可信度和与人类价值观的一致性已成为一项严峻的挑战。本文提出了一种新颖的文本模型上下文基础框架，并特别强调了上下文表征阶段。我们的方法旨在通过一种全面的上下文感知方法来提高这些模型的可靠性和道德一致性。通过以机器可读的格式明确捕捉和表示相关的情景、文化和道德语境，我们为在这些语境中锚定模型的行为奠定了基础。我们的方法利用了知识表示和推理技术，如本体、语义网络技术和基于逻辑的形式主义。我们在真实世界的文本数据集上对我们的框架进行了评估，证明了它在提高模型性能、公平性以及与人类期望的一致性方面的有效性，同时还能保持较高的准确性。此外，我们还讨论了该框架的其他关键组成部分，包括上下文感知编码、上下文感知学习、可解释性和可说明性，以及持续监控和适应。这项研究为责任人工智能领域日益增多的工作做出了贡献，为开发更可靠、更可信、更符合道德规范的语言模型提供了实用方法。我们的研究结果对于在医疗保健、法律系统和社会服务等敏感领域部署语言模型具有重要意义，在这些领域，语境理解至关重要。

10.Large Language Models for Base Station Siting: Intelligent Deployment based on Prompt or Agent

标题:基站选址的大型语言模型：基于提示或代理的智能部署

author:Yanhu Wang, Muhammad Muzammil Afzal, Zhengyang Li, Jie Zhou, Chenyuan Feng, Shuaishuai Guo, Tony Q. S. Quek

date Time:2024-08-07

paper pdf:http://arxiv.org/pdf/2408.03631v1

摘要：
传统的基站选址（BSS）方法在很大程度上依赖于驱动测试和用户反馈，这不仅费力，而且需要通信、网络和优化方面的丰富专业知识。随着大型语言模型（LLM）及其相关技术的发展，特别是在提示工程和代理工程领域，网络优化将迎来革命性的发展。这种方法需要战略性地使用精心设计的提示，将人类的经验和知识注入这些复杂的 LLM，并部署自主代理作为沟通桥梁，将基于机器语言的 LLM 与使用自然语言的人类用户无缝连接起来。这种整合代表了人工智能（AI）作为一种服务和更加便捷的人工智能的未来范式。作为初步探索，本研究首先开发了一种新颖的 LLM 赋能 BSS 优化框架，并启发式地提出了四种不同的潜在实现方法：基于提示优化的 LLM（PoL）、人在环 LLM（HiLL）、LLM 赋能的自主 BSS 代理（LaBa）以及基于 LLM 的多个合作自主 BSS 代理（CLaBa）。通过对真实世界数据的评估，实验证明提示辅助 LLM 和基于 LLM 的代理可以生成更高效、更经济、更可靠的网络部署，显著提高 BSS 优化的效率，减少琐碎的人工参与。

11.LLM Stability: A detailed analysis with some surprises

标题:法律硕士的稳定性：详细分析，惊喜不断

author:Berk Atil, Alexa Chittams, Liseng Fu, Ferhan Ture, Lixinyu Xu, Breck Baldwin

date Time:2024-08-06

paper pdf:http://arxiv.org/pdf/2408.04667v1

摘要：
我们近乎神奇的 LLMs 有一个令人担忧的特性，那就是在输入完全相同和超参数确定的情况下，结果会发生变化。虽然人工智能一直存在一定程度的训练数据之外的输入噪音，但对于任何特定输入，我们通常都能获得确定性的结果；现在情况已不再如此。虽然大多数 LLM 从业者都 “很了解”，但我们并不知道有任何工作试图量化当前 LLM 的稳定性。我们猜测，没有人去做这项工作，是因为执行和撰写这样的论文太枯燥了。但是，我们已经完成了这项工作，而且有一些惊喜。什么样的惊喜呢？经过评估的 LLM 在原始输出层面上很少具有确定性；在解析输出/答案层面上确定性要高得多，但在相同数据输入的 5 次重新运行中仍然很少具有 100% 的稳定性。 LLM 精确度的变化不呈正态分布。稳定性因任务而异。

12.500xCompressor: Generalized Prompt Compression for Large Language Models

标题:500xCompressor：大型语言模型的通用提示压缩

author:Zongqian Li, Yixuan Su, Nigel Collier

date Time:2024-08-06

paper pdf:http://arxiv.org/pdf/2408.03094v1

摘要：
及时压缩对于提高推理速度、降低成本和改善用户体验至关重要。然而，目前的方法面临着压缩率低、评估过程中可能出现数据泄露等挑战。为了解决这些问题，我们提出了 500xCompressor 方法，它能将大量自然语言上下文压缩成最少一个特殊标记。500xCompressor 引入了约 0.3% 的额外参数，压缩率从 6 倍到 480 倍不等。500xCompressor 可用于压缩任何文本，回答各种类型的问题，而且无需微调即可被原始大语言模型（LLM）使用。最初，500xCompressor 在 Arxiv 语料库上进行了预训练，然后在 ArxivQA 数据集上进行了微调，随后在严格未见和经典问题解答（QA）数据集上进行了评估。结果表明，与使用非压缩提示相比，LLM 保留了 62.26-72.89% 的能力。这项研究还表明，并非所有压缩标记都能得到同等利用，K V 值在高压缩率下保存信息方面比嵌入值具有显著优势。即使对于细粒度的复杂信息，自然语言提示也具有高度压缩的特性，这为未来的应用和进一步研究开发新的 LLM 语言提供了广阔的前景。

13.Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement

标题:通过权重解缠将模型合并从微调扩展到预训练的大型语言模型

author:Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li

publish:17 pages

date Time:2024-08-06

paper pdf:http://arxiv.org/pdf/2408.03092v1

摘要：
合并大型语言模型（LLMs）的目的是将多个同源的 LLMs 合并成一个具备所有功能的 LLMs。在理想情况下，任何共享相同骨干的 LLM 都应该是可合并的，而不管它们是参数变化较小的微调模型（FT）还是参数变化较大的预训练模型（PT）。然而，现有的方法通常是手动分配模型的重要性，因此只适用于参数变化相似的 LLM，如多个 FT LLM。FT 和 PT LLM 之间的参数变化范围各不相同，这对现有解决方案根据经验确定最佳组合提出了挑战。本文开创性地将合并技术的适用范围从 FT 扩展到 PT LLM。我们首先研究了当前合并 FT 和 PT LLM 的方法的有效性，发现这些方法在处理 PT LLM 时非常吃力。随后，我们引入了一种基于权重分解（WIDEN）的方法来有效扩展合并范围，该方法首先将模型权重分解为幅度和方向两个部分，然后通过考虑它们各自的贡献进行自适应融合。在实验中，我们将 Qwen1.5-Chat（具有指令跟随能力的 FT LLM）与 Sailor（具有多语言能力的 PT LLM）在 7B 和 14B 模型尺度上进行了合并。结果表明(1)现有解决方案在合并 Sailor 时通常会失败，要么失去两种能力，要么只保留指令跟随能力；(2)WIDEN 成功地将 Sailor 的多语言能力注入 Qwen1.5-Chat，使其精通东南亚语言，实现了基本能力的增强。根据先前的研究，我们还合并了多个 13B FT LLM，并观察到 WIDEN 实现了指令遵循、数学推理和代码生成技能的均衡融合。

14.Targeted Visual Prompting for Medical Visual Question Answering

标题:医疗视觉问题解答的定向视觉提示

author:Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman

publish:Accepted at the MICCAI AMAI Workshop 2024

date Time:2024-08-06

paper pdf:http://arxiv.org/pdf/2408.03043v1

摘要：
近年来，人们对医学视觉问题解答（Med-VQA）的兴趣与日俱增，多模态大型语言模型（MLLMs）作为经典模型架构的替代品迅速发展起来。具体来说，多模态大语言模型能够将视觉信息添加到预先训练好的大语言模型的输入中，为图像解读带来了新的功能。然而，简单的视觉错误会让人对这些模型的实际视觉理解能力产生怀疑。为了解决这个问题，有人提出了基于区域的问题，作为通过构图评价来评估和增强实际视觉理解能力的一种手段。为了将这两种观点结合起来，本文引入了有针对性的视觉提示，使 MLLM 具备基于区域的提问能力。通过在定制的视觉提示中同时展示模型的孤立区域和上下文中的区域，我们展示了我们的方法在多个数据集上的有效性，同时将其与几种基线模型进行了比较。我们的代码和数据见 https://github.com/sergiotasconmorales/locvqallm。

15.Fact Finder – Enhancing Domain Expertise of Large Language Models by Incorporating Knowledge Graphs

标题:事实搜索器 – 通过纳入知识图谱增强大型语言模型的领域专业知识

author:Daniel Steinigen, Roman Teucher, Timm Heine Ruland, Max Rudat, Nicolas Flores-Herr, Peter Fischer, Nikola Milosevic, Christopher Schymura, Angelo Ziletti

publish:10 pages, 7 figures

date Time:2024-08-06

paper pdf:http://arxiv.org/pdf/2408.03010v1

摘要：
大型语言模型（LLM）的最新进展展示了它们在回答自然语言查询方面的能力。然而，由于特定领域的知识有限，它们的有效性受到了阻碍，从而引发了人们对其回答可靠性的担忧。我们介绍了一种混合系统，它利用特定领域的知识图谱（KG）来增强 LLM，从而利用基于 KG 的检索方法来提高事实的正确性。我们将重点放在医学知识图谱上演示我们的方法，其中包括：(1) 预处理；(2) Cypher 查询生成；(3) Cypher 查询处理；(4) 知识图谱检索；(5) LLM 增强响应生成。我们在一个由 69 个样本组成的数据集上评估了我们的系统，在检索正确的 KG 节点方面达到了 78% 的精确度。我们的研究结果表明，混合系统在准确性和完整性方面都超过了独立的 LLM，这一点已通过 LLM 即法官评估方法得到验证。这使得该系统在要求事实正确性和完整性的应用中成为一种很有前途的工具，例如目标识别–这是精确定位生物实体以治疗疾病或提高作物产量的关键过程。此外，该系统直观的搜索界面和在几秒钟内提供准确回复的能力，使其非常适合时间敏感、以精确为重点的研究环境。我们公布了源代码、数据集和所用的提示模板。