AI推介-大语言模型LLMs论文速览(arXiv方向):2024.06.20-2024.06.25

文章目录~

1.NormTab: Improving Symbolic Reasoning in LLMs Through Tabular Data Normalization

标题:NormTab:通过表格数据规范化改进 LLM 中的符号推理

author:Md Mahadi Hasan Nahid, Davood Rafiei

publish:Work in Progress

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17961v1

摘要
近年来,大型语言模型(LLM)在解析文本数据和生成代码方面表现出了卓越的能力。然而,由于网络表格中经常出现的结构差异和表格单元值的不一致性,它们在涉及表格数据的任务中,尤其是那些需要符号推理的任务中的表现面临挑战。在本文中,我们介绍了 NormTab,这是一个新颖的框架,旨在通过规范化网络表格来提高 LLM 的符号推理性能。我们将表格规范化作为一个独立的一次性预处理步骤进行研究,利用 LLM 支持表格数据的符号推理。我们在 WikiTableQuestion 和 TabFact 等具有挑战性的网络表格数据集上进行了实验评估,结果表明,利用 NormTab 可以显著提高符号推理性能,从而展示了网络表格规范化对于提高基于 LLM 的符号推理任务的重要性和有效性。

2.CaLMQA: Exploring culturally specific long-form question answering across 23 languages

标题:CaLMQA:探索 23 种语言的特定文化长式问题解答

author:Shane Arora, Marzena Karpinska, Hung-Ting Chen, Ipsita Bhattacharjee, Mohit Iyyer, Eunsol Choi

publish:39 pages, 16 figures. Code and data available at
https://github.com/2015aroras/CaLMQA

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17761v1

摘要
大语言模型(LLM)通常用于长式问题解答,这要求它们为复杂问题生成段落长度的答案。虽然通过许多不同的数据集和评估指标对英语的长式问题解答进行了深入研究,但这项研究尚未扩展到大多数其他语言。为了弥补这一差距,我们推出了 CaLMQA,这是一个包含 2.6K 个复杂问题的数据集,涵盖 23 种语言,其中包括斐济语和基隆迪语等资源不足、鲜有研究的语言。我们的数据集既包括从社区网络论坛中收集的自然出现的问题,也包括我们为此雇用的母语使用者编写的问题。我们的处理过程产生了多样、复杂的问题,这些问题反映了文化主题(如传统、法律、新闻)和母语使用者的语言使用情况。我们使用我们的新指标 CaLMScore(可检测答案中的错误语言和标记重复)对一套开放源和封闭源模型进行了自动评估,并观察到 LLM 生成的答案在某些低资源语言中质量明显下降。我们对模型的子集进行了人工评估,发现特定文化问题的模型性能明显低于无文化问题。我们的发现凸显了进一步研究 LLM 多语言能力和非英语 LFQA 评估的必要性。

3.LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic

标题:LLM-ARC:利用自动推理批判器增强 LLM

author:Aditya Kalyanpur, Kailash Saravanakumar, Victor Barres, Jennifer Chu-Carroll, David Melville, David Ferrucci

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17663v1

摘要
我们介绍的 LLM-ARC 是一个神经符号框架,旨在通过将大型语言模型(LLM)与自动推理批判器(ARC)相结合,增强大型语言模型(LLM)的逻辑推理能力。LLM-ARC 采用了一种 “行为者-批评者”(Actor-Critic)方法,即 LLM 行为者生成声明式逻辑程序并进行语义正确性测试,而 “自动推理批评者”(Automated Reasoning Critic)则评估代码、运行测试并就测试失败提供反馈,以进行迭代改进。通过使用答案集编程(ASP),LLM-ARC 在测试复杂逻辑推理能力的 FOLIO 基准测试中取得了 88.32% 的最新准确率。我们的实验表明,与仅使用 LLM 的基线相比,LLM-ARC 有了显著的改进,突出了逻辑测试生成和迭代自我完善的重要性。我们使用全自动自监督训练循环取得了最佳结果,在这个循环中,Actor 是在端到端对话跟踪和 Critic 反馈的基础上进行训练的。我们讨论了可能的改进,并提供了详细的错误分析,展示了 LLM-ARC 在复杂自然语言推理任务中的稳健性和有效性。

4.Banishing LLM Hallucinations Requires Rethinking Generalization

标题:消除 LLM 幻觉需要反思归纳法

author:Johnny Li, Saksham Consul, Eda Zhou, James Wong, Naila Farooqui, Yuxin Ye, Nithyashree Manohar, Zhuxiaona Wei, Tian Wu, Ben Echols, Sharon Zhou, Gregory Diamos

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17642v1

摘要
尽管大型语言模型(LLM)具有强大的聊天、编码和推理能力,但它们经常会产生幻觉。传统观点认为,幻觉是创造性和事实性之间平衡的结果,通过将 LLM 建立在外部知识源的基础上,可以减轻但无法消除幻觉。通过大量系统实验,我们发现这些传统方法无法解释为什么 LLM 在实践中会产生幻觉。具体来说,我们表明,使用大规模混合记忆专家(MoME)增强的 LLM 可以轻松记忆大量随机数数据集。我们通过理论构建证实了这些实验结果,结果表明,当训练损失超过阈值时,为预测下一个标记而训练的简单神经网络会产生幻觉,而在实践中对互联网规模的数据进行训练时通常会出现这种情况。我们通过与传统检索方法的比较来解释我们的发现,以减轻幻觉。我们利用我们的发现设计了用于消除幻觉的第一代模型–Lamini-1,该模型将事实存储在由数百万记忆专家组成的海量混合物中,并进行动态检索。

5.FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts

标题:法文毒性提示:评估和减轻法文文本毒性的大基准

author:Caroline Brun, Vassilina Nikoulina

publish:TRAC-2024, Fourth Workshop on Threat, Aggression and Cyberbullying.
20 May 2024

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17566v1

摘要
大语言模型(LLM)越来越受欢迎,但也容易产生偏见、有毒或有害语言,从而对个人和社区造成有害影响。虽然大多数人都在努力评估和减轻生成内容中的毒性,但这主要集中在英语上,而考虑其他语言也很有必要。为了解决这个问题,我们创建并发布了法文毒性提示(FrenchToxicityPrompts),这是一个包含 5 万条自然出现的法文提示及其续篇的数据集,并标注了广泛使用的毒性分类器的毒性评分。我们针对我们的数据集评估了来自四个普遍开源的 LLM 家族的 14 种不同模型,以评估它们在不同维度上的潜在毒性。我们希望我们的贡献能够促进未来在英语以外的毒性检测和缓解方面的研究。

6.Retrieval-Augmented Code Generation for Situated Action Generation: A Case Study on Minecraft

标题:情境动作生成的检索增强代码生成:Minecraft 案例研究

author:Chalamalasetti Kranti, Sherzod Hakimov, David Schlangen

publish:under review

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17553v1

摘要
在 Minecraft 协作建造任务中,两名玩家相互协作:建筑师(A)向建造者(B)发出指令,使用三维积木组装指定的结构。在这项工作中,我们研究了如何使用大型语言模型(LLM)来预测建造者的行动顺序。利用 LLMs 的上下文学习能力,我们使用了少量提示技术,与基线方法相比,该技术显著提高了性能。此外,我们还对性能差距进行了详细分析,为今后的工作提供参考。

7.CDQuant: Accurate Post-training Weight Quantization of Large Pre-trained Models using Greedy Coordinate Descent

标题:CDQuant:使用贪婪坐标后裔对大型预训练模型进行精确的后训练权重量化

author:Pranav Ajit Nair, Arun Sai Suggala

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17542v2

摘要
大型语言模型(LLM)最近在各种语言任务中表现出了卓越的性能。但是,它们的部署往往受到大量计算和存储需求的限制。量化已成为应对这一挑战的关键技术,它能在对性能影响最小的情况下压缩大型模型。最近的 GPTQ 算法是一种训练后量化(PTQ)方法,已被证明对压缩 LLM 非常有效,引发了以 GPTQ 为核心组件的研究热潮。认识到 GPTQ 在 PTQ 领域的关键作用,我们推出了 CDQuant,它是 GPTQ 的一种简单、可扩展的替代方法,性能更佳。CDQuant 采用坐标下降法来最小化层上重构损失,从而获得高质量的量化权重。我们的算法易于实现,并能高效扩展到拥有千亿参数的模型。通过对 PaLM2 模型系列的广泛评估,我们证明了 CDQuant 在不同的模型规模和量化水平上始终优于 GPTQ。特别是在对 PaLM2-Otter 进行 INT2 量化时,CDQuant 比 GPTQ 降低了 10%的困惑度。

8.Can Large Language Models Understand DL-Lite Ontologies? An Empirical Study

标题:大型语言模型能否理解轻型 DL 本体?实证研究

author:Keyu Wang, Guilin Qi, Jiaqi Li, Songlin Zhai

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17532v1

摘要
大型语言模型(LLM)在解决各种任务方面取得了显著成就。最近,LLMs 存储、检索和推断符号知识的能力引起了广泛关注,显示了其理解结构化信息的潜力。然而,人们还不知道 LLM 是否能理解描述逻辑(DL)本体。在这项工作中,我们从语法和语义方面对 LLMs 理解 DL-Lite 本体的能力进行了实证分析,涉及 6 个具有代表性的任务。通过大量实验,我们证明了 LLMs 在理解 DL-Lite 本体方面的有效性和局限性。我们发现,LLM 可以理解概念和角色的正式语法和模型理论语义。然而,LLM 在理解 TBox NI 传递性和处理具有大型 ABox 的本体时却很吃力。我们希望我们的实验和分析能为 LLM 提供更多洞察力,并为构建更可靠的知识工程解决方案提供启发。

9.Enhancing Tool Retrieval with Iterative Feedback from Large Language Models

标题:利用大型语言模型的迭代反馈加强工具检索

author:Qiancheng Xu, Yongqi Li, Heming Xia, Wenjie Li

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17465v1

摘要
工具学习旨在利用外部工具增强和扩展大型语言模型(LLMs)的能力,近来已受到广泛关注。目前的方法表明,LLM 可以通过上下文学习或微调有效地处理一定数量的工具。然而,在实际应用场景中,工具的数量通常非常多,而且不定期更新,这就强调了专用工具检索组件的必要性。由于存在以下挑战,工具检索并非易事:1) 复杂的用户说明和工具描述;2) 工具检索和工具使用模型之间的不匹配。为解决上述问题,我们建议通过大语言模型的迭代反馈来增强工具检索。具体来说,我们促使工具使用模型(即 LLM)为工具检索器模型提供多轮反馈,从而逐步提高工具检索器对指令和工具的理解,缩小两个独立组件之间的差距。我们建立了一个统一而全面的基准来评估工具检索模型。大量实验表明,我们提出的方法在域内评估和域外评估中都取得了先进的性能。

10.A Three-Pronged Approach to Cross-Lingual Adaptation with Multilingual LLMs

标题:利用多语种 LLM 进行跨语言适应的三管齐下方法

author:Vaibhav Singh, Amrith Krishna, Karthika NJ, Ganesh Ramakrishnan

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17377v1

摘要
低资源语言,顾名思义,在大型语言模型的预训练语料库中往往代表性不足。在这项工作中,我们研究了三种低资源跨语言方法,使大语言模型能够适应以前从未见过的语言任务。Llama-2 是一种 LLM,在这种 LLM 中,印度语和许多其他语系在总计 2 万亿美元的标记预训练语料库中的贡献不到 0.005%$。在这项工作中,我们使用以英语为主的 Llama-2 进行实验,将其跨语言转移到三种印度语言(孟加拉语、印地语和泰米尔语)作为目标语言。我们研究了 ICL 和微调下的三种跨语言迁移方法。其一,我们发现,通过 LLM 中的主导语言添加额外的监督信号,可在上下文学习和微调下带来改进。其二,根据单词重排对目标语言进行调整可能会对 ICL 有利,但其影响会随着微调而减弱。最后,在一种低资源语言中持续进行预训练可以提高模型在其他相关低资源语言中的性能。

11.Dual-Space Knowledge Distillation for Large Language Models

标题:大型语言模型的双空间知识提炼

author:Songming Zhang, Xue Zhang, Zengkui Sun, Yufeng Chen, Jinan Xu

publish:17 pages, 11 figures, code available at:
https://github.com/songmzhang/DSKD

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17328v1

摘要
众所周知,知识蒸馏(KD)是通过将大型语言模型(LLM)的知识转移到小型模型中来压缩大型语言模型(LLM)的一种有前途的解决方案。在这一过程中,白盒 KD 方法通常会最小化两个模型输出分布之间的距离,从而转移更多的知识。然而,在当前的白盒 KD 框架中,输出分布来自两个模型各自的输出空间,并使用各自的预测头。我们认为,空间差异会导致教师模型和学生模型在表示和分布层面上的相似性较低。此外,这种差异还阻碍了具有不同词汇表的模型之间的 KD 过程,而这在当前的 LLM 中很常见。为了解决这些问题,我们提出了一个双空间知识提炼(DSKD)框架,将两个模型的输出空间统一起来,以实现知识提炼。在 DSKD 的基础上,我们进一步开发了一种跨模型关注机制,它可以自动调整两个具有不同词汇表的模型的表征。因此,我们的框架不仅能像当前框架一样兼容用于 KD 的各种距离函数(如 KL 分歧),还能支持任何两个 LLM 之间的 KD,而不管它们的词汇是什么。在与任务无关的指令跟随基准上进行的实验表明,DSKD 在使用各种距离函数的情况下明显优于当前的白盒 KD 框架,而且在使用不同词汇表的 LLM 时也超越了现有的 KD 方法。

12.Retrieval Augmented Instruction Tuning for Open NER with Large Language Models

标题:使用大型语言模型对开放式 NER 进行检索增强指令调整

author:Tingyu Xie, Jian Zhang, Yan Zhang, Yuanyuan Liang, Qi Li, Hongwei Wang

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17305v1

摘要
大型语言模型(LLM)的强大功能已通过检索增强提示或指令调整(IT)应用于信息提取(IE)。然而,将信息与 LLMs 结合用于 IE 的最佳方法仍是一个未决问题。在本文中,我们以开放式命名实体识别(NER)任务为重点,探讨了用于 IE 的检索增强指令调整(RA-IT)。具体来说,对于每个训练样本,我们从训练数据集中检索语义相似的示例作为上下文,并将它们预置到原始指令的输入中。为了更全面地评估 RA-IT 方法,我们构建了一个用于开放式 NER 的中文 IT 数据集,并在中英文场景中对 RA-IT 进行了评估。实验结果验证了 RA-IT 在不同数据规模和中英文场景下的有效性。我们还进行了深入研究,以探索所提出的 RA-IT 框架中各种检索策略的影响。代码和数据可在以下网址获取: https://github.com/Emma1066/Retrieval-Augmented-IT-OpenNER

13.DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph

标题:DARG:通过自适应推理图对大型语言模型进行动态评估

author:Zhehao Zhang, Jiaao Chen, Diyi Yang

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17271v1

摘要
目前通过静态基准来评估大型语言模型(LLM)的模式有很大的局限性,例如容易受到数据污染的影响,以及缺乏对 LLM 不断发展的能力的适应性。因此,我们迫切需要能够适应并生成复杂度可控的评估数据的评估方法。在这项工作中,我们通过自适应推理图进化(DARG)引入了 LLMs 动态评估,以动态扩展当前具有可控复杂性和多样性的基准。具体来说,我们首先提取当前基准中数据点的推理图,然后扰动推理图生成新的测试数据。这些新生成的测试样本可以具有不同程度的复杂性,同时保持与原始基准类似的语言多样性。我们进一步使用代码增强 LLM 来确保新生成数据的标签正确性。我们将 DARG 框架应用于四个领域的各种推理任务,并使用了 15 种最先进的 LLM。实验结果表明,随着复杂度的增加,几乎所有 LLM 的性能都有所下降,某些 LLM 的性能下降幅度还很大。此外,我们还发现,通过复杂度较高的 DARG 生成的数据进行评估时,LLM 会出现更多偏差。这些观察结果为如何动态、自适应地评估 LLM 提供了有益的启示。代码见 https://github.com/SALT-NLP/DARG。

14.Mitigating Hallucination in Fictional Character Role-Play

标题:减轻虚构角色扮演游戏中的幻觉

author:Nafis Sadeq, Zhouhang Xie, Byungkyu Kang, Prarit Lamba, Xiang Gao, Julian McAuley

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17260v1

摘要
角色扮演广泛应用于客户支持、化身代理、计算社会科学等领域。受大型语言模型(LLMs)的参数化世界知识的影响,角色扮演中的人物常常会做出超出角色性格的行为,并对其知识范围之外的事物产生幻觉。在这项工作中,我们重点评估和缓解虚构角色扮演中的幻觉。我们引入了一个包含 2,000 多个角色和 72,000 个访谈的数据集,其中包括 18,000 个对抗性问题。我们提出的 RoleFact 是一种角色扮演方法,它通过使用预先校准的置信度阈值来调节参数知识的影响,从而减轻幻觉。实验表明,对于对抗性问题,所提出的方法可将生成的回答的事实精确度提高 18%,对于时间敏感性访谈,可将时间幻觉减少 44%。代码和数据集将发布在 https://github.com/NafisSadeq/rolefact.git 网站上。

15.Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers

标题:越疏越快,越少越多:长程变压器的高效稀疏关注

author:Chao Lou, Zixia Jia, Zilong Zheng, Kewei Tu

publish:preprint

date Time:2024-06-24

paper pdf:http://arxiv.org/pdf/2406.16747v1

摘要
由于自注意机制固有的二次计算复杂性和大量 KV 内存要求,在自回归变换器中有效容纳长序列,尤其是在扩展上下文窗口中容纳长序列,是一项重大挑战。在这项工作中,我们引入了 SPARSEK 注意,这是一种新型稀疏注意机制,旨在克服这些计算和内存障碍,同时保持性能。我们的方法集成了一个评分网络和一个可微分的 top-k 掩码算子 SPARSEK,为每个查询选择一定数量的 KV 对,从而实现基于梯度的优化。因此,SPARSEK Attention 在生成过程中具有线性时间复杂性和恒定的内存占用。实验结果表明,SPARSEK Attention 优于之前的稀疏注意力方法,在训练和推理过程中,尤其是在语言建模和下游任务中,速度都有显著提高。此外,我们的方法可以无缝集成到预先训练好的大型语言模型(LLM)中,只需极少的微调,为在各种应用中有效管理长距离依赖关系提供了实用的解决方案。

16.Towards Comprehensive Preference Data Collection for Reward Modeling

标题:为奖励建模收集全面的偏好数据

author:Yulan Hu, Qingyang Li, Sheng Ouyang, Ge Chen, Kaihui Chen, Lijun Mei, Xucheng Ye, Fuzheng Zhang, Yong Liu

date Time:2024-06-24

paper pdf:http://arxiv.org/pdf/2406.16486v1

摘要
从人类反馈进行强化学习(RLHF)有助于将大型语言模型(LLM)与人类偏好相匹配,从而提高所生成回复的质量。奖励模型是 RLHF 的一个重要组成部分,它根据偏好数据进行训练,并在推理阶段输出标量奖励。然而,对偏好数据的收集仍缺乏深入研究。最近的研究表明,偏好数据是由人工智能或人类收集的,在成对的反应中识别出选择和拒绝的实例。我们质疑这一过程是否能有效过滤噪音,并确保收集到的数据具有足够的多样性。为了解决这些问题,我们首次提出了一个全面的偏好数据收集框架,将这一过程分解为四个渐进步骤:提示生成、响应生成、响应过滤和人类标签。这种结构化方法既能确保收集到高质量的偏好数据,又能减少对人工的依赖。我们根据在不同阶段收集到的数据进行了综合实验,证明了所提出的数据收集方法的有效性。

17.Directed Domain Fine-Tuning: Tailoring Separate Modalities for Specific Training Tasks

标题:定向领域微调:为特定训练任务量身定制不同模式

author:Daniel Wen, Nafisa Hussain

date Time:2024-06-24

paper pdf:http://arxiv.org/pdf/2406.16346v1

摘要
大型语言模型(LLM)和大型视觉语言模型(LVLM)一直处于人工智能领域的前沿,特别是在文本生成、视频字幕和问题解答等任务中。通常情况下,在更广泛的知识库或数据集上训练这些模型更适用于提高通用性、学习主题之间的关系以及识别模式。相反,我们建议针对不同领域中每种模式的任务提供特定的教学数据集,然后使用 LORA 对模型参数进行微调。通过我们的方法,我们可以消除所有与给定任务无关的噪音,同时还能确保模型生成的精度更高。在这项工作中,我们使用视频-LaVA 生成没有文字记录的烹饪视频菜谱。Video-LaVA 的多模态架构允许我们向其图像编码器提供烹饪图像,向其视频编码器提供烹饪视频,向其文本编码器提供一般烹饪问题。因此,我们的目标是去除所有与烹饪无关的噪音,同时提高模型生成具体配料表和详细说明的能力。因此,在 YouCook2 数据集上,我们对 Video-LaVA 进行微调的方法比基线 Video-LaVA 提高了 2%。虽然这看起来只是微不足道的提高,但我们的模型在图像指令数据集上的训练规模是 Video-LaVA 的 2.5%,而在视频指令数据集上的训练规模是 Video-LaVA 的 23.76%。

18.Anomaly Detection of Tabular Data Using LLMs

标题:使用 LLM 对表格数据进行异常检测

author:Aodong Li, Yunhan Zhao, Chen Qiu, Marius Kloft, Padhraic Smyth, Maja Rudolph, Stephan Mandt

publish:accepted at the Anomaly Detection with Foundation Models workshop

date Time:2024-06-24

paper pdf:http://arxiv.org/pdf/2406.16308v1

摘要
大语言模型(LLMs)在长语境理解和数学推理方面已显示出其潜力。在本文中,我们研究了使用 LLMs 检测表格异常的问题,结果表明,预训练的 LLMs 是零次批量级异常检测器。也就是说,无需额外的特定分布模型拟合,它们就能发现一批数据中隐藏的异常值,证明了它们识别低密度数据区域的能力。对于与异常检测不匹配且经常输出事实错误的 LLM,我们采用简单而有效的数据生成过程来模拟合成批量级异常检测数据集,并提出端到端微调策略,以发挥 LLM 在检测真实异常方面的潜力。在一个大型异常检测基准(ODDS)上进行的实验表明:i)GPT-4 的性能与最先进的基于归纳学习的异常检测方法相当;ii)我们的合成数据集和微调策略在使 LLMs 与这项任务相匹配方面的功效。

19.One Thousand and One Pairs: A “novel” challenge for long-context language models

标题:一千零一对长语境语言模型的 "新 "挑战

author:Marzena Karpinska, Katherine Thai, Kyle Lo, Tanya Goyal, Mohit Iyyer

publish:preprint, 29 pages

date Time:2024-06-24

paper pdf:http://arxiv.org/pdf/2406.16264v1

摘要
合成的长语境 LLM 基准(例如 “大海捞针”)只测试了表面级别的检索能力,但长语境 LLM 能够多好地检索、综合和推理长达一本书的输入信息呢?我们通过创建 NoCha 来解决这个问题,NoCha 是一个数据集,其中包含 1001 对差异极小的真假声明,这些声明是由最近出版的 67 本英语小说书籍的人类读者撰写的。与现有的长语境基准相比,我们的注释者证实,NoCha 中最大份额的配对需要对整本书进行全局推理才能验证。我们的实验表明,虽然人类读者可以轻松完成这项任务,但对于我们评估的所有十个长语境 LLM 来说,这项任务却具有极大的挑战性:没有一个开放权重模型的表现能超过随机概率(尽管它们在合成基准上表现出色),而 GPT-4o 的准确率最高,达到 55.8%。进一步的分析表明:(1) 平均而言,模型在只需要句子级检索和全局推理的对子上的表现要好得多;(2) 模型生成的决策解释往往不准确,即使对于正确标记的主张也是如此;(3) 模型在包含大量世界构建的推理小说上的表现要差得多。NoCha 中提出的方法允许基准数据集的演化和未来模型的简易分析。

20.Confidence Regulation Neurons in Language Models

标题:语言模型中的信心调节神经元

author:Alessandro Stolfo, Ben Wu, Wes Gurnee, Yonatan Belinkov, Xingyi Song, Mrinmaya Sachan, Neel Nanda

publish:25 pages, 14 figures

date Time:2024-06-24

paper pdf:http://arxiv.org/pdf/2406.16254v1

摘要
尽管大型语言模型(LLMs)被广泛使用,但其表示和调节下一个标记预测中的不确定性的机制在很大程度上仍未被探索。本研究调查了被认为会影响这种不确定性的两个关键组成部分:最近发现的熵神经元和一组新的组成部分,我们称之为标记频率神经元。熵神经元的特点是权重规范异常高,并影响最终层规范化(LayerNorm)尺度,从而有效地缩小对数。我们的研究表明,熵神经元是通过写入无嵌入的空空间来工作的,这使得它们能够影响残留流规范,而对对数本身的直接影响却很小。我们在一系列模型中观察到了熵神经元的存在,最多可达 70 亿个参数。另一方面,我们在此首次发现并描述了标记频率神经元,它根据每个标记的对数频率成比例地提高或抑制每个标记的对数,从而使输出分布趋向或偏离单字符分布。最后,我们介绍了一个详细的案例研究,在该案例中,熵神经元在归纳过程中积极管理置信度,即检测和继续重复的子序列。

21.LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing

标题:法律硕士协助 NLP 研究人员:评论论文(元)审查

author:Jiangshu Du, Yibo Wang, Wenting Zhao, Zhongfen Deng, Shuaiqi Liu, Renze Lou, Henry Peng Zou, Pranav Narayanan Venkit, Nan Zhang, Mukund Srinath, Haoran Ranran Zhang, Vipul Gupta, Yinghui Li, Tao Li, Fei Wang, Qin Liu, Tianlin Liu, Pengzhi Gao, Congying Xia, Chen Xing, Jiayang Cheng, Zhaowei Wang, Ying Su, Raj Sanjay Shah, Ruohao Guo, Jing Gu, Haoran Li, Kangda Wei, Zihao Wang, Lu Cheng, Surangika Ranathunga, Meng Fang, Jie Fu, Fei Liu, Ruihong Huang, Eduardo Blanco, Yixin Cao, Rui Zhang, Philip S. Yu, Wenpeng Yin

date Time:2024-06-24

paper pdf:http://arxiv.org/pdf/2406.16253v2

摘要
这项工作的动力来自两个关键趋势。一方面,大型语言模型(LLM)在写作、绘画和问题解答等各种生成任务中表现出了卓越的多功能性,大大减少了许多常规任务所需的时间。另一方面,研究人员的工作不仅耗时,而且对专业知识的要求也很高,他们不得不花费更多时间阅读、撰写和审阅论文,因此面临着越来越多的挑战。这就提出了一个问题:法律硕士如何帮助研究人员减轻繁重的工作量? 本研究的重点是LLM对NLP研究人员的帮助,尤其是考察LLM在帮助论文(元)审阅方面的有效性及其可识别性。为了解决这个问题,我们构建了ReviewCritique数据集,其中包括两类信息:(i) NLP论文(初次提交而非上镜),其中既有人工撰写的审稿,也有LLM生成的审稿;(ii) 每篇审稿都附有 "缺陷 "标签以及由专家注释的对个别片段的相应解释。本研究利用 ReviewCritique 探讨了两个研究问题:(i) “作为审阅者的法学硕士”,法学硕士生成的审阅与人类撰写的审阅在质量和可区分性方面相比如何?(ii) “作为元审稿人的法学硕士”,法学硕士如何有效识别单篇论文审稿中的潜在问题,如审稿缺陷或不专业的审稿片段?据我们所知,这是第一部提供此类全面分析的著作。

22.Graph-Augmented LLMs for Personalized Health Insights: A Case Study in Sleep Analysis

标题:用于个性化健康洞察的图增强 LLM:睡眠分析案例研究

author:Ajan Subramanian, Zhongqi Yang, Iman Azimi, Amir M. Rahmani

date Time:2024-06-24

paper pdf:http://arxiv.org/pdf/2406.16252v2

摘要
健康监测系统能够持续捕捉生理和行为数据,对预防措施和早期健康干预至关重要,从而彻底改变了现代医疗保健。虽然将这些数据与大型语言模型(LLM)整合在一起有望提供交互式健康建议,但传统方法(如检索-增强生成(RAG)和微调)往往无法充分利用来自可穿戴设备的复杂、多维和时间相关数据。这些传统方法通常只能提供有限的可操作的个性化健康洞察,因为它们没有足够的能力动态整合和解释多样化的健康数据流。为此,本文介绍了一种图增强 LLM 框架,旨在显著提高健康洞察的个性化和清晰度。该框架利用分层图结构捕捉患者之间和患者内部的关系,并通过随机森林模型得出的动态特征重要性评分来丰富 LLM 提示。在 COVID-19 封锁期间,我们通过一项涉及 20 名大学生的睡眠分析案例研究证明了这种方法的有效性,突出了我们的模型在高效生成可操作的个性化健康洞察力方面的潜力。我们利用另一个 LLM 来评估洞察力的相关性、全面性、可操作性和个性化,以满足对能有效处理和解释复杂健康数据的模型的迫切需要。我们的研究结果表明,使用我们的框架来增强提示功能在所有 4 个标准方面都有显著改善。通过我们的框架,我们可以为特定患者量身定制出精心设计、更加周到的回答。

  • 13
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值