AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.01-2024.08.05

1.LLM economicus? Mapping the Behavioral Biases of LLMs via Utility Theory

标题:LLM economicus?通过效用理论了解法律硕士的行为偏差

author:Jillian Ross, Yoon Kim, Andrew W. Lo

publish:Accepted to COLM 2024

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02784v1

摘要
人类并非经济人(即理性经济人)。作为人类,我们会表现出系统性的行为偏差,如损失厌恶、锚定、框架等,这些偏差会导致我们做出次优的经济决策。既然这些偏差可能存在于训练大型语言模型(LLMs)的文本数据中,那么 LLMs 在多大程度上也容易出现同样的行为偏差呢?了解 LLM 中的这些偏差对于部署 LLM 以支持人类决策至关重要。我们提出了效用理论–现代经济理论的核心范式–作为评估 LLMs 经济偏差的一种方法。效用理论可以量化经济行为,并将其与完全理性或人类行为等基准进行比较。为了证明我们的方法,我们量化并比较了各种开源和闭源 LLM 的经济行为。我们发现,当前 LLM 的经济行为既不完全像人类,也不完全像经济人。我们还发现,目前大多数 LLM 都难以在不同环境下保持一致的经济行为。最后,我们说明了我们的方法如何能够衡量提示等干预措施对经济偏差的影响。

2.A Novel Hybrid Approach for Tornado Prediction in the United States: Kalman-Convolutional BiLSTM with Multi-Head Attention

标题:用于美国龙卷风预测的新型混合方法:具有多头注意力的卡尔曼-卷积 BiLSTM

author:Jiawei Zhou

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02751v1

摘要
龙卷风是最强烈的大气涡旋现象之一,给探测和预报带来了巨大挑战。传统方法在很大程度上依赖于地面观测和雷达数据,但受到距离越远精度越低、误报率越高等问题的限制。为了应对这些挑战,本研究利用了多雷达多传感器(MRMS)系统的无缝混合扫描反射率(SHSR)数据集,该数据集整合了多个雷达来源的数据,以提高精度。为了改进动态状态估计并捕捉数据中的空间和时间相关性,引入了一种新型混合模型,即具有多头注意力的卡尔曼-卷积 BiLSTM。与 K-Nearest Neighbors (KNN) 和 LightGBM 等方法相比,该模型在精确度、召回率、F1-Score 和准确度方面都表现出卓越的性能。这些结果凸显了先进的机器学习技术在改进龙卷风预测和降低误报率方面的巨大潜力。未来的研究将侧重于扩大数据集、探索创新的模型架构以及结合大型语言模型 (LLM) 以提供更深入的见解。这项研究为龙卷风预测引入了一个新颖的模型,为提高预测准确性和公共安全提供了一个强大的框架。

3.Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization

标题:利用 LLM 的力量:基于方面的高质量总结的微调方法

author:Ankan Mullick, Sombit Bose, Rounak Saha, Ayan Kumar Bhowmick, Aditya Vempaty, Pawan Goyal, Niloy Ganguly, Prasenjit Dey, Ravi Kokku

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02584v1

摘要
数字信息的数量与日俱增,用户需要高效的方法从冗长的文档中提取关键信息。基于方面的摘要提供了一种有针对性的方法,可生成侧重于文档特定方面的摘要。尽管基于方面的摘要研究取得了进展,但人们仍在不断追求改进模型的性能。鉴于大型语言模型(LLM)已证明有潜力彻底改变自然语言处理中的各种任务,尤其是摘要问题,本文探讨了微调 LLM 在基于方面的摘要任务中的潜力。我们评估了微调开源基础 LLM(包括 Llama2、Mistral、Gemma 和 Aya)对公开可用的特定领域基于方面的摘要数据集的影响。我们假设,这种方法将使这些模型能够有效地识别和提取与方面相关的信息,从而产生比最先进的基于方面的摘要质量更高的摘要。我们建立了一个全面的评估框架,将经过微调的 LLM 的性能与竞争的基于方面的摘要方法和经过微调的 LLM 的虚构对应物进行比较。我们的工作证明了微调 LLM 在生成高质量的基于方面的摘要方面的功效,从而为基于方面的摘要领域做出了贡献。此外,它还为进一步探索将 LLMs 用于各种 NLP 领域的目标信息提取任务打开了大门。

4.Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models

标题:让我自由发言?格式限制对大型语言模型性能影响的研究

author:Zhi Rui Tam, Cheng-Kuang Wu, Yi-Lin Tsai, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen

publish:18 pages

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02442v1

摘要
结构化生成是以 JSON 和 XML 等标准化格式生成内容的过程,在实际应用中被广泛用于从大型语言模型(LLM)中提取关键输出信息。本研究探讨了生成空间的这种限制是否会影响 LLM 的能力,包括推理和领域知识理解能力。具体来说,我们评估了 LLM 在各种常见任务中被限制遵守结构化格式与生成自由格式响应时的表现。令人惊讶的是,我们发现在格式限制下,语言学习者的推理能力明显下降。此外,我们还发现,更严格的格式限制通常会导致推理任务中更大的性能下降。

5.Strong and weak alignment of large language models with human values

标题:大型语言模型与人类价值观的强匹配和弱匹配

author:Mehdi Khamassi, Marceau Nahon, Raja Chatila

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.04655v1

摘要
要尽量减少人工智能(AI)系统在没有人类监督的情况下对人类社会造成的负面影响,就要求它们能够与人类价值观保持一致。然而,目前的大多数工作都只是从技术角度来解决这个问题,例如改进目前依赖于人类反馈强化学习的方法,而忽略了发生一致性的意义和要求。在此,我们建议区分强价值对齐和弱价值对齐。强对齐需要认知能力(类似人类或不同于人类),如理解和推理代理的意图及其因果关系产生预期效果的能力。我们认为,像大型语言模型(LLM)这样的人工智能系统需要具备这种能力,才能识别出存在人类价值观可能被蔑视的风险的情况。为了说明这一区别,我们提出了一系列提示,显示 ChatGPT、Gemini 和 Copilot 无法识别其中的某些情况。此外,我们还分析了单词嵌入,以表明 LLM 中某些人类值的近邻与人类的语义表征不同。然后,我们提出了一个新的思想实验,我们称之为 “带词语转换词典的中文房间”,它是对约翰-塞尔(John Searle)著名提议的延伸。最后,我们提到了目前有希望实现弱对齐的研究方向,它可以在许多常见情况下产生统计上令人满意的答案,但迄今为止还不能确保任何真值。

6.CodeACT: Code Adaptive Compute-efficient Tuning Framework for Code LLMs

标题:CodeACT:代码 LLM 的代码自适应计算效率调整框架

author:Weijie Lv, Xuan Xia, Sheng-Jun Huang

date Time:2024-08-05

paper pdf:http://arxiv.org/pdf/2408.02193v1

摘要
大型语言模型(LLM)在代码相关任务中显示出巨大潜力,但开源模型却落后于闭源模型。为了弥补这一性能差距,现有方法需要生成大量合成数据进行微调,导致训练效率低下。由于需要更有效、更高效的训练,我们提出了代码自适应计算效率调整(CodeACT)框架。CodeACT 引入了复杂性和多样性感知采样(CDAS)方法,根据复杂性和多样性选择高质量的训练数据,并引入了动态包填充策略,通过在训练过程中尽量减少填充标记来减少计算资源的使用。实验结果表明,仅对 40% 的 EVOL-Instruct 数据进行微调的 CodeACT-DeepSeek-Coder-6.7B 在 HumanEval 上的性能提高了 8.6%,训练时间缩短了 78%,GPU 内存使用峰值降低了 27%。这些发现凸显了 CodeACT 提高开源模型性能和效率的能力。通过优化数据选择和训练过程,CodeACT 提供了一种全面的方法来提高开源 LLM 的能力,同时大大降低了计算要求,解决了数据质量和训练效率的双重挑战,为建立资源效率更高、性能更强的模型铺平了道路。

7.Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models

标题:释放数据海啸的力量:语言模型教学调整的数据评估与选择综合调查

author:Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun

publish:review, survey, 28 pages, 2 figures, 4 tables

date Time:2024-08-04

paper pdf:http://arxiv.org/pdf/2408.02085v3

摘要
在使大型语言模型(LLM)符合人类偏好方面,指令调整起着至关重要的作用。尽管有大量开放的指令数据集,但在所有现有指令上天真地训练 LLM 可能不是最佳和实用的方法。为了找出最有利的数据点,自然语言处理(NLP)和深度学习领域提出了数据评估和选择方法。然而,在指令调整的背景下,对于可以采用哪种数据评估指标以及如何将其集成到选择机制中,仍然存在知识空白。为了弥补这一差距,我们对现有的数据评估和选择文献进行了全面回顾,尤其是针对 LLM 的指令调整。我们将所有适用的方法系统地分为基于质量的方法、基于多样性的方法和基于重要性的方法,并在此基础上构建了统一的细粒度分类法。对于每个类别,我们都阐述了具有代表性的方法,以描述相关研究的全貌。此外,我们还对最新方法的官方报告结果进行了比较,深入探讨了这些方法的局限性。最后,我们总结了目前面临的挑战,并提出了未来研究的主要方向。所有相关内容请访问 https://github.com/yuleiqin/fantastic-data-engineering。

8.Evaluating the Impact of Advanced LLM Techniques on AI-Lecture Tutors for a Robotics Course

标题:评估高级 LLM 技术对机器人课程人工智能讲师的影响

author:Sebastian Kahl, Felix Löffler, Martin Maciol, Fabian Ridder, Marius Schmitz, Jennifer Spanagel, Jens Wienkamp, Christopher Burgahn, Malte Schilling

publish:The article is an extended version of a paper presented at the
International Workshop on AI in Education and Educational Research (AIEER) at
ECAI-2024 (27th European Conference on Artificial Intelligence)

date Time:2024-08-02

paper pdf:http://arxiv.org/pdf/2408.04645v1

摘要
本研究评估了大语言模型(LLM)作为基于人工智能的大学课程辅导的性能。特别是采用了不同的先进技术,如提示工程、检索-增强-生成(RAG)和微调。我们使用 BLEU-4、ROUGE 和 BERTScore 等常用相似度指标对不同的模型和应用技术进行了评估,并辅以对有用性和可信度的小规模人工评估。我们的研究结果表明,RAG 与提示工程相结合可显著增强模型的响应能力,并产生更好的事实性答案。在教育领域,RAG 似乎是一种理想的技术,因为它的基础是用额外的信息和材料来丰富模型的输入,而这些信息和材料通常已经存在于大学课程中。另一方面,微调可以产生相当小但仍然强大的专家模型,但会带来过度拟合的危险。我们的研究进一步提出了如何衡量 LLM 的性能,以及当前的衡量标准在多大程度上代表了正确性或相关性?我们发现相似性度量具有很高的相关性,而且这些度量大多偏向于较短的回答。总之,我们的研究指出了将 LLMs 整合到教育环境中的潜力和挑战,表明需要平衡的培训方法和先进的评估框架。

9.DebateQA: Evaluating Question Answering on Debatable Knowledge

标题:DebateQA:评估有争议知识的问题解答

author:Rongwu Xu, Xuan Qi, Zehan Qi, Wei Xu, Zhijiang Guo

publish:Dataset and scripts for evaluation are available at
https://github.com/pillowsofwind/DebateQA

date Time:2024-08-02

paper pdf:http://arxiv.org/pdf/2408.01419v1

摘要
大型语言模型(LLM)的兴起使我们能够在 LLM 聊天机器人上寻求对本质上有争议的问题的答案,这就需要一种可靠的方法来评估它们的能力。然而,传统的质量保证基准假定的固定答案并不能满足这一要求。为了解决这个问题,我们引入了 DebateQA,这是一个包含 2,941 个有争议问题的数据集,每个问题都附有多个由人类标注的部分答案,可以捕捉到各种观点。我们制定了两个指标:观点多样性(评估观点的全面性)和争议意识(评估 LLM 是否承认问题的辩论性质)。实验证明,这两个指标都符合人类的偏好,并且在不同的基础模型中都很稳定。利用 DebateQA 和这两个指标,我们评估了 12 种流行的 LLM 和检索增强生成方法。我们的研究结果表明,虽然 LLMs 在识别有争议的问题方面普遍表现出色,但它们提供包含不同观点的综合答案的能力却有很大差异。

10.PERSOMA: PERsonalized SOft ProMpt Adapter Architecture for Personalized Language Prompting

标题:PERSOMA:用于个性化语言提示的 PERsonalized SOft ProMpt 适配器架构

author:Liam Hebert, Krishna Sayana, Ambarish Jash, Alexandros Karatzoglou, Sukhdeep Sodhi, Sumanth Doddapaneni, Yanli Cai, Dima Kuzmin

date Time:2024-08-02

paper pdf:http://arxiv.org/pdf/2408.00960v1

摘要
了解用户大量交互历史中的细微差别,是构建准确的个性化自然语言系统的关键,而这种系统能够适应不断变化的用户偏好。为此,我们推出了 PERSOMA(个性化软提示适配器架构)。与以往针对大型语言模型的个性化提示方法不同,PERSOMA 提供了一种有效捕捉用户历史记录的新方法。为了实现这一目标,它利用最近的研究成果,将嵌入表示法作为 LLM 的输入,将交互作为自由格式文本重新采样并压缩成富有表现力的软提示嵌入。我们通过评估各种适配器架构、第一阶段采样策略、参数效率调整技术(如 LoRA)以及其他个性化方法,严格验证了我们的方法。我们的结果表明,与现有的基于嵌入和文本提示的技术相比,PERSOMA 具有处理大量复杂用户历史记录的卓越能力。

11.In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation

标题:通过相似性搜索进行上下文实例选择可改进低资源机器翻译

author:Armel Zebaze, Benoît Sagot, Rachel Bawden

date Time:2024-08-01

paper pdf:http://arxiv.org/pdf/2408.00397v1

摘要
生成式大型语言模型(LLM)能够进行上下文学习,这引发了大量关于如何为各种自然语言处理任务提供最佳模型的研究。在本文中,我们将重点关注机器翻译 (MT),这项任务已被证明可以从上下文翻译示例中获益。然而,目前还没有关于如何最好地选择示例的系统性研究报告,而关于基于相似性的选择相对于随机选择的有用性的报告结果不一。我们提供了一项涵盖多种 LLM 和多种上下文示例检索策略的研究,并对多语言句子嵌入进行了比较。我们涵盖了多个语言方向,代表了不同的语言资源水平(英语到法语、德语、斯瓦希里语和沃洛夫语)。与之前公布的结果不同,我们发现句子嵌入的相似性可以改善 MT,尤其是在低资源语言方向,并讨论了选择库多样性和质量之间的平衡。我们还强调了基于 LLM 的 MT 评估可能存在的问题,并提出了一个更合适的评估协议,将 COMET 指标调整为 LLM 评估指标。代码和输出结果可在 https://github.com/ArmelRandy/ICL-MT 免费获取。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值