AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.01.01-2024.01.10

小小帅AIGC

已于 2024-02-22 13:48:46 修改

阅读量890

点赞数 9

分类专栏： LLMs论文时报文章标签：人工智能语言模型 nlp LLM 论文推送自然语言处理

于 2024-02-22 10:53:29 首次发布

本文链接：https://blog.csdn.net/weixin_44362044/article/details/136227725

版权

LLMs论文时报专栏收录该内容

56 篇文章

订阅专栏

本文综述了多项关于大型语言模型在金融情感分析、翻译、指令理解、领域适应、对话系统、SQL选择以及幻觉减少等方面的研究。文章强调了预训练模型在任务特定领域的优势，同时也讨论了挑战和未来发展方向，如LLM的鲁棒性、长序列处理和创造性能力的评估。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.Pre-trained Large Language Models for Financial Sentiment Analysis

标题:用于金融情感分析的预训练大型语言模型

author:Wei Luo, Dihong Gong

date Time:2024-01-10

paper pdf:http://arxiv.org/pdf/2401.05215v1

摘要：
金融情感分析是指将金融文本内容划分为情感类别（如正面、负面和中性）。在本文中，我们重点关注财经新闻标题的分类，由于缺乏大量的训练样本，这是一项具有挑战性的任务。为了克服这一困难，我们建议使用预训练的大型语言模型（LLMs）[1, 2, 3]来解决这一问题。LLM 由大量文本语料库训练而成，在文本理解方面具有优势，可以有效地适应特定领域的任务，同时只需要很少的训练样本。特别是，我们利用监督微调（SFT）技术对开源的 Llama2-7B 模型（2023）进行了调整[4]。实验评估表明，即使使用 7B 模型（对于 LLM 而言，该模型相对较小），我们的方法也明显优于之前的先进算法。

2.Can ChatGPT Rival Neural Machine Translation? A Comparative Study

标题:ChatGPT 能否媲美神经机器翻译？比较研究

author:Zhaokun Jiang, Ziyin Zhang

date Time:2024-01-10

paper pdf:http://arxiv.org/pdf/2401.05176v1

摘要：
受利用大型语言模型进行翻译的兴趣日益浓厚的启发，本文评估了以 ChatGPT 为代表的大型语言模型（LLMs）与主流神经机器翻译（NMT）引擎在将中文外交文本翻译成英文方面的能力对比。具体来说，我们通过四个自动化指标以及基于错误类型学和六个分析标准的人工评估，考察了 ChatGPT 和 NMT 引擎的翻译质量。我们的研究结果表明，在不同的提示和 NMT 系统下，ChatGPT 的自动度量结果相似，而当 ChatGPT 获得有关翻译任务的示例或上下文信息时，人工注释者倾向于给予 ChatGPT 明显更高的分数。自动化指标与人工评估维度之间的配对相关性结果微弱且不显著，这表明两种翻译质量评估方法之间存在差异。这些发现为了解 ChatGPT 作为功能强大的机器翻译的潜力，以及提示工程对其性能的影响提供了宝贵的见解。

3.InFoBench: Evaluating Instruction Following Ability in Large Language Models

标题:InFoBench：评估大型语言模型中的指令跟踪能力

author:Yiwei Qin, Kaiqiang Song, Yebowen Hu, Wenlin Yao, Sangwoo Cho, Xiaoyang Wang, Xuansheng Wu, Fei Liu, Pengfei Liu, Dong Yu

date Time:2024-01-07

paper pdf:http://arxiv.org/pdf/2401.03601v1

摘要：
本文介绍了分解要求遵循率（DRFR），这是一种用于评估大型语言模型（LLM）遵循指令能力的新指标。DRFR 将复杂的指令分解为更简单的标准，便于详细分析 LLM 是否符合任务的各个方面，从而弥补了当前方法的不足。除此指标外，我们还介绍了 InFoBench 基准，该基准包含 500 种不同指令和 2250 个分解问题，涉及多个约束类别。我们的实验将 DRFR 与传统评分方法进行了比较，并探索了注释来源，包括人类专家、众包工作者和 GPT-4。实验结果表明 DRFR 具有更高的可靠性，而且 GPT-4 作为一种经济高效的注释器也非常有效。使用该框架对几种高级 LLM 进行的评估揭示了它们的优势和需要改进的地方，特别是在复杂的指令遵循方面。这项研究提供了一种新的衡量标准和基准，为未来的 LLM 开发和评估提供了启示。

4.Human-Instruction-Free LLM Self-Alignment with Limited Samples

标题:有限样本下的无人工指令 LLM 自对齐

author:Hongyi Guo, Yuanshun Yao, Wei Shen, Jiaheng Wei, Xiaoying Zhang, Zhaoran Wang, Yang Liu

date Time:2024-01-06

paper pdf:http://arxiv.org/pdf/2401.06785v1

摘要：
将大型语言模型（LLMs）与人类价值进行对齐是 LLM 从业人员的一项重要任务。目前的对齐技术有几个局限性：（1）需要大量注释数据；（2）需要大量人工参与；（3）缺乏持续改进的系统机制。在这项工作中，我们研究了在样本有限（例如小于 100 个）的情况下将 LLM 对齐到一个新的领域。我们提出了一种算法，可以在没有主动人工参与的情况下迭代地对齐 LLM。与现有算法不同的是，我们的算法既不依赖于人工编写的指令，也不依赖于标记的奖励，从而大大减少了人工参与。此外，我们的算法还能不断自我改进配准。其关键思路是首先检索与目标领域相关的高质量样本，并将其作为上下文学习示例来生成更多样本。然后，我们利用自生成的样本对 LLM 进行迭代微调。我们的研究表明，我们的方法可以释放 LLM 的自我泛化能力，在近乎零人工监督的情况下完成配准。我们在安全性、真实性和指令遵循三个基准上测试了我们的算法，结果表明我们的算法在对齐、领域适应性和可扩展性方面表现出色。

5.DocGraphLM: Documental Graph Language Model for Information Extraction

标题:DocGraphLM：用于信息提取的文档图语言模型

author:Dongsheng Wang, Zhiqiang Ma, Armineh Nourbakhsh, Kang Gu, Sameena Shah

date Time:2024-01-05

paper pdf:http://arxiv.org/pdf/2401.02823v1

摘要：
丰富可视化文档理解（VrDU）技术的进步使得信息提取和问题解答成为可能。目前出现了两种架构–受 LLM 启发的基于变换器的模型和图神经网络。在本文中，我们介绍了 DocGraphLM，这是一种将预训练语言模型与图语义相结合的新型框架。为此，我们提出了 1) 表示文档的联合编码器架构，以及 2) 重建文档图的新型链接预测方法。DocGraphLM 使用收敛的联合损失函数预测节点之间的方向和距离，该函数优先考虑邻域恢复，并降低远处节点检测的权重。我们在三个 SotA 数据集上进行的实验表明，采用图特征后，IE 和 QA 任务的性能得到了持续改善。此外，我们还报告称，在训练过程中，尽管图特征仅通过链接预测来构建，但采用图特征加快了学习过程的收敛速度。

6.Blar-SQL: Faster, Stronger, Smaller NL2SQL

标题:Blar-SQL：更快、更强、更小的 NL2SQL

author:José Manuel Domínguez, Benjamín Errázuriz, Patricio Daher

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02997v1

摘要：
大型语言模型（LLMs）在自然语言到 SQL 任务（NL2SQL）领域已经获得了相当高的知名度。在本研究中，我们展示了任务分解如何使 LLM 在数据库理解和查询生成方面受益匪浅，从而用 SQL 查询回答人类的问题。我们对开源模型（特别是 Llama-2 和 Code Llama）进行了微调，将 2 个不同的模型组合在一起，每个模型都被指定专注于两个任务中的一个，以便利用每个模型的核心能力进一步提高最终 SQL 查询的准确性。我们提出了一个新框架，将模式划分为若干块，以便在有限的上下文中容纳更多信息。我们的结果与 GPT-4 所取得的结果不相上下，同时比 GPT-4 小 135 倍、快 90 倍、便宜 100 多倍。

7.Are LLMs Robust for Spoken Dialogues?

标题:LLM 是否适合口语对话？

author:Seyed Mahed Mousavi, Gabriel Roccabruna, Simone Alghisi, Massimo Rizzoli, Mirco Ravanelli, Giuseppe Riccardi

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02297v1

摘要：
大型预训练语言模型在不同的下游任务（包括对话状态跟踪和端到端响应生成）中表现出了最先进的性能。然而，大多数面向任务对话的公开可用数据集和基准都集中在书面对话上。因此，所开发模型对口语交互的鲁棒性尚不可知。在这项工作中，我们在 DSTC11 测试集上评估了面向任务的口语对话 LLM 的性能。由于缺乏合适的口语对话数据集，我们使用最先进的 ASR 引擎自动转录了口语对话开发集。我们描述了 ASR 错误类型及其分布，并在一个大型对话数据集中模拟了这些错误。我们报告了经过微调的 GPT-2 和 T5 模型分别在应答生成和对话状态跟踪这两个子任务中的内在（易错性）和外在（人类评估）性能。结果表明，LLM 默认情况下对口语噪声不具有鲁棒性，但是，在适当的口语 TOD 数据集上对此类模型进行微调/训练，可以获得更加鲁棒的性能。

8.Using LLM to select the right SQL Query from candidates

标题:使用 LLM 从候选中选择正确的 SQL 查询

author:Zhenwen Li, Tao Xie

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02115v1

摘要：
文本到 SQL 模型可以生成候选 SQL 查询列表，而最佳查询往往就在候选列表中，但并不在列表的顶部。有效的重新排序方法可以从候选列表中选择正确的 SQL 查询，从而提高模型的性能。以往关于代码生成的研究可以自动生成测试用例，并利用它们对候选代码重新排序。然而，文本到 SQL 的自动测试用例生成是一个研究不足的领域。我们提出了一种自动生成测试用例的方法，该方法首先生成一个数据库，然后使用 LLM 预测基本事实，即基本事实 SQL 查询在该数据库上的预期执行结果。为了降低 LLM 预测的难度，我们进行了实验，寻找为 LLM 生成简单数据库的方法，并设计了易于理解的提示。基于我们的测试用例生成方法，我们提出了一种从候选列表中选择正确 SQL 查询的重新排序方法。给定候选列表后，我们的方法可以生成测试用例，并根据这些测试用例的通过率和生成概率对候选列表重新排序。在 Spider 验证数据集上的实验结果表明，应用我们的重排序方法后，一些最先进模型的性能可以提高 3.6%。

9.Understanding LLMs: A Comprehensive Overview from Training to Inference

标题:了解 LLM：从训练到推理的全面概述

author:Yiheng Liu, Hao He, Tianle Han, Xu Zhang, Mengyuan Liu, Jiaming Tian, Yutong Zhang, Jiaqi Wang, Xiaohui Gao, Tianyang Zhong, Yi Pan, Shaochen Xu, Zihao Wu, Zhengliang Liu, Xin Zhang, Shu Zhang, Xintao Hu, Tuo Zhang, Ning Qiang, Tianming Liu, Bao Ge

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02038v2

摘要：
随着 ChatGPT 的推出，用于处理下游任务的大型语言模型（LLM）的使用率大幅提高。在这种情况下，人们越来越关注具有成本效益的训练和部署。LLM 的低成本培训和部署是未来的发展趋势。本文回顾了与这一新兴趋势相适应的大型语言模型训练技术和推理部署技术的发展。关于训练的讨论涉及多个方面，包括数据预处理、训练架构、预训练任务、并行训练以及与模型微调相关的内容。在推理方面，论文涉及模型压缩、并行计算、内存调度和结构优化等主题。论文还探讨了 LLM 的使用情况，并对其未来发展提出了见解。

10.Text2MDT: Extracting Medical Decision Trees from Medical Texts

标题:Text2MDT：从医学文本中提取医学决策树

author:Wei Zhu, Wenfeng Li, Xing Tian, Pengfei Wang, Xiaoling Wang, Jin Chen, Yuanbin Wu, Yuan Ni, Guotong Xie

date Time:2024-01-04

paper pdf:http://arxiv.org/pdf/2401.02034v1

摘要：
医疗决策过程的知识可以建模为医疗决策树（MDT），这对于建立临床决策支持系统至关重要。然而，目前的 MDT 构建方法严重依赖费时费力的人工标注。在这项工作中，我们提出了一项新任务–Text2MDT，探索从医学指南和教科书等医学文本中自动提取 MDT。我们将 MDT 的形式规范化，并在医学专家的参与下创建了一个有注释的中文文本到 MDT 数据集。我们针对文本到 MDT 任务研究了两种不同的方法：(a) 端到端框架，该框架仅依靠 GPT 式大语言模型（LLM）指令调整来生成所有节点信息和树结构。(b) 管道框架，将 Text2MDT 任务分解为三个子任务。在我们的 Text2MDT 数据集上进行的实验表明(a) 基于 LLM（7B 参数或更大）的端到端方法显示出良好的效果，并成功超越了管道方法。(b) 思维链（COT）提示方法（\cite{Wei2022ChainOT}）可以提高微调 LLMs 在 Text2MDT 测试集上的性能。© 基于编码器预训练模型的轻量级流水线方法的性能可与模型复杂度小两个量级的 LLM 相媲美。我们的 Text2MDT 数据集开源于 \url{https://tianchi.aliyun.com/dataset/95414}，源代码开源于 \url{https://github.com/michael-wzhu/text2dt}。

11.Can AI Be as Creative as Humans?

标题:人工智能能像人类一样有创造力吗？

author:Haonan Wang, James Zou, Michael Mozer, Anirudh Goyal, Alex Lamb, Linjun Zhang, Weijie J Su, Zhun Deng, Michael Qizhe Xie, Hannah Brown, Kenji Kawaguchi

date Time:2024-01-03

paper pdf:http://arxiv.org/pdf/2401.01623v4

摘要：
创造力是社会进步和创新的基石。随着先进的生成式人工智能模型的兴起，这些模型能够完成曾经只属于人类创造力的任务，因此研究人工智能的创造潜力对于其负责任的发展和应用来说势在必行。在本文中，我们从理论上证明了人工智能可以像人类一样具有创造力，前提是它能正确地适应人类创造者生成的数据。因此，关于人工智能创造力的争论被简化为其是否有能力适应足够数量的数据的问题。为了得出这一结论，本文首先引入了一个名为 "相对创造力 "的新概念，以解决定义创造力的复杂性问题。我们并不试图对创造力进行普遍定义，而是将重点转移到人工智能是否能与假想人类的创造能力相匹配。方法论上的转变带来了对人工智能创造力的统计量化评估，即 “统计创造力”（Statistical Creativity）。这一概念将人工智能的创造能力与特定人类群体的创造能力进行统计比较，有助于从理论上探索人工智能的创造潜力。我们的分析表明，通过对大量条件数据进行拟合，而不将生成条件边缘化，人工智能可以作为一个假想的新创造者出现。这种创造者拥有与人类创造者同等的创造能力。在理论研究成果的基础上，我们讨论了及时条件自回归模型中的应用，为评估大型语言模型（LLM）等人工智能生成模型的创造能力提供了一种实用方法。此外，这项研究还提供了一个可操作的培训指南，将创造力的理论量化与实际模型培训结合起来。

12.LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning

标题:LLM Maybe LongLM：无需调整即可自扩展 LLM 上下文窗口

author:Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu, Chia-Yuan Chang, Huiyuan Chen, Xia Hu

date Time:2024-01-02

paper pdf:http://arxiv.org/pdf/2401.01325v2

摘要：
众所周知，LLM 不能很好地泛化到长度大于训练序列长度的长上下文。这给在推理过程中使用 LLMs 处理长输入序列带来了挑战。在这项工作中，我们认为 LLM 本身具有处理长上下文的内在能力，无需微调。为了实现这一目标，我们提出了 “自我扩展”（SelfExtend）方案，通过构建两级注意力信息来扩展 LLM 的上下文窗口：分组注意力和邻近注意力。分组注意力捕捉的是相距较远的标记之间的依赖关系，而邻居注意力捕捉的是指定范围内相邻标记之间的依赖关系。这两级注意力是在推理过程中根据原始模型的自我注意力机制计算出来的。只需对代码稍作修改，我们的 SelfExtend 就能毫不费力地扩展现有 LLM 的上下文窗口，而无需进行任何微调。我们在多个基准上进行了综合实验，结果表明我们的 SelfExtend 可以有效地扩展现有 LLM 的上下文窗口长度。代码见 \url{https://github.com/datamllab/LongLM}。

13.A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

标题:大型语言模型中减少幻觉技术的全面调查

author:S. M Towhidul Islam Tonmoy, S M Mehedi Zaman, Vinija Jain, Anku Rani, Vipula Rawte, Aman Chadha, Amitava Das

date Time:2024-01-02

paper pdf:http://arxiv.org/pdf/2401.01313v3

摘要：
随着大型语言模型（LLMs）在编写类人文本方面的能力不断提高，一个关键的挑战依然存在，那就是它们容易产生幻觉，生成看似真实但毫无根据的内容。可以说，幻觉问题是将这些功能强大的 LLM 安全地部署到影响人们生活的实际生产系统中的最大障碍。要在实际环境中广泛采用 LLM，在很大程度上有赖于解决和减轻幻觉问题。与专注于有限任务的传统人工智能系统不同，LLM 在训练过程中接触了大量在线文本数据。虽然这使它们能够表现出令人印象深刻的语言流畅性，但这也意味着它们能够从训练数据的偏差中推断信息，误解模棱两可的提示，或修改信息使其与输入信息表面一致。当我们依赖语言生成能力进行敏感应用（如总结医疗记录、财务分析报告等）时，这种情况就会变得非常令人担忧。本文全面介绍了为减少 LLM 中的幻觉而开发的 32 种技术。其中著名的有检索增强生成（Lewis 等人，2021 年）、知识检索（Varshney 等人，2023 年）、CoNLI（Lei 等人，2023 年）和 CoVe（Dhuliawala 等人，2023 年）。此外，我们还引入了一个详细的分类法，根据数据集利用率、常见任务、反馈机制和检索器类型等各种参数对这些方法进行分类。这种分类有助于区分专为解决 LLM 中的幻觉问题而设计的各种方法。此外，我们还分析了这些技术所面临的挑战和固有的局限性，为今后研究解决 LLM 领域中的幻觉和相关现象奠定了坚实的基础。

14.Fine-tuning and Utilization Methods of Domain-specific LLMs

标题:特定领域 LLM 的微调和利用方法

author:Cheonsu Jeong

date Time:2024-01-01

paper pdf:http://arxiv.org/pdf/2401.02981v2

摘要：
最近发布的预训练大型语言模型（LLMs）获得了相当大的关注，但有关微调和使用特定领域 LLMs 的研究仍然很少。本研究探讨了微调和利用特定领域 LLM 的方法，重点介绍了 LLM 的发展趋势、基础模型和特定领域预训练方法。本研究以金融领域为重点，详细介绍了数据集选择、预处理、模型选择以及对金融领域 LLM 微调至关重要的注意事项。针对金融数据的独特性，该研究探讨了特定领域词汇表的构建以及安全和监管合规方面的注意事项。在 LLM 微调的实际应用中，研究概述了在金融领域生成特定领域 LLM 的程序和实施。本研究举例说明了各种金融案例，包括股票价格预测、金融新闻情感分析、自动文档处理、研究、信息提取和客户服务提升。研究探讨了 LLM 在金融领域的潜力，指出了局限性，并提出了改进方向，为未来研究提供了宝贵的见解。最终，它推动了商业领域自然语言处理技术的发展，建议各行业在金融服务中积极利用 LLM。