2024年7月29日Arxiv语言模型相关论文

最新推荐文章于 2025-01-10 14:48:37 发布

数智笔记

最新推荐文章于 2025-01-10 14:48:37 发布

阅读量871

点赞数 3

分类专栏：论文速递文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/wjjc1017/article/details/140775194

版权

论文速递专栏收录该内容

118 篇文章

订阅专栏

在将差分隐私应用于文本时，粒度是至关重要的：神经机器翻译的研究。

原标题: Granularity is crucial when applying differential privacy to text: An investigation for neural machine translation

作者: Doan Nam Long Vu, Timour Igamberdiev, Ivan Habernal

机构: 德国达姆施塔特工业大学认为人类语言技术可信数据科学与安全研究中心鲁尔大学博鲁姆分校

摘要: 通过使用DP-SGD算法应用差分隐私（DP）来保护训练过程中的个体数据点在自然语言处理（NLP）领域越来越受欢迎。然而，DP应用的粒度选择经常被忽视。例如，神经机器翻译（NMT）通常在句子级别的粒度上操作。从DP的角度来看，这种设置假设每个句子属于单个个体，并且训练数据集中的任意两个句子是独立的。然而，在许多现实世界的NMT数据集中，比如包含对话的数据集，这种假设是不成立的。为了正确应用DP，我们必须从句子转移到整个文档。在本文中，我们研究了句子级别和文档级别的NMT，分析了两种情况下隐私/效用的权衡，并评估了在隐私粒度选择不当时泄露个人可识别信息（PII）的风险。我们的研究结果表明，文档级别的NMT系统更抵抗成员推断攻击，强调了在处理DP时使用适当粒度的重要性。

论文链接: https://arxiv.org/abs/2407.18789

提示的力量：使用大语言模型评估和减轻机器翻译中的性别偏见

原标题: The power of Prompts: Evaluating and Mitigating Gender Bias in MT with LLMs

作者: Aleix Sant, Carlos Escolano, Audrey Mash, Francesca De Luca Fornaciari, Maite Melero

机构: 巴塞罗那超级计算中心 (BSC)

摘要: 本文通过大语言模型（LLMs）的视角研究了机器翻译中的性别偏见。我们使用了四个广泛使用的测试集来对比各种基础LLMs的翻译质量和性别偏见，与英语到加泰罗尼亚语（En $\rightarrow$ Ca）和英语到西班牙语（En $\rightarrow$ Es）翻译方向的最先进神经机器翻译（NMT）模型进行了比较。我们的研究结果显示，所有模型都存在普遍的性别偏见，基础LLMs相对于NMT模型表现出更高程度的偏见。为了解决这种偏见，我们探讨了应用于经过指导调整的LLM的提示工程技术。我们确定了一种提示结构，与更直接的提示相比，可以显著减少WinoMT评估数据集上的性别偏见高达12%。这些结果显著减少了LLMs和传统NMT系统之间的性别偏见准确性差距。

论文链接: https://arxiv.org/abs/2407.18786

通向通用攻击性语言识别

原标题: Towards Generalized Offensive Language Identification

作者: Alphaeus Dmonte, Tejas Arya, Tharindu Ranasinghe, Marcos Zampieri

机构: 乔治梅森大学罗切斯特理工学院兰开斯特大学

摘要: 互联网上存在大量的冒犯性内容，包括仇恨言论和网络欺凌，这是一个全球性的普遍问题。因此，这引起了机器学习（ML）和自然语言处理（NLP）社区的重视。因此，已经开发了许多系统来自动识别潜在有害内容并减轻其影响。这些系统可以采用两种方法：（1）使用公开可用的模型和应用端点，包括提示大语言模型（LLMs）；（2）对数据集进行注释并在其上训练ML模型。然而，这两种方法都缺乏对它们的泛化能力的理解。此外，这些系统的适用性在跨领域和实际环境中经常受到质疑。本文通过实证方法评估了冒犯性语言检测模型和数据集在一个新的广义基准上的泛化能力。我们回答了三个关于泛化能力的研究问题。我们的研究结果将有助于创建健壮的现实世界冒犯性语言检测系统。

论文链接: https://arxiv.org/abs/2407.18738

朝着大语言模型的有效和高效持续预训练

原标题: Towards Effective and Efficient Continual Pre-training of Large Language Models

作者: Jie Chen, Zhipeng Chen, Jiapeng Wang, Kun Zhou, Yutao Zhu, Jinhao Jiang, Yingqian Min, Wayne Xin Zhao, Zhicheng Dou, Jiaxin Mao, Yankai Lin, Ruihua Song, Jun Xu, Xu Chen, Rui Yan, Zhewei Wei, Di Hu, Wenbing Huang, Ji-Rong Wen

机构: 中国人民大学YuLan团队

摘要: 持续预训练（CPT）已成为使语言模型适应特定领域或任务的重要方法。为了使CPT方法更具可追踪性，本文提出了一个技术报告，用于持续预训练Llama-3（8B），这显著增强了骨干模型的中文语言能力和科学推理能力。为了增强新的能力同时保留原始能力，我们通过利用现有数据集和合成高质量数据集设计了特定的数据混合和课程策略。具体而言，我们基于相关网页合成跨学科科学问题和答案（QA）对，随后将这些合成数据纳入以提高Llama-3的科学推理能力。我们将经过CPT后的模型称为Llama-3-SynE（合成数据增强Llama-3）。我们还展示了对一个相对较小的模型TinyLlama进行调整实验，并利用得出的发现来训练骨干模型。在多个评估基准上进行的大量实验表明，我们的方法可以大幅提高骨干模型的性能，包括一般能力（在C-Eval上+8.81，在CMMLU上+6.31）和科学推理能力（在MATH上+12.00，在SciEval上+4.13），而不损害原始容量。我们的模型、数据和代码可在此https网址上获得。

论文链接: https://arxiv.org/abs/2407.18743

Github: https://github.com/RUC-GSAI/Llama-3-SynE

知识图谱结构作为提示：提升小语言模型在基于知识的因果发现方面的能力

原标题: Knowledge Graph Structure as Prompt: Improving Small Language Models Capabilities for Knowledge-based Causal Discovery

作者: Yuni Susanti, Michael Färber

机构: 富士通有限公司德累斯顿工业大学

摘要: 因果发现旨在基于观测数据估计变量之间的因果结构。大语言模型（LLMs）通过对变量关联的元数据进行推理，而不是它们的实际数据数值，提供了一种全新的视角来解决因果发现问题，这种方法被称为基于知识的因果发现。在本文中，我们研究了具有基于提示学习的小语言模型（SLMs，定义为具有少于10亿参数的LLMs）用于基于知识的因果发现的能力。具体来说，我们提出了KG Structure as Prompt，这是一种将知识图中的结构信息（如共同邻居节点和元路径）整合到基于提示学习中的新方法，以增强SLMs的能力。在少样本设置下对三种生物医学和开放域数据集的实验结果表明，我们的方法的有效性超过了大多数基线甚至是在完整数据集上训练的传统微调方法。我们的研究结果进一步突显了SLMs的强大能力：结合知识图和基于提示的学习，SLMs展现出超越具有更多参数的LLMs的潜力。我们的代码和数据集可在GitHub上获得。

论文链接: https://arxiv.org/abs/2407.18752

创建一个声音和文本对齐的语料库：莎士比亚和弥尔顿的多模态语料库

原标题: Creating an Aligned Corpus of Sound and Text: The Multimodal Corpus of Shakespeare and Milton

作者: Manex Agirrezabal

机构: 哥本哈根大学挪威语言技术中心（CST）北欧研究与语言学系（NorS）

摘要: 在这项工作中，我们提供了一份由威廉·莎士比亚和约翰·弥尔顿的诗歌组成的语料库，这些诗歌已经通过公共领域的朗读进行了丰富。我们已经将所有的诗句与它们各自的音频片段进行了对齐，包括诗句、单词、音节和音素级别，并且我们已经包含了它们的格律。我们为这些诗歌制作了一个基本的可视化平台，并最后推测了可能的未来方向。

论文链接: https://arxiv.org/abs/2407.18730

偏见检测框架：对欧洲语言的词嵌入和语言模型中的偏见进行检测

原标题: The BIAS Detection Framework: Bias Detection in Word Embeddings and Language Models for European Languages

作者: Alexandre Puttick, Leander Rankwiler, Catherine Ikae, Mascha Kurpicz-Briki

机构: 伯尔尼应用科学大学瑞士州立教育、研究和创新秘书处

摘要: 项目 BIAS：减轻人工智能在劳动力市场中的多样性偏见是一项为期四年的项目，由欧洲委员会资助，并得到瑞士国家教育、研究和创新秘书处（SERI）的支持。作为该项目的一部分，正在开发新颖的偏见检测方法，以识别欧洲语言中语言模型和词嵌入中的社会偏见，特别关注语言和地理特点。本技术报告描述了BIAS检测框架的整体架构和组件。本技术报告中描述的代码可供使用，并将随着BIAS项目即将发布的结果而持续更新和扩展。关于不同语言的数据集的详细信息在相应的科学论文中有描述。

论文链接: https://arxiv.org/abs/2407.18689

自适应对比搜索：基于不确定性引导的开放式文本生成解码

原标题: Adaptive Contrastive Search: Uncertainty-Guided Decoding for Open-Ended Text Generation

作者: Esteban Garces Arias, Julian Rodemann, Meimingwei Li, Christian Heumann, Matthias Aßenmacher

机构: 慕尼黑大学LMU、慕尼黑机器学习中心MCML

摘要: 从大型语言模型的输出分布中解码以生成高质量文本是语言建模中的一个复杂挑战。为了解决这个问题，提出了各种方法，如束搜索、温度抽样、 $k -$ 抽样、核心 $p -$ 抽样、典型解码、对比解码和对比搜索，旨在提高连贯性、多样性以及与人类生成的文本相似度。在本研究中，我们介绍了自适应对比搜索，这是一种新颖的解码策略，通过在每一代步骤中引入自适应退化惩罚，根据模型在每一代步骤中的估计不确定性来引导。这种策略旨在增强语言建模过程的创造力和多样性，同时产生连贯且高质量的生成文本输出。我们的研究结果表明，在不同的模型架构和数据集上，我们的方法在文本生成任务中在两个方面都有性能提升，强调了我们方法的有效性。我们的代码库、数据集和模型均已公开。

论文链接: https://arxiv.org/abs/2407.18698

每个部分都很重要：基于多模态大语言模型的科学图像完整性验证

原标题: Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models

作者: Xiang Shi, Jiawei Liu, Yinpeng Liu, Qikai Cheng, Wei Lu

机构: 武汉大学

摘要: 这篇论文解决了科学图表解释中的一个关键问题：文本和图表的细粒度对齐。它超越了以往主要处理直观、数据驱动的可视化，如条形图和饼图，并且仅通过标题和分类提供对图表的基本理解的先前研究。我们引入了一个新颖的任务，即图表完整性验证，旨在评估技术在将文本知识与科学图表中的视觉元素对齐方面的准确性。为了支持这一点，我们开发了一种半自动化方法来构建一个专门为这一任务设计的大规模数据集Figure-seg。此外，我们提出了一个创新性框架，即Every Part Matters (EPM)，它利用多模态大语言模型（MLLMs），不仅逐步改进文本与图表完整性的对齐和验证，还通过类比推理增强完整性。我们的综合实验表明，这些创新显著改进了现有方法，使得对复杂科学图表的分析更加精确和全面。这一进展不仅增进了我们对多模态技术的理解，还激发了跨领域对复杂视觉数据准确解释的进一步研究和实际应用。

论文链接: https://arxiv.org/abs/2407.18626

ChatSchema：基于大型多模态模型的提取结构化信息的管道

原标题: ChatSchema: A pipeline of extracting structured information with Large Multimodal Models based on schema

作者: Fei Wang, Yuewen Zheng, Qin Li, Jingyi Wu, Pengfei Li, Luxia Zhang

机构: 北京大学中国国家卫生数据科学研究所

摘要: 目标：本研究介绍了ChatSchema，这是一种有效的方法，利用大型多模型（LMMs）和基于模式的光学字符识别（OCR）相结合，从医学论文报告的非结构化数据中提取和结构化信息。通过集成预定义的模式，我们旨在使LMMs能够根据模式规范直接提取和标准化信息，从而促进进一步的数据录入。方法：我们的方法包括一个两阶段过程，包括用于对报告场景进行分类和提取以及结构化信息的分类和提取。我们建立并注释了一个数据集，以验证ChatSchema的有效性，并使用精度、召回率、F1分数和准确性指标评估关键提取。基于关键提取，我们进一步评估了值的提取。我们对两个LMMs进行消融研究，以说明使用不同输入模态和方法提高结构化信息提取的改进。结果：我们分析了北京大学第一医院的100份医学报告，并建立了一个包含2,945个键-值对的基本数据集。我们使用GPT-4o和Gemini 1.5 Pro评估了ChatSchema，并发现GPT-4o的整体性能更高。结果如下：对于关键提取的结果，关键精度为98.6％，关键召回率为98.5％，关键F1分数为98.6％。基于正确关键提取的值提取结果，整体准确性为97.2％，精度为95.8％，召回率为95.8％，F1分数为95.8％。消融研究表明，与基准相比，ChatSchema实现了显着更高的整体准确性和关键-值提取的整体F1分数，分别增加了26.9％的整体准确性和27.4％的整体F1分数。

论文链接: https://arxiv.org/abs/2407.18716

基于动态语言组的MoE：提高代码切换语音识别的效率和灵活性

原标题: Dynamic Language Group-Based MoE: Enhancing Efficiency and Flexibility for Code-Switching Speech Recognition

作者: Hukai Huang, Shenghui Lu, Yahui Shan, He Qu, Wenhao Guan, Qingyang Hong, Lin Li

机构: 厦门大学快手科技

摘要: 混合专家（MoE）方法非常适合应对多语言和混合代码（CS）挑战，因为它具有多专家架构。这项工作介绍了为双语和CS场景优化的DLG-MoE。我们的新颖的基于动态语言组的MoE层具有一个带有共享权重的语言路由器，用于显式语言建模，而语言组内独立的无监督路由器处理超出语言范围的属性。这种结构不仅增强了专家扩展能力，还支持动态的top-k训练，允许在各种top-k值之间灵活推理，并提高整体性能。该模型无需预训练，支持流式识别，实现了与其他方法相比无与伦比的灵活性，取得了最先进的结果。代码将被发布。

论文链接: https://arxiv.org/abs/2407.18581

从嘈杂数据中学习稳健的命名实体识别器：检索增强

原标题: Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation

作者: Chaoyi Ai, Yong Jiang, Shen Huang, Pengjun Xie, Kewei Tu

机构: 上海科技大学阿里巴巴集团没有其他名称

摘要: 命名实体识别（NER）模型通常在处理嘈杂输入时遇到困难，比如拼写错误或由光学字符识别过程生成的错误，并且学习一个稳健的NER模型具有挑战性。现有的稳健NER模型利用嘈杂文本及其对应的黄金文本进行训练，但在许多现实世界的应用中，黄金文本是不可用的。在本文中，我们考虑一个更加现实的情境，即只有嘈杂文本及其NER标签是可用的。我们建议从知识语料库中检索嘈杂文本的相关文本，并将其用于增强原始嘈杂输入的表示。我们设计了三种检索方法：基于词汇相似性的稀疏检索，基于语义相似性的密集检索，以及基于任务特定文本的自检索。在检索相关文本后，我们将检索到的文本与原始嘈杂文本连接，并使用Transformer网络对它们进行编码，利用自注意力机制来增强使用检索文本的嘈杂文本的上下文标记表示。我们进一步采用了一个多视图训练框架，可以在推断过程中改善稳健NER而无需检索文本。实验证明，我们的检索增强模型在各种嘈杂NER设置中取得了显著的改进。

论文链接: https://arxiv.org/abs/2407.18562

朝向多维度评估框架的共情对话系统

原标题: Towards a Multidimensional Evaluation Framework for Empathetic Conversational Systems

作者: Aravind Sesagiri Raamkumar, Siyuan Brandon Loh

机构: 新加坡科学技术研究局(A*STAR)

摘要: 共情对话系统（ECS）旨在根据用户的情绪和情感以共情方式做出回应，而不受应用领域的限制。目前，ECS研究评估方法主要局限于离线评估实验，主要用于与黄金标准比较和基准测试，以及用户评估研究，用于收集关于特定构建的人类评分。这些方法不足以衡量对话中共情的实际质量。在本文中，我们提出了一个多维共情评估框架，包括三种新方法，用于在结构层面使用三个与共情相关的维度、在行为层面使用共情行为类型、以及在整体层面使用共情词汇，从而加强评估过程。实验使用最先进的ECS模型和大语言模型（LLMs）进行，以展示该框架的实用性。

论文链接: https://arxiv.org/abs/2407.18538

使用大语言模型从自然语言文本中提取过程模型信息的通用提示策略

原标题: A Universal Prompting Strategy for Extracting Process Model Information from Natural Language Text using Large Language Models

作者: Julian Neuberger, Lars Ackermann, Han van der Aa, Stefan Jablonski

机构: 拜罗伊特大学维也纳大学

摘要: 在过去的十年中，人们致力于从文本过程描述中提取信息的广泛研究。尽管自然语言处理（NLP）领域取得了显著进展，但在业务流程管理领域，信息提取仍然主要依赖于基于规则的系统和机器学习方法。数据稀缺迄今为止阻碍了深度学习技术的成功应用。然而，生成式大语言模型（LLMs）的快速进展使得在不需要大量数据的情况下解决许多NLP任务成为可能。因此，我们系统地研究了LLMs从文本过程描述中提取信息的潜力，旨在检测诸如活动和参与者以及它们之间关系的过程元素。通过启发式算法，我们展示了提取信息用于过程模型生成的适用性。基于一种新颖的提示策略，我们表明LLMs能够在三个不同数据集上的 $F_1$ 分数上实现高达8%的绝对性能改进，超越了最先进的机器学习方法。我们在八种不同的LLMs上评估了我们的提示策略，表明它具有普遍适用性，同时分析了某些提示部分对提取质量的影响。例文数量、定义的具体性和格式说明的严谨性被确定为提高提取信息准确性的关键因素。我们的代码、提示和数据是公开可用的。

论文链接: https://arxiv.org/abs/2407.18540

更大就一定更好吗？评估和提示大型语言模型在非生成性医学任务中的表现

原标题: Is larger always better? Evaluating and prompting large language models for non-generative medical tasks

作者: Yinghao Zhu, Junyi Gao, Zixiang Wang, Weibin Liao, Xiaochen Zheng, Lifang Liang, Yasha Wang, Chengwei Pan, Ewen M. Harrison, Liantao Ma

机构: 北京航空航天大学爱丁堡大学北京大学瑞士苏黎世联邦理工学院

摘要: 在医学领域中，大语言模型（LLMs）的使用正在增长，但它们处理结构化电子健康记录（EHR）数据和非结构化临床笔记的能力尚未得到深入研究。这项研究对各种模型进行了基准测试，包括基于GPT的LLMs、基于BERT的模型以及传统临床预测模型，用于非生成性医学任务，利用知名数据集。我们评估了14种语言模型（9种基于GPT和5种基于BERT的），以及7种传统预测模型，使用MIMIC数据集（ICU患者记录）和TJH数据集（早期COVID-19 EHR数据），关注诸如死亡率和再入院率预测、疾病层次结构重建以及生物医学句子匹配等任务，比较了零样本和微调性能。结果表明，当使用设计良好的提示策略时，LLMs在结构化EHR数据上表现出强大的零样本预测能力，往往超过传统模型。然而，对于非结构化医学文本，LLMs并未超越表现优异的微调BERT模型，后者在监督和无监督任务中均表现出色。因此，虽然LLMs在结构化数据上的零样本学习效果显著，但微调的BERT模型更适用于非结构化文本，强调了根据具体任务需求和数据特征选择模型的重要性，以优化自然语言处理技术在医疗保健领域的应用。

论文链接: https://arxiv.org/abs/2407.18525

早期语音习得中感知空间的形成：跨语言建模方法

原标题: The formation of perceptual space in early phonetic acquisition: a cross-linguistic modeling approach

作者: Frank Lihui Tan, Youngah Do

机构: 香港大学

摘要: 这项研究通过在两个关键方面推进以前的研究，探讨了学习者如何在早期语音习得中组织知觉空间。首先，它考察了学习到的隐藏表示的形状以及其对语音类别进行分类的能力。其次，它探讨了在语音习得中，训练模型对无上下文声学信息的影响，而不涉及上下文线索，紧密模拟早期语言学习阶段。采用跨语言建模方法，自编码器模型在英语和普通话上进行训练，并在本族语和非本族语条件下进行评估，遵循婴儿语言知觉研究中使用的实验条件。结果表明，对无上下文声学信息进行无监督自下而上训练，导致英语和普通话在本族语和非本族语条件下对知觉空间的学习表示具有可比性，类似婴儿普遍听力早期阶段。这些发现深入了解了早期语音习得中知觉空间的组织，并有助于我们理解语音类别的形成和表示。

论文链接: https://arxiv.org/abs/2407.18501

使用大语言模型和目标导向 ASP 构建的可靠常识推理社交机器人

原标题: A Reliable Common-Sense Reasoning Socialbot Built Using LLMs and Goal-Directed ASP

作者: Yankai Zeng, Abhiramon Rajashekharan, Kinjal Basu, Huaduo Wang, Joaquín Arias, Gopal Gupta

机构: 德克萨斯大学达拉斯分校 IBM研究 CETINIA, Universidad Ray Juan Carlos

摘要: 大语言模型（LLMs）的发展，比如GPT，已经实现了几个社交机器人的构建，比如ChatGPT，因其模拟人类对话的能力而受到了很多关注。然而，这种对话并不受目标引导，很难控制。此外，由于LLMs更多地依赖于模式识别而不是演绎推理，它们可能会给出令人困惑的答案，并且难以将多个主题整合为连贯的回应。这些限制通常会导致LLM偏离主题以保持对话的趣味性。我们提出了AutoCompanion，一个社交机器人，它使用LLM模型将自然语言转换为谓词（反之亦然），并基于基于答案集编程（ASP）的常诉推理来与人类进行社交对话。具体而言，我们依赖于s(CASP)，作为后端的ASP的目标导向实现。本文介绍了框架设计以及LLM如何用于解析用户消息并从s(CASP)引擎输出生成响应。为了验证我们的提议，我们描述了（真实的）对话，其中聊天机器人的目标是通过谈论电影和书籍来让用户感到愉快，而s(CASP)确保（i）答案的正确性，（ii）在对话过程中的连贯性（和精确性），它会动态调节以实现其特定目的，以及（iii）不偏离主题。

论文链接: https://arxiv.org/abs/2407.18498

通过结合先进的自然语言处理技术、基于Transformer的网络和语言学方法，实现对文本和多轮对话中人类情感和共情的更准确预测。

原标题: Towards More Accurate Prediction of Human Empathy and Emotion in Text and Multi-turn Conversations by Combining Advanced NLP, Transformers-based Networks, and Linguistic Methodologies

作者: Manisha Singh, Divy Sharma, Alonso Ma, Nora Goldfine

机构: 华盛顿大学

摘要: 基于WASSA 2022 共享任务关于共情检测和情绪分类，我们预测文章中展示的共情关注和个人困扰的水平。在这个项目的第一阶段，我们使用句子级嵌入作为特征实现了一个前馈神经网络。我们尝试了四种不同的嵌入模型来生成神经网络的输入。随后的阶段建立在之前的工作基础上，我们实施了三种类型的修订。第一次修订侧重于模型架构和训练方法的增强。第二次修订侧重于使用分层数据抽样来处理类别不平衡。第三次修订侧重于利用词汇资源，我们应用了四种不同的资源来丰富与数据集相关的特征。在项目的最后阶段，我们使用多模型集成创建了用于修订主要任务性能的最终端到端系统。此外，在最后阶段的一部分，这些方法已经被调整用于WASSA 2023 共享任务，该任务关于互动中的共情情感和个性检测，预测了双向文本对话中的共情关注、情绪极性和情绪强度。

论文链接: https://arxiv.org/abs/2407.18496

基于角色特定引导的大型语言模型，用于眼科咨询，基于风格区分。

原标题: A Role-specific Guided Large Language Model for Ophthalmic Consultation Based on Stylistic Differentiation

作者: Laiyi Fu, Binbin Fan, Hongkai Du, Yanxiang Feng, Chunhua Li, Huping Song

摘要: 眼科咨询对于诊断、治疗和预防眼部疾病至关重要。然而，对眼科医生的需求增长超过了其供给。通过利用大型预训练语言模型，我们可以为特定情景设计有效的对话，帮助进行咨询。传统的针对问答任务的微调策略由于模型规模不断增加，通常忽略了咨询过程中患者和医生的角色功能，因此变得不切实际。在本文中，我们提出了EyeDoctor，一种眼科医学问诊大型语言模型，通过医患角色感知引导和增强的知识库与外部疾病信息，提高了准确性。实验结果显示，EyeDoctor在眼科咨询中实现了更高的问答精度。值得注意的是，与第二好的模型ChatGPT相比，EyeDoctor在多轮数据集上展现出了Rouge-1分数提高了7.25%，F1分数提高了10.16%，突显了医患角色区分和动态知识库扩展对智能医学咨询的重要性。EyeDoc还作为一个免费的基于网络的服务，其源代码可在此网址获得。

论文链接: https://arxiv.org/abs/2407.18483

Github: https://github.com/sperfu/EyeDoc

使用增强常识的语言模型进行多轮对话响应选择

原标题: Multi-turn Response Selection with Commonsense-enhanced Language Models

作者: Yuandong Wang, Xuhui Ren, Tong Chen, Yuxiao Dong, Nguyen Quoc Viet Hung, Jie Tang

机构: 清华大学澳大利亚昆士兰大学澳大利亚格里菲斯大学

摘要: 作为先进人工智能的一个分支，对话系统正在蓬勃发展。多轮响应选择是对话系统中的一个通用研究问题。在背景信息和预训练语言模型的辅助下，最先进方法在这一问题上的表现得到了显著提升。然而，现有研究忽视了外部常识知识的重要性。因此，我们设计了一个Siamese网络，其中预训练语言模型与图神经网络（SinLG）相结合。SinLG利用预训练语言模型（PLMs）捕捉上下文和响应候选词之间的关联，并利用图神经网络（GNN）从外部知识图中推理出有用的常识。GNN旨在辅助PLM进行微调，并唤起其相关记忆以获得更好的性能。具体而言，我们首先从外部知识图中提取相关概念作为节点，为每个样本的上下文响应对构建一个子图，其中上下文响应对作为一个超级节点。接下来，通过PLM和GNN为上下文响应对学习两种表示。利用两种表示之间的相似性损失将常识知识从GNN传递给PLM。然后仅使用PLM进行在线推理，以确保效率。最后，我们在两个PERSONA-CHAT数据集的变体上进行了大量实验，证明我们的解决方案不仅可以提高PLM的性能，还可以实现高效推理。

论文链接: https://arxiv.org/abs/2407.18479

构建CORD-19疫苗数据集

原标题: Constructing the CORD-19 Vaccine Dataset

作者: Manisha Singh, Divy Sharma, Alonso Ma, Bridget Tyree, Margaret Mitchell

机构: 华盛顿大学

摘要: 我们引入了新的数据集 ‘CORD-19-Vaccination’，专门为那些研究 COVID-19 疫苗相关研究的科学家提供支持。该数据集从 CORD-19 数据集 [Wang et al., 2020] 中提取，并增加了新的列，包括语言细节、作者人口统计学、关键词以及每篇论文的主题。我们使用 Facebook 的 fastText 模型来识别语言 [Joulin et al., 2016]。为了确定作者人口统计学（作者所属机构、实验室/机构位置以及实验室/机构所在国家列），我们处理了每篇论文的 JSON 文件，然后进一步利用谷歌的搜索 API 来确定国家值。我们使用 ‘Yake’ 从每篇论文的标题、摘要和正文中提取关键词，并使用 LDA（Latent Dirichlet Allocation）算法来添加主题信息 [Campos et al., 2020, 2018a,b]。为了评估数据集，我们展示了一个类似于 CORD-19 Kaggle 挑战中使用的问答任务 [Goldbloom et al., 2022]。为了进一步评估，我们对每篇论文的摘要执行了顺序句子分类，使用了来自 Dernoncourt 等人的模型 [2016]。我们部分手动注释了训练数据集，并使用了预训练的 BERT-PubMed 层。‘CORD-19-Vaccination’ 包含 30k 篇研究论文，对于文本挖掘、信息提取和问题回答等 NLP 研究，特别是针对 COVID-19 疫苗研究领域，具有巨大的价值。

论文链接: https://arxiv.org/abs/2407.18471

在专业领域中基于引导的提示数据增强用于命名实体识别

原标题: Guidance-Based Prompt Data Augmentation in Specialized Domains for Named Entity Recognition

作者: Hyeonseok Kang, Hyein Seo, Jeesu Jung, Sangkeun Jung, Du-Seong Chang, Riwoo Chung

机构: 中南大学韩国共和国 KT公司

摘要: 尽管各个领域拥有丰富而广泛的数据集促进了自然语言处理的进步，但需要专门数据类型的部门仍在努力应对寻找高质量数据的挑战。我们的研究引入了一种新颖的指导数据增强技术，利用抽象的上下文和句子结构生成多样化的句子，同时保持上下文-实体关系，解决数据稀缺挑战。通过促进上下文、句子结构和实体角色之间更紧密的关系，我们的方法增强了数据增强的有效性。因此，通过展示实体相关词汇和整体句子结构的多样化，并同时提高命名实体识别任务的训练性能。

论文链接: https://arxiv.org/abs/2407.18442

语言模型中的公平定义解释

原标题: Fairness Definitions in Language Models Explained

作者: Thang Viet Doan, Zhibo Chu, Zichong Wang, Wenbin Zhang

机构: 佛罗里达国际大学

摘要: 语言模型（LMs）在各种自然语言处理（NLP）任务中展现出了出色的性能。尽管取得了这些进展，LMs 可能会继承和放大与性别、种族等敏感属性相关的社会偏见，从而限制它们在现实应用中的采用。因此，公平性在 LM 中得到了广泛探讨，导致提出了各种公平性概念。然而，在特定背景下（例如，中型 LM 与大型 LM）应用哪种公平性定义尚无明确一致意见，而且理解这些定义之间的区别的复杂性可能会导致混淆，阻碍进一步的进展。为此，本文提出了一项系统调查，澄清了公平性定义在 LM 中的应用。具体而言，我们首先简要介绍 LM 和 LM 中的公平性，然后全面、最新地概述了 LM 中现有的公平性概念，并引入了一种新颖的分类法，根据其基本原则和操作上的区别对这些概念进行分类。我们通过实验进一步阐明了每个定义，展示了它们的实际影响和结果。最后，我们讨论了当前的研究挑战和待解问题，旨在促进创新思路并推动该领域的发展。实现和其他资源可在此 https URL 上公开获取。

论文链接: https://arxiv.org/abs/2407.18454

Github: https://github.com/LavinWong/Fairness-in-Large-Language-Models/tree/main/definitions

Wolf：使用世界总结框架为一切添加标题

原标题: Wolf: Captioning Everything with a World Summarization Framework

作者: Boyi Li, Ligeng Zhu, Ran Tian, Shuhan Tan, Yuxiao Chen, Yao Lu, Yin Cui, Sushant Veer, Max Ehrlich, Jonah Philion, Xinshuo Weng, Fuzhao Xue, Andrew Tao, Ming-Yu Liu, Sanja Fidler, Boris Ivanovic, Trevor Darrell, Jitendra Malik, Song Han, Marco Pavone

机构: 英伟达加州大学伯克利分校麻省理工学院德克萨斯大学奥斯汀分校多伦多大学斯坦福大学

摘要: 我们提出了Wolf，一个用于准确视频字幕生成的WOrLd摘要框架。Wolf是一个自动字幕生成框架，采用专家混合方法，利用视觉语言模型（VLMs）的互补优势。通过同时利用图像和视频模型，我们的框架捕获了不同级别的信息并高效地进行总结。我们的方法可应用于增强视频理解、自动标注和字幕生成。为了评估字幕质量，我们引入了CapScore，一种基于LLM的度量标准，用于评估生成的字幕与基准字幕之间的相似性和质量。我们进一步在三个领域构建了四个人工注释数据集：自动驾驶、一般场景和机器人技术，以促进全面比较。我们展示了Wolf相对于研究界（VILA1.5、CogAgent）和商业解决方案（Gemini-Pro-1.5、GPT-4V）的最新方法在字幕生成性能上的优越表现。例如，在具有挑战性的驾驶视频中，与GPT-4V相比，Wolf在质量上提高了55.6%，在相似性上提高了77.4%的CapScore。最后，我们建立了一个视频字幕生成基准，并引入了一个排行榜，旨在加速视频理解、字幕生成和数据对齐方面的进展。排行榜：这里是链接。

论文链接: https://arxiv.org/abs/2407.18908

Github: https://wolfv0.github.io/leaderboard.html

AppWorld：一个可控的应用程序和人员世界，用于评估交互式编码智能体。

原标题: AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

作者: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian

机构: 石溪大学艾伦人工智能研究所萨尔兰大学

摘要: 解决日常数字任务（例如为家庭订购杂货）的自主代理，不仅必须通过API操作多个应用程序（例如笔记、消息、购物应用程序），还必须根据它们与环境的交互以迭代方式生成具有复杂控制流的丰富代码。然而，现有的工具使用基准不足，因为它们只涵盖需要简单API调用序列的任务。
为了弥补这一差距，我们构建了 $\textbf{AppWorld Engine}$ ，这是一个高质量的执行环境（60K行代码），包含可通过457个API操作的9个日常应用程序，并充满了模拟约100个虚构用户生活的真实数字活动。然后，我们创建了 $\textbf{AppWorld Benchmark}$ （40K行代码），这是一个包含750个自然、多样化且具有挑战性的自主代理任务套件，需要进行丰富和互动式代码生成。它支持基于状态的单元测试的强大编程评估，允许以不同方式完成任务，同时还检查意外更改，即附带损害。最先进的大语言模型，GPT-4o，仅解决了我们约49%的“正常”任务和约30%的“挑战”任务，而其他模型解决的任务至少少了16%。这突显了基准的难度和AppWorld推动交互式编码代理前沿的潜力。项目网站可在 https://appworld.dev/ 上找到。

论文链接: https://arxiv.org/abs/2407.18901

嵌入和聚类您的数据可以改善对比预训练。

原标题: Embedding And Clustering Your Data Can Improve Contrastive Pretraining

作者: Luke Merrick

机构: Snowflake Inc.

摘要: 最近在文本嵌入领域进行的大规模对比预训练研究表明，使用单一来源的小批量数据，而不是混合来源的小批量数据，可以显著提高整体模型准确性。在这项工作中，我们探讨了通过利用预训练文本嵌入模型和经典的k均值聚类算法，将训练数据分层扩展到超出源粒度，通过每个来源内的语义聚类进一步拆分训练数据。在实验中，我们观察到，在MSMARCO段落检索数据集的查询-段落对上预训练基于BERT的文本嵌入模型时，NDCG@10显著增加。此外，我们在概念上将我们的聚类方法与TAS-B方法的TAS（主题感知采样）方面以及ANCE方法的基于最近邻的硬负采样方面联系起来，并讨论这种统一观点如何激发对对比预训练数据组织的未来研究方向。

论文链接: https://arxiv.org/abs/2407.18887

使用音频视频Transformer融合和交叉注意力进行多模态情感识别

原标题: Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

作者: Joe Dhanith P R, Shravan Venkatraman, Vigya Sharma, Santhosh Malarvannan

机构: 维洛尔理工学院印度

摘要: 理解情绪是人类交流的基本要素。整合音频和视频信号相比传统方法（依赖单一数据源，如语音或面部表情）能够更全面地理解情绪状态。尽管多模态情绪识别具有巨大潜力，但在同步、特征提取和融合多样数据源等方面面临着重大挑战。为解决这些问题，本文介绍了一种基于Transformer的新型模型，名为带交叉注意力的音视频Transformer融合（AVT-CA）。AVT-CA模型采用Transformer融合方法，能够有效捕获和同步来自音频和视频输入的相互关联特征，从而解决同步问题。此外，AVT-CA内部的交叉注意力机制能够有选择地从两种模态中提取和强调关键特征，同时丢弃无关特征，解决特征提取和融合方面的挑战。在CMU-MOSEI、RAVDESS和CREMA-D数据集上进行了大量实验分析，证明了所提出模型的有效性。结果强调了AVT-CA在为实际应用开发精确可靠的多模态情绪识别系统中的重要性。

论文链接: https://arxiv.org/abs/2407.18552

通过基于原型的适应提高对未知说话者的运动障碍性言语识别

原标题: Enhancing Dysarthric Speech Recognition for Unseen Speakers via Prototype-Based Adaptation

作者: Shiyao Wang, Shiwan Zhao, Jiaming Zhou, Aobo Kong, Yong Qin

机构: 南开大学

摘要: 因为固有的发言者间变异性，运用DSR模型到新的患有运动障碍的发言者时，会导致性能严重下降，这给Dysarthric speech recognition（DSR）带来了巨大挑战。传统的发言者适应方法通常涉及为每个发言者微调模型，但这种策略成本高昂，对残疾用户来说不便，需要大量数据收集。为解决这一问题，我们引入了一种基于原型的方法，显著改善了对未知运动障碍发言者的DSR性能，无需额外微调。我们的方法采用了一个使用HuBERT训练的特征提取器，生成每个单词的原型，这些原型包含了以前未见过的发言者的特征。这些原型作为分类的基础。此外，我们还结合了监督对比学习来改进特征提取。通过提高表示质量，我们进一步改善了DSR性能，实现了有效的个性化DSR。我们在此https URL上发布了我们的代码。

论文链接: https://arxiv.org/abs/2407.18461

Github: https://github.com/NKU-HLT/PB-DSR

无监督知识探测的聚类规范化

原标题: Cluster-norm for Unsupervised Probing of Knowledge

作者: Walter Laurito, Sharan Maiya, Grégoire Dhimoïla, Owen (Ho Wan)Yeung, Kaarel Hänni

机构: 1. 沃尔特·劳里托，沙兰·迈亚，格雷戈瓦尔·迪莫拉，欧文（何婉）杨，卡雷尔·汉尼 -

摘要: 部署语言模型带来了在生成可靠信息方面的挑战，特别是当这些模型使用人类偏好进行微调时。为了在提取编码知识时避免（潜在的）带偏见的人类标签，已经开发了无监督探测技术，比如对比一致搜索（CCS）（Burns等，2022）。然而，给定数据集中突出但不相关的特征可能会误导这些探测器（Farquhar等，2023）。为了解决这个问题，我们提出了一种集群归一化方法，通过对比对的激活进行聚类和归一化，以减小这些特征的影响，然后再应用无监督探测技术。虽然这种方法并未解决区分一般知识和模拟知识的问题——这是潜在知识引出文献中的一个主要问题（Christiano等，2021）——但它显著提高了无监督探测器在干扰中识别预期知识的能力。

论文链接: https://arxiv.org/abs/2407.18712