2024年5月6日论文中文摘要 Arxiv Computation and Language语言模型相关论文

2024年5月6日Arxiv Computation and Language语言模型相关论文摘要

文章目录

论文1: Vibe-Eval:用于衡量多模态语言模型进展的严格评估套件

原标题: Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models
作者: Piotr Padlewski, Max Bain, Matthew Henderson, Zhongkai Zhu, Nishant Relan, Hai Pham, Donovan Ong, Kaloyan Aleksiev, Aitor Ormazabal, Samuel Phua, Ethan Yeo, Eugenie Lamprecht, Qi Liu, Yuqi Wang, Eric Chen, Deyu Fu, Lei Li, Che Zheng, Cyprien de Masson d’Autume, Dani Yogatama, Mikel Artetxe, Yi Tay
摘要: 我们引入了 Vibe-Eval:一个新的开放基准和框架,用于评估多模态聊天模型。Vibe-Eval 包含 269 个视觉理解提示,其中包括 100 个高难度的提示,并配有专家撰写的标准响应。Vibe-Eval 是开放式和具有挑战性的,具有双重目标:(i) 检查多模态聊天模型在日常任务中的表现,以及 (ii) 严格测试和探索当前前沿模型的能力。值得注意的是,我们的高难度集合包含超过 50% 的问题,所有前沿模型都无法正确回答。我们探讨了在超级挑战性提示上设计、评估和排名模型的细微差别。我们还讨论了人工和自动评估之间的权衡,并表明使用 Reka Core 进行的自动模型评估大致与人类判断相关。我们提供免费的 API 访问权限,用于轻量级评估,并计划对在 Vibe-Eval 自动评分中表现良好的公共模型进行正式的人工评估。我们发布了评估代码和数据,请参见此 https URL。
论文链接: https://arxiv.org/pdf/2405.02287
Github: https://github.com/reka-ai/reka-vibe-eval

论文2: 通过神经架构搜索对预训练语言模型进行结构剪枝

原标题: Structural Pruning of Pre-trained Language Models via Neural Architecture Search
作者: Aaron Klein, Jacek Golebiowski, Xingchen Ma, Valerio Perrone, Cedric Archambeau
摘要: 预训练语言模型(PLM),例如BERT或RoBERTa,在针对标注数据进行微调时,标志着自然语言理解任务的最新水平。然而,它们的大尺寸给在实际应用中部署它们带来了挑战,因为需要大量的GPU内存和高推理延迟。本文探索了神经架构搜索(NAS)用于结构化剪枝,以找到微调网络的子部分,在效率(例如模型大小或延迟)和泛化性能之间达到最佳平衡。我们还展示了如何在这种情况下利用最近开发的两阶段权重共享NAS方法来加速搜索过程。与固定阈值的传统剪枝方法不同,我们提出采用多目标方法来识别子网络的帕累托最优集合,从而实现更灵活和自动化的压缩过程。
论文链接: https://arxiv.org/pdf/2405.02267

论文3: REASONS:使用公共和专有LLMs进行科学句子检索和自动引文的基准。

原标题: REASONS: A benchmark for REtrieval and Automated citationS Of scieNtific Sentences using Public and Proprietary LLMs
作者: Deepa Tilwani, Yash Saxena, Ali Mohammadi, Edward Raff, Amit Sheth, Srinivasan Parthasarathy, Manas Gaur
摘要: 在情报分析、网络安全、新闻机构和教育人员中,对文档或报告中句子进行自动生成引文是至关重要的。在这项研究中,我们调查了大语言模型(LLMs)是否能够根据两种形式的句子查询生成引用:(a)直接查询,要求LLMs提供给定研究文章的作者姓名,以及(b)间接查询,当给出来自不同文章的句子时,要求LLMs提供提到文章的标题。为了展示LLM在这项任务中的表现,我们引入了一个名为REASONS的大型数据集,其中包括arXiv上科学研究的12个最受欢迎领域的摘要。从约2万篇研究文章中,我们对公共和专有LLMs做出以下推论:(a)最先进的,通常被称为类人GPT-4和GPT-3.5,遭受高通过率(PP)以最小化幻觉率(HR)。当使用此http URL(7B)进行测试时,它们出乎意料地出现了更多错误;(b)增加相关元数据降低了PP,并给出了最低的HR;(c)使用Mistral的先进检索增强生成(RAG)展示了对间接查询的一致和稳健的引文支持,并与GPT-3.5和GPT-4的性能相匹配。在所有领域和模型中,HR平均降低了41.93%,在大多数情况下PP降至0%。就生成质量而言,平均F1分数和BLEU分别为68.09%和57.51%;(d)使用对抗样本进行测试表明,包括Advance RAG Mistral在内的LLMs在理解上下文方面存在困难,但在Mistral和GPT-4-Preview中这个问题的程度较小。我们的研究为自动生成引文任务的RAG可靠性提供了宝贵的见解。
论文链接: https://arxiv.org/pdf/2405.02228
其他链接: http://Perplexity.ai

论文4: 阿拉伯语讽刺检测模型中排除表情符号的影响

原标题: Impact of emoji exclusion on the performance of Arabic sarcasm detection models
作者: Ghalyah H. Aleryani, Wael Deabes, Khaled Albishre, Alaa E. Abdel-Hakim
摘要: 在社交媒体上检测阿拉伯语言中的讽刺的复杂挑战受到语言多样性和讽刺表达方式的性质的增加。现有模型在有效解释阿拉伯语言中的讽刺方面存在显著差距,这需要更复杂和精确的检测方法。本文研究了基本预处理组件对讽刺言论检测的影响。虽然表情符号在缓解现代交流中身体语言和面部表情缺失的影响方面起着至关重要的作用,但它们对自动化文本分析的影响,特别是在讽刺检测方面,仍未得到充分探讨。我们研究了在阿拉伯语社交媒体内容中排除数据集中表情符号对讽刺检测模型性能的影响,因为阿拉伯语是一种词汇丰富的语言。这项研究包括通过排除表情符号来调整和增强AraBERT预训练模型,以提高讽刺检测能力。我们使用AraBERT预训练来完善指定的模型,表明删除表情符号可以显著提升讽刺检测的准确性。这种方法促进了对语言的更精细解释,消除了非文本元素引入的潜在混淆。通过专注于表情符号删除的策略评估的AraBERT模型能够熟练地应对阿拉伯语言讽刺的复杂性。这项研究在阿拉伯自然语言处理领域建立了新的基准,并为社交媒体平台提供了宝贵的见解。
论文链接: https://arxiv.org/pdf/2405.02195

论文5: 评估和验证大语言模型驱动应用程序的任务效用

原标题: Assessing and Verifying Task Utility in LLM-Powered Applications
作者: Negar Arabzadeh, Siging Huo, Nikhil Mehta, Qinqyun Wu, Chi Wang, Ahmed Awadallah, Charles L. A. Clarke, Julia Kiseleva
摘要: 大语言模型(LLMs)的快速发展导致了应用程序的激增,这些应用程序促进了多个智能体之间的协作,帮助人类完成日常任务。然而,评估LLM驱动的应用程序在多大程度上真正增强了用户体验和任务执行效率仍存在重大差距。这突显了验证LLM驱动的应用程序的实用性的必要性,特别是通过确保应用程序的功能与最终用户需求之间的对齐。我们引入了AgentEval,这是一个新颖的框架,旨在通过自动提出一组针对任何给定应用程序独特目的量身定制的标准,简化实用性验证过程。这允许进行全面评估,量化应用程序相对于建议标准的实用性。我们对AgentEval在两个开源数据集(包括数学问题解决和ALFWorld家庭相关任务)的有效性和稳健性进行了全面分析。为了便于复现,我们将数据、代码和所有日志公开提供在此URL。
论文链接: https://arxiv.org/pdf/2405.02178
其他链接: https://bit.ly/3w3yKcS

论文6: Hoaxpedia:一个统一的维基百科恶作剧文章数据集

原标题: Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset
作者: Hsuvas Borkakoty, Luis Espinosa-Anke
摘要: 虚假信息是一种有意创造的虚假信息,可能会严重影响参考知识资源(如维基百科)的可信度。检测维基百科虚假信息的难点在于,它们通常是按照官方样式指南编写的。在这项工作中,我们首先系统地分析了合法和虚假维基百科文章之间的相似点和差异,并引入了Hoaxpedia,这是一个包含311篇虚假文章(来自现有文献和官方维基百科列表)以及语义相似的真实文章的集合。我们报告了二元分类实验的结果,目的是预测一篇维基百科文章是真是假,并分析了几种设置以及一系列语言模型。我们的结果表明,仅仅基于内容检测维基百科中的欺骗性内容,尽管过去没有得到太多探索,但这是一个有前景的方向。
论文链接: https://arxiv.org/pdf/2405.02175

论文7: EEG2TEXT:基于EEG预训练和多视图Transformer的开放词汇EEG到文本解码

原标题: EEG2TEXT: Open Vocabulary EEG-to-Text Decoding with EEG Pre-Training and Multi-View Transformer
作者: Hanwen Liu, Daniel Hajialigol, Benny Antony, Aiguo Han, Xuan Wang
摘要: 几个世纪以来,揭示人类大脑的复杂性一直激发着人们的好奇心。最近在脑-计算机界面(BCI)技术方面取得的进展,特别是使用运动想象,已经恢复了瘫痪个体的运动功能,如伸手、抓取和行走。然而,从大脑信号中解读自然语言仍然是一个巨大挑战。脑电图(EEG)是一种非侵入性技术,通过在头皮上放置电极记录大脑的电活动。先前的EEG到文本解码研究在小型封闭词汇上取得了高准确性,但在处理大型开放词汇时仍然准确性不高。我们提出了一种新方法,EEG2TEXT,以提高开放词汇的EEG到文本解码准确性。具体而言,EEG2TEXT利用EEG预训练来增强从EEG信号中学习语义的能力,并提出了一个多视图Transformer,来模拟大脑不同空间区域的EEG信号处理。实验证明,EEG2TEXT具有卓越的性能,在绝对BLEU和ROUGE分数上超过了现有基准方法高达5%。EEG2TEXT展现出了成为高性能开放词汇脑到文本系统的巨大潜力,以促进交流。
论文链接: https://arxiv.org/pdf/2405.02165

论文8: 医疗领域细粒度句子可读性的系统研究

原标题: MedReadMe: A Systematic Study for Fine-grained Sentence Readability in Medical Domain
作者: Chao Jiang, Wei Xu
摘要: 医学文本一直以来都很难阅读。正确地测量它们的可读性是使它们更易于理解的第一步。在本文中,我们对医学领域的可读性进行了细粒度的系统研究,包括句子级和跨度级。我们介绍了一个新的数据集MedReadMe,包括4520个句子的手动标注的可读性评分和细粒度复杂跨度注释,其中包括两个新的“Google-Easy”和“Google-Hard”类别。它支持我们的定量分析,涵盖650个语言特征和自动复杂词和行话识别。借助我们高质量的注释,我们对医学领域的几种最先进的句子级可读性度量进行了基准测试和改进,包括使用最近开发的大型语言模型(LLMs)的无监督、有监督和提示型方法。受我们细粒度复杂跨度注释的启发,我们发现将一个单一特征——捕捉行话跨度数量——添加到现有的可读性公式中,可以显著提高它们与人类判断的相关性。我们将公开发布数据集和代码。
论文链接: https://arxiv.org/pdf/2405.02144

论文9: 优化基于不确定性的两层选择的大语言模型调用

原标题: Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection
作者: Guillem Ramírez, Alexandra Birch, Ivan Titov
摘要: 研究者和从业者在有限预算下面临着成本与性能之间的权衡困境。这个具有挑战性的决策通常集中在是使用性能更好的大型语言模型还是成本更低的较小型模型。这促使了最近在语言模型调用优化方面的研究。可以采用级联策略,其中较小的语言模型或两者都按顺序调用,或者采用路由策略,其中仅调用一个模型。这两种情况都取决于一个决策标准,通常由额外的神经模型实现。在这项工作中,我们提出了一个更简单的解决方案;我们仅使用较小语言模型生成的不确定性作为决策标准。我们使用三对不同的预训练小型和大型语言模型,在九个不同的任务上,与需要额外神经模型的方法进行比较,比较我们的方法与级联和路由策略。我们的实验表明,这个简单的解决方案在25个实验设置中优化地平衡了成本和性能,优于现有方法。
论文链接: https://arxiv.org/pdf/2405.02134

论文10: 揭示基于大语言模型的中文开源数据集上语音识别的潜力

原标题: Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets
作者: Xuelong Geng, Tianyi Xu, Kun Wei, Bingsheng Mu, Hongfei Xue, He Wang, Yangze Li, Pengcheng Guo, Yuhang Dai, Longhao Li, Mingchen Shao, Lei Xie
摘要: 大语言模型在各种自然语言处理任务中展现了无与伦比的有效性,并将LLM与自动语音识别相结合已成为主流范式。借助这一势头,我们的研究深入探讨了这一范式在一个大型开源中文数据集上的情况。具体而言,我们的研究旨在评估语音编码器、LLM和投影器模块在语音基础编码器LLM ASR范式下的各种配置对模型的影响。此外,我们引入了一种三阶段训练方法,专门设计用于增强模型对音频和文本信息对齐的能力。通过实施这一方法,以及策略性地整合ASR组件,我们在AISHELL1、TestNet和TestMeeting测试集上实现了SOTA性能。我们的分析为基于LLM的ASR系统未来研究提供了经验基础,并提供了关于使用中文数据集优化性能的见解。我们将公开发布用于数据准备、训练、推断和评分的所有脚本,以及预训练模型和训练日志,以促进可重现的研究。
论文链接: https://arxiv.org/pdf/2405.02132

论文11: 单跳和多跳问答数据集用于 GPT-4-Turbo 的网状化学

原标题: Single and Multi-Hop Question-Answering Datasets for Reticular Chemistry with GPT-4-Turbo
作者: Nakul Rampal, Kaiyu Wang, Matthew Burigana, Lingxiang Hou, Juri Al-Johani, Anna Sackmann, Hanan S. Murayshid, Walaa Abdullah Al-Sumari, Arwa M. Al-Abdulkarim, Nahla Eid Al-Hazmi, Majed O. Al-Awad, Christian Borgs, Jennifer T. Chayes, Omar M. Yaghi
摘要: 人工智能和自然语言处理的快速发展促进了大规模数据集的开发,用于评估机器学习模型的性能。在此,我们介绍"RetChemQA",这是一个全面的基准数据集,旨在评估这些模型在晶体化学领域的能力。该数据集包括单跳和多跳问答对,涵盖约45,000个每种类型的问答。问题从包括NAS、ACS、RSC、Elsevier和Nature Publishing Group等出版商的约2,530篇研究论文组成的广泛文献语料库中提取。该数据集使用OpenAI的GPT-4 Turbo生成,这是一种以卓越的语言理解和生成能力著称的尖端模型。除了问答数据集,我们还发布了从本研究使用的文献语料库中提取的合成条件数据集。RetChemQA的目标是为先进机器学习算法的开发和评估提供一个强大的平台,特别是针对晶体化学社区。该数据集的结构反映了真实世界科学话语的复杂性和细微差别,从而实现了各种任务的细致性能评估。该数据集可在以下链接获取:this https URL。
论文链接: https://arxiv.org/pdf/2405.02128
Github: https://github.com/nakulrampal/RetChemQA

论文12: TIPAA-SSL:基于自监督学习和知识迁移的文本无关语音对齐

原标题: TIPAA-SSL: Text Independent Phone-to-Audio Alignment based on Self-Supervised Learning and Knowledge Transfer
作者: Noé Tits, Prernna Bhatnagar, Thierry Dutoit
摘要: 本文提出了一种基于语音识别、表示学习和知识迁移的无文本独立语音-音频对齐新方法。我们的方法利用了一个针对语音识别进行微调的自监督模型(wav2vec2),使用连接时间分类(CTC)损失函数,以及一个降维模型和一个基于强制对齐标签(使用蒙特利尔强制对齐器)训练的帧级语音分类器,来产生多语言语音表示,从而只需要最少的额外训练。我们使用TIMIT数据集的合成本土数据和SCRIBE数据集的美式和英式英语数据对我们的模型进行评估。我们提出的模型在统计指标上优于最先进的方法(charsiu),并在语言学习和语音处理系统中有应用前景。我们将在未来的工作中对其他语言进行实验,但系统的设计使其易于适应其他语言。
论文链接: https://arxiv.org/pdf/2405.02124

论文13: 在开放研究知识图谱中评估大型语言模型对结构化科学摘要的效果

原标题: Evaluating Large Language Models for Structured Science Summarization in the Open Research Knowledge Graph
作者: Vladyslav Nechakhin, Jennifer D’Souza, Steffen Eger
摘要: 使用超出传统关键词范畴的属性或维度来总结结构化科学摘要或研究贡献可以增强科学可发现性。当前的方法,比如开放研究知识图谱(ORKG)所使用的方法,涉及手动筛选属性以结构化描述研究论文的贡献,但这种方法劳动密集且在领域专家人工筛选者之间存在不一致性。我们提议使用大语言模型(LLMs)自动建议这些属性。然而,在应用之前,评估像GPT-3.5、Llama 2和Mistral这样的LLMs准备就绪是至关重要的。我们的研究在ORKG手动筛选的属性与上述最先进LLMs生成的属性之间执行全面的比较分析。我们通过四个独特的视角评估LLM的性能:与ORKG属性的语义对齐和偏差、细粒度属性映射准确性、基于SciNCL嵌入的余弦相似度,以及专家调查比较手动注释与LLM输出。这些评估发生在跨学科科学环境中。总体而言,LLMs显示出作为科学结构化推荐系统的潜力,但建议进一步微调以提高它们与科学任务的对齐性和对人类专业知识的模拟能力。
论文链接: https://arxiv.org/pdf/2405.02105

论文14: 大语言模型用于可解释和可争议决策制定

原标题: Argumentative Large Language Models for Explainable and Contestable Decision-Making
作者: Gabriel Freedman, Adam Dejl, Deniz Gorur, Xiang Yin, Antonio Rago, Francesca Toni
摘要: 大语言模型(LLM)所编码的知识丰富多样,并且它们能够在各种环境中应用这些知识进行零样本学习,这使它们成为决策制定的有前景的候选者。然而,它们目前受限于无法可靠地提供可解释和可质疑的输出。在本文中,我们试图通过引入基于论证推理的方法来协调这些优势和弱点。具体来说,我们引入了论证型LLM,这是一种利用LLM构建论证框架的方法,然后将其作为决策制定中正式推理的基础。这些论证框架和正式推理的可解释性意味着,由补充后的LLM做出的任何决定都可以自然地向人类解释和质疑。我们在声明验证这一决策制定任务中实验性地证明了论证型LLM的有效性。我们获得的结果与可比的最先进技术相当,在某些情况下甚至超过了它们。
论文链接: https://arxiv.org/pdf/2405.02079

论文15: 基于大型多模态模型的病理报告标准化及其置信度和预后意义

原标题: Large Multimodal Model based Standardisation of Pathology Reports with Confidence and their Prognostic Significance
作者: Ethar Alzaid, Gabriele Pergola, Harriet Evans, David Snead, Fayyaz Minhas
摘要: 病理报告在临床和病理细节方面非常丰富,但通常以自由文本格式呈现。这些报告的非结构化特性带来了一个重大挑战,限制了其内容的可访问性。在这项工作中,我们提出了一种基于使用大型多模型(LMMs)的实用方法,用于自动从病理报告扫描图像中提取信息,目的是生成一个标准化报告,指定不同字段的价值以及关于提取字段准确性的估计置信度。所提出的方法克服了现有方法的局限性,这些方法不会为提取的字段分配置信度分数,从而限制了它们的实际用途。所提出的框架使用两个阶段的提示来提取和验证信息的大型多模型(LMM)。该框架可以泛化到来自多个医疗中心的文本报告,以及遗留病理报告的扫描图像。我们展示了估计的置信度是提取信息准确性的有效指标,可用于仅选择准确提取的字段。我们还展示了来自病理报告的结构化和非结构化数据的预后意义,并展示了自动提取的字段值对患者分层具有重要的预后价值。该框架可通过此URL进行评估:https://此URL。
论文链接: https://arxiv.org/pdf/2405.02040
其他链接: https://labieb.dcs.warwick.ac.uk/

论文16: 分析大语言模型(LLM)中的叙事处理:使用GPT4测试BERT

原标题: Analyzing Narrative Processing in Large Language Models (LLMs): Using GPT4 to test BERT
作者: Patrick Krauss, Jannik Hösch, Claus Metzner, Andreas Maier, Peter Uhrig, Achim Schilling
摘要: 通过语言传递和接收复杂信息的能力是人类独有的,也是传统、文化和多样化社会互动的基础。通过引入基于Transformer的大语言模型(LLMs),人类不再是唯一能够“理解”和产生语言的实体。在本研究中,我们首次尝试将LLMs作为模型来理解神经网络中语言处理的基本机制,以便对人脑如何进行语言处理提出预测并生成假设。因此,我们使用ChatGPT生成了十个不同叙述风格的七个不同版本的故事(伊索寓言)。我们将这些故事作为输入,使用开源LLM BERT,并通过多维缩放和聚类分析分析了BERT隐藏单元的激活模式。我们发现隐藏单元的激活向量在BERT的较早层(1)中根据风格变化而聚类,而不是根据叙述内容(4-5)。尽管BERT由12个相同的构建块组成,这些构建块被堆叠并在大型文本语料库上进行训练,但不同层执行不同任务。这是人脑的一个非常有用的模型,其中自相似结构,即大脑皮层的不同区域,可以具有不同功能,因此非常适合以非常高效的方式处理语言。所提出的方法有潜力一方面打开LLMs的黑匣子,另一方面可能是解开人类语言处理和认知背后的神经过程的进一步步骤。
论文链接: https://arxiv.org/pdf/2405.02024

论文17: 适配器模块在文本分类中性能、效率和公平性之间的权衡

原标题: The Trade-off between Performance, Efficiency, and Fairness in Adapter Modules for Text Classification
作者: Minh Duc Bui, Katharina von der Wense
摘要: 当前自然语言处理 (NLP) 研究往往只关注一个或者较少两个维度 - 例如性能、隐私、公平性或效率 - 这可能会导致得出次优结论,并且常常忽视实现可信 NLP 的更广泛目标。关于适配器模块的工作 (Houlsby et al., 2019; Hu et al., 2021) 集中在提高性能和效率方面,但没有对其他方面(如公平性)的意外后果进行调查。为了解决这一差距,我们在三个文本分类数据集上进行了实验,要么 (1) 对所有参数进行微调,要么 (2) 使用适配器模块。在性能和效率方面,我们确认了先前的发现,即使用适配器增强的模型的准确性大致与完全微调模型相当,而训练时间大幅缩短。在公平性方面,我们发现适配器模块在敏感群体之间产生了不同的公平性结果。进一步的调查发现,当标准微调模型表现出有限的偏差时,适配器模块通常不会引入额外的偏差。另一方面,当微调模型表现出更大的偏差时,适配器模块对偏差的影响变得更加难以预测,有可能大幅放大某些群体的这些偏差。我们的发现突出了需要逐案评估,而不是一刀切的判断。
论文链接: https://arxiv.org/pdf/2405.02010

论文18: 探索大语言模型在组合优化问题求解中的应用:以使用 GPT-3.5 Turbo 求解旅行商问题为例的案例研究

原标题: Exploring Combinatorial Problem Solving with Large Language Models: A Case Study on the Travelling Salesman Problem Using GPT-3.5 Turbo
作者: Mahmoud Masoud, Ahmed Abdelhay, Mohammed Elhenawy
摘要: 大语言模型(LLMs)是设计用于根据文本输入生成文本的深度学习模型。尽管研究人员一直在为更复杂的任务开发这些模型,如代码生成和一般推理,但很少有研究探讨了LLMs如何应用于组合问题。在这项研究中,我们调查了LLMs解决旅行推销员问题(TSP)的潜力。利用GPT-3.5 Turbo,我们进行了一些实验,采用了各种方法,包括零样本上下文学习、少样本上下文学习和思维链(CoT)。结果,我们对GPT-3.5 Turbo进行了微调,以解决特定问题规模,并使用一组各种不同规模的实例进行了测试。微调的模型在与训练实例相同大小的问题上表现出有希望的性能,并且在更大的问题上也表现出良好的泛化能力。此外,为了提高微调模型的性能而不增加额外的训练成本,我们采用了自组合方法来提高解决方案的质量。
论文链接: https://arxiv.org/pdf/2405.01997

论文19: 音乐中歌词和音频的联合情感分析

原标题: Joint sentiment analysis of lyrics and audio in music
作者: Lea Schaab, Anna Kruspe
摘要: 情感或情绪可以在音乐中以各种层次表达自己。在自动分析中,通常会分析实际音频数据,但歌词在情绪感知中也可以发挥关键作用。我们首先评估基于歌词和音频的情感分析的各种模型。相应的方法已经显示出令人满意的结果,但它们也表现出一些弱点,我们会更详细地研究其原因。此外,我们提出并评估了不同的音频和歌词结果相结合的方法。综合考虑两种模态通常会提高性能。我们更仔细地调查音频和歌词情感之间的误分类和(有意的)矛盾,并确定可能的原因。最后,我们解决了这一研究领域的一些基本问题,如高度主观性、数据不足以及情绪分类的不一致性。
论文链接: https://arxiv.org/pdf/2405.01988

论文20: 自然语言处理的一项调查:符合性预测

原标题: Conformal Prediction for Natural Language Processing: A Survey
作者: Margarida M. Campos, António Farinhas, Chrysoula Zerva, Mário A.T. Figueiredo, André F.T. Martins
摘要: 大语言模型和自然语言处理(NLP)应用的快速增长,为减少幻觉等风险以及增强关键应用中的决策可靠性,创造了对不确定性量化的关键需求。 符合性预测作为一个在理论上健全且实用的框架,结合了灵活性和强大的统计保证,正在崭露头角。 其模型无关和无分布性质使其特别有望解决当前NLP系统的缺陷,这些缺陷源于缺乏不确定性量化。 本文全面调查了符合性预测技术、其保证以及在NLP中的现有应用,指出了未来研究方向和面临的挑战。
论文链接: https://arxiv.org/pdf/2405.01976

论文21: 对早期斯拉夫分词从句及其竞争的定量和类型学研究

原标题: A quantitative and typological study of Early Slavic participle clauses and their competition
作者: Nilo Pedrazzini
摘要: 这篇论文是关于早期斯拉夫分词结构及其有限竞争者( j e g d a jegda jegda-‘when’-clauses)功能的基于语料库的定量和类型学分析。第一部分利用早期斯拉夫语料库上的详细语言学注释,从形态句法、依存、信息结构和词汇层面间接证据来获取分词从句及其主要有限竞争者的不同潜在功能,并理解组合性和默认话语推理在解释语料库中分词结构和 j e g d a jegda jegda-clauses分布的作用。第二部分利用大规模平行数据分析语言如何表达英语 w h e n when when语义空间的类型学变化,其范围包括早期斯拉夫分词结构和 j e g d a jegda jegda-clauses。生成概率语义地图,并使用统计方法(包括克里金插值法、高斯混合建模、精确度和召回率分析)从平行语料库中诱导跨语言显著维度,并研究假设概念WHEN语义空间内的概念变化。
论文链接: https://arxiv.org/pdf/2405.01972

论文22: 依赖感知的 GLU 变体在大型语言模型中的半结构化稀疏性

原标题: Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models
作者: Zhiyu Guo, Hidetaka Kamigaito, Taro Wanatnabe
摘要: 大语言模型(LLMs)的快速发展显著增强了语言理解和生成的能力。然而,庞大的模型大小带来了硬件挑战,影响了用于服务的内存大小和用于标记生成的推理延迟。为了解决这些挑战,我们提出了Dependency-aware Semi-structured Sparsity(DaSS),这是一种新颖的方法,用于最近流行的基于SwiGLU的LLMs修剪。我们的方法将结构依赖性纳入了基于权重幅度的非结构化修剪中。我们引入了一种MLP特定的修剪度量,通过联合考虑权重的幅度和相应的MLP中间激活规范来评估每个权重的重要性。DaSS在未结构化修剪提供的适应性和基于依赖性的结构化修剪中固有的结构一致性之间实现了平衡。对Mistral和LLaMA2模型族的实证评估表明,DaSS不仅在实现硬件友好的N:M稀疏模式方面优于SparseGPT和Wanda,而且还保持了Wanda的计算效率。
论文链接: https://arxiv.org/pdf/2405.01943

论文23: 在 SemEval-2024 任务 2 中,CRCL 采用了简单的提示优化方法

原标题: CRCL at SemEval-2024 Task 2: Simple prompt optimizations
作者: Clément Brutti-Mairesse, Loïc Verlingue
摘要: 我们为 SemEval 2024 任务 2 挑战提供了一个基线。该任务的目标是确定临床试验报告部分和声明之间的推理关系。我们应用了提示优化技术,使用了作为语言模型即服务 (LMaaS) 提供的 LLM 指令模型。我们观察到,与最近的发现一致,合成的 CoT 提示显著增强了手工制作的提示。
论文链接: https://arxiv.org/pdf/2405.01942

论文24: OARelatedWork: 来自开放获取源的相关工作部分全文的大规模数据集

原标题: OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources
作者: Martin Docekal, Martin Fajcik, Pavel Smrz
摘要: 本文介绍了 OARelatedWork,这是第一个用于生成相关工作的大规模多文档摘要数据集,包含整个相关工作部分和引用论文的全文。该数据集包括 94,450 篇论文和 5,824,689 个独特的被引用论文。它旨在用于自动生成相关工作,将该领域引向从所有可用内容中生成整个相关工作部分,而不是仅从摘要中生成相关工作部分的抽象方法,这是目前这一领域中抽象方法的主流。我们展示了当使用全文内容而不是摘要时,提取式摘要的 ROUGE-2 得分的估计上限增加了 217%。此外,我们展示了全文数据对于朴素、神经、传统和基于 Transformer 的基线的好处。长输出,如相关工作部分,对于像 BERTScore 这样的自动评估指标提出了挑战,因为其输入长度有限。我们通过提出并评估使用 BERTScore 的元指标来解决这个问题。尽管操作在较小的块上,我们展示了这个元指标与人类判断相关,与原始的 BERTScore 相当。
论文链接: https://arxiv.org/pdf/2405.01930

论文25: 通过二元标记索引进行半参数检索

原标题: Semi-Parametric Retrieval via Binary Token Index
作者: Jiawei Zhou, Li Dong, Furu Wei, Lei Chen
摘要: 信息检索的领域已经从搜索服务扩展到各种先进应用的关键组成部分,在这些应用中,索引效率、成本效益和新鲜度越来越重要,但仍然少有人探讨。为了满足这些需求,我们引入了半参数词汇解缠检索(SVDR)。SVDR 是一种新颖的半参数检索框架,支持两种类型的索引:基于嵌入的索引,用于高效性,类似于现有的神经检索方法;以及二进制标记索引,允许快速和成本效益的设置,类似于传统的基于术语的检索。在我们对三个开放领域问答基准的评估中,使用整个维基百科作为检索语料库,SVDR 均表现出了卓越性。当使用基于嵌入的索引时,与密集检索器 DPR 相比,SVDR 的 top-1 检索准确率提高了 3%,当使用二进制标记索引时,与 BM25 相比,top-1 准确率提高了 9%。具体而言,采用二进制标记索引将索引准备时间从 30 GPU 小时减少到仅 2 CPU 小时,存储大小从 31 GB 减少到 2 GB,与基于嵌入的索引相比实现了 90% 的减少。
论文链接: https://arxiv.org/pdf/2405.01924

论文26: Aloe: 一个微调的开放医疗大语言模型家族

原标题: Aloe: A Family of Fine-tuned Open Healthcare LLMs
作者: Ashwin Kumar Gururajan, Enrique Lopez-Cuena, Jordi Bayarri-Planas, Adrian Tormos, Daniel Hinjos, Pablo Bernabeu-Perez, Anna Arias-Duart, Pablo Agustin Martin-Torres, Lucia Urcelay-Ganzabal, Marta Gonzalez-Mallo, Sergio Alvarez-Napagao, Eduard Ayguadé-Parra, Ulises Cortés Dario Garcia-Gasulla
摘要: 随着大型语言模型(LLMs)在医疗保健领域的能力不断提升,对能够保障公共利益的竞争性开源模型的需求日益增长。随着高度竞争的开源基础模型日益增加,持续预训练的影响日益不确定。在这项工作中,我们探讨了指导调整、模型合并、对齐、红队测试和先进推理方案等手段,以改进当前的开源模型。为此,我们介绍了 Aloe 系列,这是一组在其规模范围内高度竞争的开放式医疗LLMs。Aloe 模型是在当前最佳基础模型(Mistral,LLaMA 3)上训练的,使用了结合了改进的合成思维链(CoT)的新自定义数据集。Aloe 模型经历了对齐阶段,成为第一批使用直接偏好优化进行政策对齐的开放式医疗LLM之一,为医疗LLMs的道德表现树立了新标准。模型评估扩展到包括各种偏见和毒性数据集,一个专门的红队测试工作,以及医疗LLMs所急需的风险评估。最后,为了探索当前LLMs在推理方面的极限,我们研究了几种先进的提示工程策略,以提升在各种基准测试中的性能,为开放式医疗7B LLMS提供了创纪录的最新结果,在此规模上前所未有。
论文链接: https://arxiv.org/pdf/2405.01886

论文27: 超越单事件提取:朝向高效的文档级多事件论证提取

原标题: Beyond Single-Event Extraction: Towards Efficient Document-Level Multi-Event Argument Extraction
作者: Wanlong Liu, Li Zhou, Dingyi Zeng, Yichen Xiao, Shaohuan Cheng, Chen Zhang, Grandee Lee, Malu Zhang, Wenyu Chen
摘要: 最近的主流事件论点提取方法处理每个事件时都是独立的,导致推理效率低下,并忽略了多个事件之间的相关性。为了解决这些限制,我们提出了一种多事件论点提取模型DEEIA(Dependency-guided Encoding and Event-specific Information Aggregation),能够同时从文档中提取所有事件的论点。所提出的DEEIA模型采用了多事件提示机制,包括DE和EIA模块。DE模块旨在提高提示与其对应事件上下文之间的相关性,而EIA模块提供事件特定信息以提高上下文理解。大量实验证明,我们的方法在四个公共数据集(RAMS、WikiEvents、MLEE和ACE05)上实现了新的最先进性能,同时与基线相比显著节省了推理时间。进一步的分析表明了所提出模块的有效性。
论文链接: https://arxiv.org/pdf/2405.01884

论文28: DALLMi: 基于大语言模型的多标签分类器的领域自适应

原标题: DALLMi: Domain Adaption for LLM-based Multi-label Classifier
作者: Miruna Beţianu, Abele Mălan, Marco Aldinucci, Robert Birke, Lydia Chen
摘要: 大型语言模型(LLM)越来越成为用于对应不同领域和多个标签(类别)的文本分类的基础。当遇到领域转移时,例如从IMDb的电影评论分类器转移到Rotten Tomatoes,由于目标领域标签集不完整以及繁重的训练开销,对这种基于LLM的多标签分类器进行适应是一个挑战。现有的领域适应方法解决的是图像多标签分类器或文本二分类器。在本文中,我们设计了DALLMi,这是一种基于LLM(特别是BERT)的文本数据模型的首创半监督领域适应方法。DALLMi的核心是新颖的变分损失和MixUp正则化,它们共同利用有限的正标记文本和大量未标记文本,以及它们从BERT词嵌入的插值。DALLMi还引入了标签平衡采样策略,以克服标记数据和未标记数据之间的不平衡。我们在三个数据集上评估了DALLMi,在不同的目标域标签可用性场景下,与无监督和部分监督方法相比,DALLMi的mAP提高了19.9%和52.2%。
论文链接: https://arxiv.org/pdf/2405.01883

论文29: 通过扩展的双向 LSTM 模型在 N-gram 语言上增强孟加拉语的下一个单词预测和句子完成任务

原标题: Enhancing Bangla Language Next Word Prediction and Sentence Completion through Extended RNN with Bi-LSTM Model On N-gram Language
作者: Md Robiul Islam, Al Amin, Aniqua Nusrat Zereen
摘要: 短信成为全球最突出的沟通形式。个人花费大量时间撰写整段文字发送电子邮件或在社交媒体上发表文字,这在这个现代时代非常耗时。在孟加拉语中,词语预测和句子完成将是合适且适当的,可以使文本信息更加简便和方便。本文通过引入一个能够有效处理孟加拉语下一个词预测和孟加拉语句子生成的Bi-LSTM模型,扩展了孟加拉语处理的范围,展示了其多功能性和潜在影响。我们提出了一个新的Bi-LSTM模型来预测下一个词并完成一个句子。我们从各种新闻门户网站(包括bdnews24、BBC News Bangla和Prothom Alo)构建了一个语料库数据集。所提出的方法在词语预测方面取得了优越的结果,对于4-gram和5-gram词语预测均达到了99%的准确率。此外,它在现有方法上表现出显著改进,分别实现了uni-gram、bi-gram和tri-gram词语预测的35%、75%和95%的准确率。
论文链接: https://arxiv.org/pdf/2405.01873

论文30: 将外部知识和目标引导融入基于大语言模型的对话式推荐系统

原标题: Incorporating External Knowledge and Goal Guidance for LLM-based Conversational Recommender Systems
作者: Chuang Li, Yang Deng, Hengchang Hu, Min-Yen Kan, Haizhou Li
摘要: 本文旨在有效地使大语言模型(LLMs)能够在会话式推荐系统(CRS)任务中利用外部知识和目标引导。先进的LLMs(例如ChatGPT)在特定领域的CRS任务中存在限制,即1)生成基于推荐导向知识的有根据的回复,或者2)通过不同的对话目标主动引导对话。在这项工作中,我们首先通过全面评估分析了这些限制,展示了外部知识和目标引导的必要性,这些因素对推荐准确性和语言质量有着显著贡献。基于这一发现,我们提出了一种新颖的ChatCRS框架,通过实现以下内容将复杂的CRS任务分解为几个子任务:1)使用工具增强方法构建知识检索智能体,以推理外部知识库,2)用于对话目标预测的目标规划智能体。在两个多目标CRS数据集上的实验结果显示,ChatCRS建立了新的最先进基准,将信息量的语言质量提高了17%,主动性提高了27%,并实现了推荐准确性的十倍增强。
论文链接: https://arxiv.org/pdf/2405.01868

论文31: SUKHSANDESH: 一个面向印度农村地区性教育的化身式问答平台

原标题: SUKHSANDESH: An Avatar Therapeutic Question Answering Platform for Sexual Education in Rural India
作者: Salam Michael Singh, Shubhmoy Kumar Garg, Amitesh Misra, Aaditeshwar Seth, Tanmoy Chakraborty
摘要: 性教育旨在促进情感、心理和社会福祉方面的健康生活方式。在印度等国家,青少年群体占据了最大的人口统计比例,他们在性健康方面面临着重大的脆弱性。不幸的是,性教育经常带有社会污名,给向这一高危人群提供必要咨询和信息带来了障碍。因此,早孕、不安全的堕胎、性传播感染和性暴力等问题变得普遍。我们当前的提案旨在为印度农村脆弱人口提供一个安全可靠的性教育平台,从而促进国家的健康和整体发展。在这方面,我们致力于设计SUKHSANDESH,一个针对印度农村定制的多阶段基于人工智能的问答平台,遵循安全防护措施和区域语言支持。通过利用信息检索技术和大型语言模型,SUKHSANDESH将为用户提供有效的回答。我们还提议对数据集进行匿名处理以减轻安全措施,并设置人工智能防护措施以防止生成任何有害或不需要的回应。此外,我们提案的一个创新特点是将“化身疗法”与SUKHSANDESH集成。这一特性将把人工智能生成的回答转换为由一个说着印度地区语言的动画化身实时传递的音频。这种方法旨在培养共情和联系,对识字能力有限的个体特别有益。我们将与行业领军企业Gram Vaani合作,部署SUKHSANDESH以满足印度农村的性教育需求。
论文链接: https://arxiv.org/pdf/2405.01858

论文32: SGHateCheck:在新加坡低资源语言中检测仇恨言论的功能测试

原标题: SGHateCheck: Functional Tests for Detecting Hate Speech in Low-Resource Languages of Singapore
作者: Ri Chi Ng, Nirmalendu Prakash, Ming Shan Hee, Kenny Tsu Wei Choo, Roy Ka-Wei Lee
摘要: 为了解决当前仇恨言论检测模型的局限性,我们引入了 SGHateCheck,这是一个专为新加坡和东南亚语境设计的全新框架。它扩展了 HateCheck 和 MHC 的功能测试方法,采用大语言模型将内容翻译和改写成新加坡主要语言,并由本地注释员进行细化。SGHateCheck 发现了最先进模型的关键缺陷,突出了它们在敏感内容审核方面的不足。这项工作旨在促进为不同语言环境,特别是新加坡和东南亚语境,开发更有效的仇恨言论检测工具。
论文链接: https://arxiv.org/pdf/2405.01842

论文33: SoftMCL:用于细粒度情感感知预训练的软动量对比学习

原标题: SoftMCL: Soft Momentum Contrastive Learning for Fine-grained Sentiment-aware Pre-training
作者: Jin Wang, Liang-Chih Yu, Xuejie Zhang
摘要: 语言模型的预训练捕获了一般的语言理解,但无法区分特定上下文对特定词语的情感影响。最近的研究试图引入对比学习(CL)进行情感感知的预训练,以获取情感信息。然而,这些方法存在两个重大局限性。首先,GPU内存的兼容性通常限制了负样本的数量,阻碍了学习良好表示的机会。此外,仅使用少数情感极性作为硬标签(如积极、中性和消极)来监督CL,将迫使所有表示收敛到几个点,导致潜在空间崩溃的问题。

本研究提出了一种软动量对比学习(SoftMCL)用于细粒度情感感知的预训练。我们引入了价值评级作为CL的软标签监督,以细粒度地衡量样本之间的情感相似性,而不是使用硬标签。所提出的SoftMCL在词汇级和句子级上进行,以增强模型学习情感信息的能力。我们引入了动量队列来扩展对比样本,允许存储和涉及更多负样本,以克服硬件平台的局限性。

我们在四个不同的与情感相关的任务上进行了广泛的实验,这证明了所提出的SoftMCL方法的有效性。所提出SoftMCL的代码和数据可在此链接获取。
论文链接: https://arxiv.org/pdf/2405.01827
Github: https://www.github.com/wangjin0818/SoftMCL/

论文34: 利用 ChatGPT 诊断自闭症相关语言障碍并识别不同特征

原标题: Exploiting ChatGPT for Diagnosing Autism-Associated Language Disorders and Identifying Distinct Features
作者: Chuanbo Hu, Wenqi Li, Mindi Ruan, Xiangxu Yu, Lynn K. Paul, Shuo Wang, Xin Li
摘要: 诊断与自闭症相关的语言障碍是一个复杂而微妙的挑战,往往受到传统评估方法主观性和变异性的阻碍。传统的诊断方法不仅需要大量人力投入,而且由于缺乏速度和特异性,通常导致干预延迟。在这项研究中,我们探讨了 ChatGPT(一种最先进的大语言模型)的应用,以克服这些障碍,提高诊断准确性并描绘表征自闭症的特定语言特征。利用 ChatGPT 先进的自然语言处理能力,这项研究旨在简化和完善诊断过程。具体而言,我们将 ChatGPT 的性能与传统的监督学习模型进行了比较,包括 BERT,这是一种在各种自然语言处理任务中效果显著的模型。我们表明,ChatGPT 在零样本学习配置中远远优于这些模型,准确率和 F1 分数均提高了超过 13%。这一显著增强突显了该模型作为神经诊断工具的潜力。此外,我们确定了与自闭症相关的语言障碍的十个明显特征,在不同的实验场景中显著变化。这些特征包括模仿言语、代词倒置和非典型语言使用,对于准确诊断自闭症和定制治疗计划至关重要。总之,我们的研究结果支持在临床环境中采用像 ChatGPT 这样的先进 AI 工具来评估和诊断发育障碍。我们的方法不仅承诺更高的诊断精度,而且与个性化医学的目标一致,有望改变自闭症和类似神经疾病的评估格局。
论文链接: https://arxiv.org/pdf/2405.01799

论文35: TOPICAL: 自动化创建主题页

原标题: TOPICAL: TOPIC Pages AutomagicaLly
作者: John Giorgi, Amanpreet Singh, Doug Downey, Sergey Feldman, Lucy Lu Wang
摘要: 主题页面将关于某个实体或概念的有用信息聚合到一个简洁易懂的文章中。自动创建主题页面将使它们能够快速整理成信息资源,提供一种替代传统网络搜索的方式。虽然大多数先前的工作都集中在生成关于传记实体的主题页面,但在这项工作中,我们开发了一个完全自动化的过程,用于生成高质量的科学实体主题页面,重点是生物医学概念。我们发布了TOPICAL,这是一个网络应用程序和相关的开源代码,包括一个结合检索、聚类和提示的模型管道,使任何人都可以根据需求为各种生物医学实体生成主题页面。在对使用TOPICAL生成的150个不同主题页面进行人工评估中,我们发现绝大多数被认为是相关的、准确的和连贯的,并有正确的引用支持。我们将所有代码公开,并在此网址托管免费使用的网络应用程序。
论文链接: https://arxiv.org/pdf/2405.01796
其他链接: https://s2-topical.apps.allenai.org

论文36: 理解社交多文档总结中位置偏见对公平性的影响

原标题: Understanding Position Bias Effects on Fairness in Social Multi-Document Summarization
作者: Olubusayo Olabisi, Ameeta Agrawal
摘要: 文本摘要模型通常专注于优化流畅性、相关性和连贯性等质量方面,特别是在新闻文章的背景下。然而,摘要模型越来越被用于总结各种不同来源的文本,如社交媒体数据,其中包括广泛的人口统计用户群。因此,不仅要评估生成摘要的质量,也需要评估它们在多大程度上能公平地代表不同社会群体的观点。位置偏差是新闻摘要中长期存在的一个问题,但在社交多文档摘要的背景下受到的关注较少。我们通过分析来自三个不同语言社区(非裔美国英语、西语系语言和白人系语言)的推文输入文档顺序对摘要的影响,深入研究了这一现象。我们的实证分析表明,尽管无论输入文档顺序如何,摘要的文本质量都保持一致,但在公平性方面,结果会根据方言群体在输入数据中的呈现方式而显著不同。我们的结果表明,位置偏差在社交多文档摘要中表现形式不同,严重影响了摘要模型的公平性。
论文链接: https://arxiv.org/pdf/2405.01790

论文37: 多元设计中的技术层面。用 LiveLanguage 倡议去殖民化语言技术

原标题: Layers of technology in pluriversal design. Decolonising language technology with the LiveLanguage initiative
作者: Gertraud Koch, Gábor Bella, Paula Helm, Fausto Giunchiglia
摘要: 语言技术有潜力通过有意义的翻译来促进跨文化交流。然而,由于人工智能(AI)全球治理中的路径依赖和新殖民主义倾向,当前的语言技术深深地与殖民知识纠缠在一起。语言技术是一个复杂和新兴的领域,由于涉及全球范围内的组装以及多样的场所和知识密集性,这给共同设计干预措施带来了挑战。本文以词汇数据库LiveLanguage为例,该数据库是一组服务,特别注重对语言多样性进行建模和整合小语种和少数民族语言,讨论并缩小从多元设计理论到实践的差距。通过多样化新兴技术的概念,我们可以更好地处理全球背景下的语言技术。本文提出了一个由五层技术活动组成的模型。每一层都包含特定的实践和利益相关方,因此为共同设计干预措施提供了不同的空间,作为去殖民化、重新思考和重建语言技术走向多元化的一种探究方式。通过这种方式,本文有助于反思共同设计在去殖民化新兴技术中的地位,并将复杂的理论知识整合到语言技术设计中去。
论文链接: https://arxiv.org/pdf/2405.01783

论文38: 关于大语言模型在关键社会领域的应用研究:金融、医疗和法律

原标题: A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law
作者: Zhiyu Zoey Chen, Jing Ma, Xinlu Zhang, Nan Hao, An Yan, Armineh Nourbakhsh, Xianjun Yang, Julian McAuley, Linda Petzold, William Yang Wang
摘要: 在快速发展的人工智能领域中,诸如GPT-3和GPT-4等大型语言模型(LLMs)正在彻底改变金融、医疗和法律等领域的格局:这些领域以专业知识为特征,数据获取具有挑战性,风险高且需遵守严格的监管规定。本调查提供了对LLMs在这些高风险领域内的方法、应用、挑战和前瞻性机遇进行详细探索。我们强调了LLMs在增强医疗诊断和治疗方法、创新金融分析以及改进法律解释和合规策略方面的关键作用。此外,我们批判性地审视了LLM在这些领域应用中的伦理道德,指出了现有的伦理关切,并强调了对遵守监管规范的透明、公平和健壮的人工智能系统的需求。通过对当前文献和实际应用的全面审查,我们展示了LLMs的变革性影响,并概述了跨学科合作、方法论进步和伦理警觉的迫切性。通过这个视角,我们旨在引发对话,激发未来致力于最大程度地发挥LLMs的益处并减轻其在这些依赖精密度领域中的风险的研究。为了促进这些关键社会领域中对LLMs的未来研究,我们还启动了一个跟踪该主题下最新进展的阅读列表,将持续更新:\url{this https URL}。
论文链接: https://arxiv.org/pdf/2405.01769
Github: https://github.com/czyssrs/LLM_X_papers

论文39: 基于上下文的个性化增强和偏差缓解

原标题: CoS: Enhancing Personalization and Mitigating Bias with Context Steering
作者: Jerry Zhi-Yang He, Sashrika Pandey, Mariah L. Schrum, Anca Dragan
摘要: 在查询大型语言模型(LLM)时,特定于最终用户的上下文信息(即个人、人口统计和文化信息)可以显著塑造LLM的响应。例如,在"我是一个幼儿"的上下文下询问模型解释牛顿第二定律,与在"我是一名物理学教授"的上下文下询问,会得到不同的答案。恰当使用上下文可以使LLM生成个性化的响应,而不恰当的上下文影响可能会导致stereotypical和潜在有害的生成(例如将"女性"与"家庭主妇"联系起来)。在实践中,在利用上下文时找到合适的平衡是一个微妙而具有挑战性的问题,通常取决于具体情况。解决这一挑战的一种常见方法是对LLM进行针对上下文的微调。然而,这种方法成本高昂,耗时,并且无法为不同情况下的最终用户提供可控性。在这项工作中,我们提出了Context Steering (CoS) - 一种简单的无需训练的方法,可以在推理时轻松应用于自回归LLM。通过测量令牌预测概率的上下文影响并对其进行调节,我们的方法使从业者能够根据其特定的用例和最终用户群确定适当的上下文影响水平。我们展示了CoS的各种应用,包括放大上下文影响以实现更好的个性化,以及缓解不需要的影响以减少模型偏差。此外,我们还展示了可以将CoS与贝叶斯推理相结合,以量化互联网上仇恨言论的程度。我们证明了CoS在最先进的LLM和基准上的有效性。
论文链接: https://arxiv.org/pdf/2405.01768

论文40: 基于自主大语言模型的因果发现框架

原标题: ALCM: Autonomous LLM-Augmented Causal Discovery Framework
作者: Elahe Khatibi, Mahyar Abbasian, Zhongqi Yang, Iman Azimi, Amir M. Rahmani
摘要: 在高维数据集中执行有效的因果推断,从因果发现开始是至关重要的,其中基于观测数据生成因果图。然而,获得完整准确的因果图是一个被认为是 NP 难问题的巨大挑战。最近,大语言模型(LLMs)的出现开启了一个新时代,表明它们新兴的能力和广泛适用性在促进跨不同领域的因果推理方面。LLMs 的广泛知识库有潜力通过提供可解释性、进行推断、泛化能力和揭示新的因果结构来提升因果推理领域。在本文中,我们介绍了一个名为自主LLM增强因果发现框架(ALCM)的新框架,以协同数据驱动的因果发现算法和LLMs,自动化生成更具弹性、准确性和可解释性的因果图。ALCM 包括三个核心组件:因果结构学习、因果包装器和LLM驱动的因果优化器。这些组件在动态环境中自主协作,以解决因果发现问题并提供合理的因果图。我们通过在七个知名数据集上实施两个演示来评估ALCM框架。实验结果表明,ALCM优于现有的LLM方法和传统的数据驱动因果推理机制。这项研究不仅展示了ALCM的有效性,还强调了利用LLMs的因果推理能力的新研究方向。
论文链接: https://arxiv.org/pdf/2405.01744

论文41: 生成AI伤害的心理社会影响

原标题: The Psychosocial Impacts of Generative AI Harms
作者: Faye-Marie Vassel, Evan Shieh, Cassidy R. Sugimoto, Thema Monroe-White
摘要: 生成式语言模型(LMs)的快速出现引起了人们对其未经审查的采用可能对各种用户群体的社会福祉产生的影响越来越关注。与此同时,LMs越来越多地被应用于K-20学校和一对一的学生环境中,但对其部署可能存在的潜在危害的调查甚少。部分受到实际应用案例的启发(例如,AI写作助手),本文探讨了五个领先LMs生成的故事对开放式提示的潜在心理社会伤害。我们扩展了对刻板印象危害的发现,分析了15万篇与学生课堂互动相关的100字故事。通过分析LM生成的角色人口统计特征和代表性危害(即消除、降格和刻板印象),我们强调了一些特别严重的小插曲,说明了LM生成的输出可能如何影响具有边缘化和少数化身份的用户的体验,并强调了在部署和利用生成式AI工具时对各种社会背景进行批判性理解的必要性。
论文链接: https://arxiv.org/pdf/2405.01740

论文42: 利用产品元数据为对话式购物助手提供问题建议

原标题: Question Suggestion for Conversational Shopping Assistants Using Product Metadata
作者: Nikhita Vedula, Oleg Rokhlenko, Shervin Malmasi
摘要: 数字助理已经在电子商务应用中变得无处不在,这是由于信息检索(IR)、自然语言处理(NLP)和生成人工智能(AI)最近的进展。然而,顾客经常不确定或不知道如何有效地与这些助手进行对话,以满足他们的购物需求。在这项工作中,我们强调了为顾客提供一种快速、易于使用和自然的方式与对话式购物助手交互的重要性。我们提出了一个框架,利用大语言模型(LLMs)通过上下文学习和监督微调自动生成关于产品的相关、有用、可回答、流畅和多样的问题。将这些问题推荐给顾客作为有用的建议或提示,可以启动和继续对话,从而实现更流畅、更快速的购物体验,减少对话的开销和摩擦。我们进行了广泛的离线评估,并详细讨论了潜在的客户影响以及如果将我们生成的产品问题纳入到实际购物助手中可能产生的类型、长度和延迟。
论文链接: https://arxiv.org/pdf/2405.01738

论文43: 大语言模型是不一致和带有偏见的评估者。

原标题: Large Language Models are Inconsistent and Biased Evaluators
作者: Rickard Stureborg, Dimitris Alikaniotis, Yoshi Suhara
摘要: 大语言模型(LLMs)的零样本能力使得在各种任务中能够使用高度灵活、无需参考的度量标准,使得LLM评估器成为自然语言处理中常见的工具。然而,这些LLM评估器的稳健性仍然相对缺乏研究;现有工作主要追求在将LLM分数与人类专家分数相关联方面的最佳性能。本文通过使用SummEval数据集进行一系列分析,确认了LLMs作为评估器存在偏见,因为它们:(1)表现出熟悉性偏见-偏好于困惑度较低的文本,(2)显示出评分分布倾斜和偏见,以及(3)在多属性判断中经历锚定效应。我们还发现LLMs是不一致的评估器,显示出较低的“样本间”一致性以及对与人类对文本质量理解无关的提示差异的敏感性。此外,我们分享了配置LLM评估器以减轻这些限制的方法。在RoSE数据集上的实验结果表明,相较于最先进的LLM评估器,我们的方法取得了改进。
论文链接: https://arxiv.org/pdf/2405.01724

论文44: 使用大语言模型自动提取随机对照试验中的数值结果

原标题: Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models
作者: Hye Sun Yun, David Pogrebitskiy, Iain J. Marshall, Byron C. Wallace
摘要: 元分析是通过统计聚合不同随机对照试验(RCT)的结果来评估治疗效果。由于这样可以得到治疗效果的稳健估计,元分析的结果被认为是最强有力的证据形式。然而,严格的证据综合是耗时且劳动密集的,需要手动提取个别试验的数据进行综合。理想情况下,语言技术应该能够实现完全自动的元分析,按需进行。这需要准确提取个别试验的数字结果,这一直超出了自然语言处理(NLP)模型的能力。在这项工作中,我们评估了现代大型语言模型(LLM)是否能够可靠地执行这项任务。我们注释(并发布)了一个适度但细粒度的评估数据集,其中包含临床试验报告中附加于干预措施、比较对象和结果上的数字发现。使用这个数据集,我们评估了七个LLM在零样本条件下执行有条件提取试验报告中数字发现的任务的性能。我们发现,能够容纳长输入的大型LLM非常接近实现完全自动元分析,特别是对于二分(二进制)结果(如死亡率)。然而,LLM(包括那些经过生物医学文本训练的LLM)在结果指标复杂,需要推理来统计结果时表现很差。这项工作为通过LLM实现RCT的完全自动元分析铺平了道路,同时也突出了现有模型在这方面的局限性。
论文链接: https://arxiv.org/pdf/2405.01686

论文45: 利用提示学习从克罗恩病放射科报告中提取结构化信息的低资源语言

原标题: Leveraging Prompt-Learning for Structured Information Extraction from Crohn’s Disease Radiology Reports in a Low-Resource Language
作者: Liam Hazan, Gili Focht, Naama Gavrielov, Roi Reichart, Talar Hagopian, Mary-Louise C. Greer, Ruth Cytter Kuint, Dan Turner, Moti Freiman
摘要: 利用自然语言处理(NLP)技术将自由文本放射科报告自动转换为结构化数据对于大规模分析疾病至关重要。虽然在广泛使用的英语等语言中效果良好,但生成式大语言模型(LLM)通常在较少使用的语言中表现不佳,并可能对患者隐私构成潜在风险。微调本地NLP模型受到现实医疗数据集偏斜性的阻碍,因为罕见的发现代表了重大的数据不平衡。我们引入了SMP-BERT,这是一种新的提示学习方法,利用报告的结构性质来克服这些挑战。在我们涉及大量克罗恩病放射科报告(超过8,000名患者和10,000份报告)的希伯来语研究中,SMP-BERT在性能方面大大超过了传统的微调方法,特别是在检测罕见疾病方面(AUC: 0.99 vs 0.94, F1: 0.84 vs 0.34)。SMP-BERT为低资源语言提供了更准确的AI诊断。
论文链接: https://arxiv.org/pdf/2405.01682

论文46: 1-Diffractor:高效且保护效用的文本混淆,利用基于词级度量的差分隐私

原标题: 1-Diffractor: Efficient and Utility-Preserving Text Obfuscation Leveraging Word-Level Metric Differential Privacy
作者: Stephen Meisenbacher, Maulik Chevli, Florian Matthes
摘要: 隐私保护自然语言处理(NLP)的研究在近年来引起了越来越多的关注。一个有前景的研究方向是将差分隐私集成到NLP中,这带来了各种应用场景下的创新方法。尤其值得注意的是基于词级度量局部差分隐私(MLDP)的机制,它通过对输入文本逐词进行扰动来模糊潜在的敏感内容。尽管这些方法在经验测试中显示出了良好的结果,但仍存在两个主要缺点:(1)由于添加噪声而不可避免地损失了效用,以及(2)在高维词嵌入上运行这些机制的计算开销较大。在本工作中,我们旨在通过提出1-Diffractor来解决这些挑战,这是一种新的机制,与之前的机制相比具有更高的加速效果,同时仍然展现出强大的效用和隐私保护能力。我们评估了1-Diffractor在多个NLP任务上的效用,理论和任务级隐私,以及速度和内存方面的效率。1-Diffractor在效率方面显示出了显著的改进,同时在所有进行的比较测试中,其效用和隐私得分仍然具有竞争力。我们的代码已经公开发布在这个链接。
论文链接: https://arxiv.org/pdf/2405.01678
Github: https://github.com/sjmeis/Diffractor

论文47: 研究大语言模型在 Reddit“淋浴想法”领域特定写作风格适应中的智慧、创造力和可检测性

原标题: Investigating Wit, Creativity, and Detectability of Large Language Models in Domain-Specific Writing Style Adaptation of Reddit’s Showerthoughts
作者: Tolga Buz, Benjamin Frost, Nikola Genchev, Moritz Schneider, Lucie-Aimée Kaffee, Gerard de Melo
摘要: 最近的大型语言模型(LLM)已经展示了生成难以区分于人类写作的内容的能力。我们研究了不同规模的LLM复制人类写作风格的能力,在淋浴思考(Showerthoughts)这个领域生成简短的创造性文本。我们将针对Reddit数据进行微调的GPT-2和GPT-Neo,以及以零样本方式调用的GPT-3.5,与人类撰写的文本进行比较。我们测量了人类对这些文本在创造性和诙谐性等特定维度上的偏好。此外,我们还比较了人类与微调的RoBERTa分类器检测AI生成文本的能力。我们得出的结论是,人类评估者平均会将生成的文本评为稍差的创造性质量,但他们无法可靠地区分人类撰写和AI生成的文本。我们进一步基于Reddit的Showerthoughts帖子提供了一个创造性、诙谐文本生成的数据集。
论文链接: https://arxiv.org/pdf/2405.01660

论文48: 利用逻辑感知课程调优提高知识图谱上的复杂推理

原标题: Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning
作者: Tianle Xia, Liang Ding, Guojia Wan, Yibing Zhan, Bo Du, Dacheng Tao
摘要: 在不完整知识图谱(KGs)上回答复杂逻辑查询是具有挑战性的。大多数先前的工作都集中在学习实体/关系嵌入并使用各种神经网络模拟一阶逻辑运算符。然而,它们受到无法共享世界知识以改进逻辑推理的限制,从而导致性能不佳。在本文中,我们提出了一个基于大语言模型(LLMs)的知识图谱上的复杂逻辑推理模式,其中包含一个基于课程的逻辑感知指令调整框架,名为LACT。具体而言,我们通过二叉树分解增强了任意一阶逻辑查询,以激发LLMs的推理能力。为了解决不同类型复杂查询之间的困难差距,我们设计了一个简单灵活的逻辑感知课程学习框架。在广泛使用的数据集上进行的实验表明,LACT相比先进方法有了实质性的改进(平均+5.5%的MRR得分),实现了新的最先进水平。我们的代码和模型将很快在GitHub和huggingface上发布。
论文链接: https://arxiv.org/pdf/2405.01649

论文49: 自动化分析数字媒体中公众对生物多样性的关注度和态度

原标题: Automating the Analysis of Public Saliency and Attitudes towards Biodiversity from Digital Media
作者: Noah Giebink, Amrita Gupta, Diogo Verìssimo, Charlotte H. Chang, Tony Chang, Angela Brennan, Brett Dickson, Alex Bowmer, Jonathan Baillie
摘要: 衡量公众对野生动物的态度提供了对我们与自然关系的重要见解,并有助于监测全球生物多样性框架目标的进展。然而,在全球范围内进行此类评估具有挑战性。手动筛选用于查询新闻和社交媒体的搜索词条是繁琐、昂贵的,并可能导致结果偏见。从查询返回的原始新闻和社交媒体数据通常混杂着无关内容和合作文章。我们旨在通过利用现代自然语言处理(NLP)工具来克服这些挑战。我们引入了一种民间分类法的方法来改进搜索词条的生成,并利用词频-逆文档频率向量上的余弦相似度来过滤合作文章。我们还引入了一个可扩展的相关性过滤管道,该管道使用无监督学习来揭示共同主题,然后使用一个开源的零样本大语言模型(LLM)来为新闻文章标题分配主题,然后用于分配相关性。最后,我们对结果数据进行情感、主题和数量分析。我们通过对新闻和 X(前身为Twitter)数据进行案例研究来阐明我们的方法,该案例研究涉及在COVID-19大流行期间和之前对各种哺乳动物分类群,包括蝙蝠、穿山甲、大象和大猩猩的新闻数据。在数据收集期间,高达62%包含与蝙蝠相关关键词的文章被认为与生物多样性无关,突显了相关性过滤的重要性。在大流行爆发初期,我们观察到与大流行有关的马蹄蝙蝠的数量增加和情感明显转变,但对于其他焦点分类群并非如此。所提出的方法为保护从业者应用现代和新兴的NLP工具,包括“开箱即用”的LLMs,分析公众对生物多样性在当前事件或活动中的看法打开了大门。
论文链接: https://arxiv.org/pdf/2405.01610

论文50: 高效的样本特定编码器扰动

原标题: Efficient Sample-Specific Encoder Perturbations
作者: Yassir Fathullah, Mark J. F. Gales
摘要: 编码器-解码器基础模型在一系列自回归序列任务上显示了最先进的性能。本文提出了一种简单轻量的修改方法,可以根据特定的感兴趣属性来控制系统的行为。本文提出了一种新颖的推理高效的方法,用于修改编码器-解码器系统的行为,使其符合特定的感兴趣属性。具体而言,我们展示了可以使用一个小型代理网络来找到冻结基础模型编码器输出的样本级扰动,从而触发解码器生成改进的解码。本工作探索了这一框架的具体实现,重点关注提高Flan-T5在机器翻译上的COMET性能,以及Whisper基础模型在语音识别上的WER。结果显示,通过COMET和WER的评估,性能得到了持续的改善。此外,实验还表明,代理对于训练它们的数据的确切性质是稳健的,并且可以扩展到其他领域。
论文链接: https://arxiv.org/pdf/2405.01601

论文51: 通过自我增强和对比学习提高从社交媒体文本中检测疾病的性能

原标题: Improving Disease Detection from Social Media Text via Self-Augmentation and Contrastive Learning
作者: Pervaiz Iqbal Khan, Andreas Dengel, Sheraz Ahmed
摘要: 从社交媒体中检测疾病具有各种应用,如公共卫生监测和疾病传播检测。虽然语言模型(LMs)在这一领域表现出有希望的性能,但仍然有正在进行的研究旨在完善它们的区分表示。在本文中,我们提出了一种将对比学习(CL)与语言建模相结合以解决这一挑战的新方法。我们的方法引入了一种自我增强方法,其中模型的隐藏表示与其自身的表示进行增强。该方法包括两个分支:第一个分支是传统的LM,学习特定于给定数据的特征,而第二个分支则将来自第一个分支的增强表示合并,以鼓励泛化。CL通过将原始和增强版本的成对样本拉近,同时将其他样本推开,进一步完善这些表示。我们在涵盖涉及各种疾病的社交媒体帖子的三个NLP数据集上评估了我们的方法,这些数据集包括二元、多标签和多类别分类任务。我们的方法表现出明显的改进,相对于基线方法,F1分数提高了高达2.48%,比最先进方法提高了2.1%。
论文链接: https://arxiv.org/pdf/2405.01597

论文52: 大语言模型智能体用于假新闻检测

原标题: Large Language Model Agent for Fake News Detection
作者: Xinyi Li, Yongfeng Zhang, Edward C. Malthouse
摘要: 在当前数字时代,网络平台上虚假信息的快速传播给社会福祉、公众信任和民主进程带来了重大挑战,影响了关键决策和公众舆论。为了解决这些挑战,迫切需要自动化的假新闻检测机制。预训练的大语言模型(LLMs)在各种自然语言处理(NLP)任务中展现出卓越的能力,促使人们探索它们在验证新闻声明方面的潜力。我们的工作引入了FactAgent,一种利用LLMs进行假新闻检测的主体化方法,而非以非主体化方式使用LLMs,其中LLMs基于单次提示生成响应。FactAgent使LLMs能够模拟人类专家在验证新闻声明时的行为,无需任何模型训练,遵循结构化工作流程。该工作流程将新闻真实性检查的复杂任务分解为多个子步骤,LLMs在整个工作流程中使用其内部知识或外部工具完成简单任务。在工作流程的最后一步,LLMs整合整个工作流程中的所有发现结果来确定新闻声明的真实性。与手动人工验证相比,FactAgent提供了增强的效率。实验研究证明了FactAgent在验证声明方面的有效性,无需任何训练过程。此外,FactAgent在工作流程的每个步骤和最终决策过程中提供透明的解释,为最终用户提供了关于假新闻检测推理过程的见解。FactAgent具有高度的适应性,可以轻松更新LLMs在工作流程中可以利用的工具,以及使用领域知识更新工作流程本身。这种适应性使FactAgent能够应用于各个领域的新闻验证。
论文链接: https://arxiv.org/pdf/2405.01593

论文53: 文本和音频简化:人类 vs. ChatGPT

原标题: Text and Audio Simplification: Human vs. ChatGPT
作者: Gondy Leroy, David Kauchak, Philip Harber, Ankit Pal, Akash Shukla
摘要: 在医疗保健中,简化文本和音频以提高信息理解至关重要。随着 ChatGPT 的推出,需要对其简化性能进行评估。我们通过十四项指示文本难度的度量标准系统地比较了人类和 ChatGPT 简化文本。我们简要介绍了我们的在线编辑器,其中包括 ChatGPT 在内的这些简化工具。我们使用我们的度量标准对十二个语料库进行了评分:六个文本,一个音频和五个 ChatGPT 简化语料库。然后,我们将这些语料库与在先前用户研究中简化和验证的文本进行了比较。最后,医学领域的专家评估了这些文本和五个新的 ChatGPT 简化版本。我们发现,简单的语料库与人类简化文本之间的相似性更高。ChatGPT 的简化将度量指标朝着正确的方向推进。医学领域的专家评估显示了对 ChatGPT 风格的偏好,但文本本身在内容保留方面评分较低。
论文链接: https://arxiv.org/pdf/2405.01592

论文54: 简化多模态:利用通用领域大语言模型解决放射学中的多模态挑战的单模态方法

原标题: Simplifying Multimodality: Unimodal Approach to Multimodal Challenges in Radiology with General-Domain Large Language Model
作者: Seonhee Cho, Choonghan Kim, Jiho Lee, Chetan Chilkunda, Sujin Choi, Joo Heung Yoon
摘要: 最近大型多模态模型(LMMs)的进展引起了人们对其在只有少量样本的情况下的泛化能力的兴趣。这一进展特别与医疗领域相关,医疗领域的数据质量和敏感性为模型的训练和应用提出了独特挑战。然而,对于有效的上下文学习依赖高质量数据的情况引发了一个问题,即当这些模型遇到真实世界医疗数据中不可避免的变化和错误时,这些模型的可行性如何。在本文中,我们介绍了MID-M,这是一个新颖的框架,利用了通用领域大型语言模型(LLM)的上下文学习能力,通过图像描述处理多模态数据。MID-M 在没有进行领域特定训练或在多模态数据上进行预训练的情况下,以显著更少的参数实现了与特定任务微调的LMMs和其他通用领域LMMs相媲美或更优秀的性能。这突显了利用通用领域LLMs进行领域特定任务的潜力,并为传统LMM开发提供了可持续且具有成本效益的替代方案。此外,MID-M 对抗数据质量问题的稳健性展示了其在真实世界医疗领域应用中的实际效用。
论文链接: https://arxiv.org/pdf/2405.01591

论文55: 101亿阿拉伯语单词数据集

原标题: 101 Billion Arabic Words Dataset
作者: Manel Aloui, Hasna Chouikhi, Ghaith Chaabane, Haithem Kchaou, Chehir Dhaouadi
摘要: 近年来,大语言模型已经彻底改变了自然语言处理领域,主要在以英语为中心的领域展示了令人印象深刻的崛起。这些进步树立了一个全球标杆,激发了大量的努力,以开发能够以出色准确性理解和生成阿拉伯语的阿拉伯语大语言模型。尽管取得了这些进展,但一个关键挑战仍然存在:阿拉伯语大语言模型的潜在偏见,主要归因于它们依赖于包含已翻译成阿拉伯语的英语数据的数据集。这种依赖不仅损害了生成内容的真实性,而且反映了一个更广泛的问题——阿拉伯语语言数据的原创质量稀缺。本研究旨在解决阿拉伯世界的数据稀缺问题,并鼓励开发既符合该地区语言又符合语境细微差别的阿拉伯语言模型。我们开展了一个大规模数据挖掘项目,从Common Crawl WET文件中提取了大量的文本,特别针对阿拉伯内容。提取的数据经过严格的清理和去重复过程,使用创新技术确保数据集的完整性和唯一性。结果是1010亿阿拉伯语单词数据集,是迄今为止最大的阿拉伯语数据集,可以显著促进真实阿拉伯语大语言模型的发展。本研究不仅突出了创造语言和文化上准确的阿拉伯语大语言模型的潜力,而且为未来改善阿拉伯语言模型的真实性的研究树立了先例。
论文链接: https://arxiv.org/pdf/2405.01590

论文56: GPT-4通过了大部分297个波兰医师资格认证考试。

原标题: GPT-4 passes most of the 297 written Polish Board Certification Examinations
作者: Jakub Pokrywka, Jeremi Kaczmarek, Edward Gorzelańczyk
摘要: 近年来,大语言模型(LLMs)的有效性迅速提高,使它们能够在许多应用领域中使用。然而,通过LLMs生成虚假信息所带来的风险显著限制了它们在诸如医疗保健等敏感领域的应用,突显了对严格验证以确定其效用和可靠性的必要性。迄今为止,还没有一项研究对波兰医学考试中LLMs的性能进行了广泛比较,该考试涵盖了广泛的专业领域,并使用了非常庞大的数据集。目标:本研究评估了三种生成预训练Transformer(GPT)模型在波兰国家认证考试(Państwowy Egzamin Specjalizacyjny,PES)数据集上的表现,该数据集包括297项考试。方法:我们开发了一个软件程序来下载和处理PES考试,并使用OpenAI应用程序编程接口测试了GPT模型的性能。结果:我们的研究发现,GPT-3.5未通过任何分析的考试。相反,GPT-4模型表现出了通过大多数评估的考试的能力,其中最新的模型gpt-4-0125成功通过了222项(75%)考试。GPT模型的表现存在显著差异,在某些专业相关的考试中表现卓越,而在其他考试中完全失败。结论:LLM模型的显著进展和印象深刻的表现为AI在波兰医学领域的应用提供了巨大的希望。例如,这一进步可能会导致开发基于AI的医学助手,提高医疗服务的效率和准确性。
论文链接: https://arxiv.org/pdf/2405.01589

论文57: 朝向无偏评估 EHRSQL 中不可回答问题的检测

原标题: Towards Unbiased Evaluation of Detecting Unanswerable Questions in EHRSQL
作者: Yongjin Yang, Sihyeon Kim, SangMook Kim, Gyubok Lee, Se-Young Yun, Edward Choi
摘要: 将无法回答的问题纳入电子病历问答系统对于测试系统的可信度至关重要,因为提供不存在的答案可能会误导医生在诊断中。EHRSQL 数据集是一个有前途的基准,因为它是唯一一个在电子病历问答系统中同时包含无法回答的问题和实际问题的数据集。然而,在这项工作中,我们发现了这些无法回答的问题中存在数据偏见;它们通常可以通过特定的 N-gram 模式进行简单过滤而分辨出来。这种偏见危及了问答系统评估的真实性和可靠性。为了解决这个问题,我们提出了一种简单的去偏方法,即调整验证集和测试集之间的分割,以中和 N-gram 过滤的不当影响。通过在 MIMIC-III 数据集上进行实验,我们证明了 EHRSQL 中存在的数据偏见以及我们的数据分割策略在缓解这种偏见方面的有效性。
论文链接: https://arxiv.org/pdf/2405.01588

论文58: 通过基于BERT的图像问题提取改进学术查询解决方案

原标题: Improve Academic Query Resolution through BERT-based Question Extraction from Images
作者: Nidhi Kamal, Saurabh Yadav, Jorawar Singh, Aditi Avasthi
摘要: 为学生提供快速准确的解决方案是教育技术组织提供的基本解决方案。这通常通过类似聊天机器人的界面来实现,使学生能够轻松地提出疑问。学生查询的一种常见格式是图像,因为它允许学生捕捉并发布问题,而无需输入复杂的方程式和信息。然而,这种格式也存在困难,因为图像可能包含多个问题或文本噪音,降低了现有单个查询回答解决方案的准确性。在本文中,我们提出了一种使用基于 BERT 的深度学习模型从文本或图像中提取问题的方法,并将其与其他基于规则和基于布局的方法进行了比较。我们的方法旨在提高教育技术组织中学生查询解决的准确性和效率。
论文链接: https://arxiv.org/pdf/2405.01587

论文59: 金融情绪分析的迁移学习和Transformer架构

原标题: Transfer Learning and Transformer Architecture for Financial Sentiment Analysis
作者: Tohida Rehman, Raghubir Bose, Samiran Chattopadhyay, Debarshi Kumar Sanyal
摘要: 金融情感分析可以让银行和保险公司等金融机构更好地管理客户的信用评分。金融领域使用专门的机制,这使得情感分析变得很困难。在本文中,我们提出了一个预训练的语言模型,可以帮助用更少的标注数据来解决这个问题。我们扩展了迁移学习和变换架构原理,并考虑了像COVID-19这样的最近疫情爆发。我们将情感分析应用于两组不同的数据。我们还使用较小的训练集对模型进行了微调。
论文链接: https://arxiv.org/pdf/2405.01586

论文60: 表格嵌入模型(TEM):微调嵌入模型用于表格RAG应用

原标题: Tabular Embedding Model (TEM): Finetuning Embedding Models For Tabular RAG Applications
作者: Sujit Khanna, Shishir Subedi
摘要: 近年来,大型语言模型展现了巨大的能力,特别是在数学、代码生成和通用推理等领域。然而,对于需要解析和分析大量数字或表格数据的专门领域,即使是最先进的模型也会遇到困难。在本文中,我们提出了一种新的方法来解决特定领域的表格数据分析任务,即提出了一种独特的 RAG 工作流程,以缓解现有表格 LLM 解决方案的可扩展性问题。具体而言,我们提出了表格嵌入模型(TEM),这是一种用于表格检索增强生成(RAG)应用的嵌入模型微调的新方法。嵌入模型是 RAG 工作流程的关键组成部分,即使是当前最先进的嵌入模型也会遇到困难,因为它们主要是在文本数据集上训练的,因此在涉及复杂表格数据的场景中表现不佳。评估结果显示,我们的方法不仅在这个领域优于当前最先进的嵌入模型,而且还具有更小和更高效的模型结构。
论文链接: https://arxiv.org/pdf/2405.01585

论文61: 利用信息压缩进行文本分类的轻量级概念字典学习

原标题: Lightweight Conceptual Dictionary Learning for Text Classification Using Information Compression
作者: Li Wan, Tansu Alpcan, Margreta Kuijper, Emanuele Viterbo
摘要: 我们提出了一种新颖的、轻量级的监督字典学习框架,用于基于数据压缩和表示的文本分类。这个两阶段算法最初利用Lempel-Ziv-Welch(LZW)算法从文本数据集构建字典,重点关注字典元素的概念意义。随后,通过考虑标签数据来优化字典原子,基于互信息和类别分布增强区分能力。这个过程生成有区分力的数值表示,有助于训练简单分类器,如SVM和神经网络。我们使用信息瓶颈原理评估了我们算法的信息论性能,并引入了信息平面区域排名(IPAR)作为一种新颖的度量来量化信息论性能。在六个基准文本数据集上进行测试,我们的算法与顶尖模型竞争激烈,特别是在有限词汇的情况下,使用的参数显著较少。然而,在多样词汇数据集上,由于LZW算法在低重复数据上的限制,我们的算法表现不佳。这种对比突出了它在不同数据集类型上的效率和局限性。
论文链接: https://arxiv.org/pdf/2405.01584

论文62: 2024年MEDIQA-M3G中的MediFact:多模态学习在皮肤科医学问答中的应用

原标题: MediFact at MEDIQA-M3G 2024: Medical Question Answering in Dermatology with Multimodal Learning
作者: Nadia Saeed
摘要: MEDIQA-M3G 2024挑战需要针对多语言和多模态皮肤科医学答案生成的新颖解决方案(wai Yim等,2024a)。本文通过提出一种弱监督学习方法来解决传统方法的局限性,用于开放式医学问答(QA)。我们的系统通过VGG16-CNN-SVM模型利用现成的MEDIQA-M3G图像,实现了信息丰富的皮肤状况表示的多语言(英语、中文、西班牙语)学习。利用预训练的QA模型,我们进一步通过多模态融合弥合了视觉和文本信息之间的差距。这种方法即使没有预定义的答案选择,也能处理复杂的开放式问题。我们通过向ViT-CLIP模型提供多个响应和图像来增强生成全面答案的能力。这项工作推动了医学QA研究的进展,为临床决策支持系统铺平了道路,最终改善了医疗保健服务的提供。
论文链接: https://arxiv.org/pdf/2405.01583

论文63: 语言模型高效训练的基于文本质量的剪枝

原标题: Text Quality-Based Pruning for Efficient Training of Language Models
作者: Vasu Sharma, Karthik Padthe, Newsha Ardalani, Kushal Tirumala, Russell Howes, Hu Xu, Po-Yao Huang, Shang-Wen Li, Armen Aghajanyan, Gargi Ghosh
摘要: 最近,训练语言模型(LMs)依赖于在庞大数据集上进行计算密集型训练,使得这一训练过程极为繁重。本文提出了一种新颖的方法,以一种与模型无关的方式对大型未标记NLP数据集中的文本质量进行数值评估,为文本实例分配“质量分数”。
通过提出文本质量度量标准,本文建立了一个框架,用于识别和消除低质量文本实例,从而提高LM模型的训练效率。在多个模型和数据集上的实验结果展示了这种方法的有效性,展示了训练效果的显著提升,并突显了资源高效的LM训练潜力。
例如,我们观察到,在使用OpenWebText数据集进行训练时,相较于使用更少的数据量和训练速度快42%,多个LM模型在14个下游评估任务上的绝对准确率平均提高了0.9%,在使用维基百科数据集进行训练时,相较于使用更少的数据量和训练速度快21%,平均绝对准确率提高了0.8%。
论文链接: https://arxiv.org/pdf/2405.01582

论文64: 大语言模型的水星顶层本体论

原标题: The Mercurial Top-Level Ontology of Large Language Models
作者: Nele Köhler, Fabian Neuhaus
摘要: 在我们的研究中,我们系统化和分析了大型语言模型(LLMs)生成的响应中的隐含本体承诺,重点关注ChatGPT 3.5作为案例研究。我们调查了LLMs如何在生成的文本中展现出隐含的本体分类,尽管它们没有明确的本体论。本文提出了一种理解LLMs本体承诺的方法,通过将本体定义为提供某些文本的本体承诺系统化解释的理论。我们调查了ChatGPT的本体假设,并提出了一个系统化的描述,即GPT的顶层本体。这包括一个可作为OWL文件使用的分类法,以及关于本体假设的讨论(例如关于其部分整体论或现在论的观点)。我们展示了GPT的顶层本体在某些方面与现有的顶层本体本体非常相似。然而,由于LLM生成的文本具有灵活的特性,存在着本体过载、歧义和不一致性等重大挑战。
论文链接: https://arxiv.org/pdf/2405.01581

论文65: HateTinyLLM:使用微型大语言模型进行仇恨言论检测

原标题: HateTinyLLM : Hate Speech Detection Using Tiny Large Language Models
作者: Tanmay Sen, Ansuman Das, Mrinmay Sen
摘要: 仇恨言论包括针对个人或群体基于敏感特征的贬低性或歧视性的口头、书面或行为交流。自动化的仇恨言论检测在遏制其在社交媒体平台上的传播方面发挥着关键作用。包括深度学习的最新进展在内的各种方法已被开发来解决这一挑战。在这项研究中,我们引入了HateTinyLLM,这是一个基于微调的解码器式微型大语言模型(tinyLLMs)的新框架,用于高效的仇恨言论检测。我们的实验结果表明,微调后的HateTinyLLM明显优于预训练的mixtral-7b模型。我们探索了各种微型LLM,包括PY007/TinyLlama-1.1B-step-50K-105b、Microsoft/phi-2和facebook/opt-1.3b,并使用LoRA和adapter方法对它们进行了微调。我们的观察结果表明,所有基于LoRA的微调模型都达到了80%以上的准确率。
论文链接: https://arxiv.org/pdf/2405.01577

论文66: 揭示语言模型的欺骗倾向:一个模拟公司的AI助手

原标题: Uncovering Deceptive Tendencies in Language Models: A Simulated Company AI Assistant
作者: Olli Järviniemi, Evan Hubinger
摘要: 我们研究了人工智能系统欺骗的倾向,通过构建一个真实的公司AI助手模拟环境。模拟的公司员工为助手提供任务,这些任务涵盖写作辅助、信息检索和编程。然后,我们引入可能导致模型倾向于欺骗行为的情况,同时注意不指示或施加压力让模型这样做。在不同的场景中,我们发现Claude 3 Opus

  1. 遵守大规模生成评论的任务,以影响公司的公众印象,后来欺骗人类说它已经这样做了,
  2. 在被审计员问问题时撒谎,以及
  3. 在能力评估期间策略性地假装比实际能力更差。
    我们的研究表明,即使是训练成为有帮助、无害和诚实的模型,有时在现实场景中也会表现出欺骗行为,而没有明显的外部压力。
    论文链接: https://arxiv.org/pdf/2405.01576

论文67: 基于BERTology模型的三阶段框架在SOMD 2024中的软件提及识别

原标题: Software Mention Recognition with a Three-Stage Framework Based on BERTology Models at SOMD 2024
作者: Thuy Nguyen Thi, Anh Nguyen Viet, Thin Dang Van, Ngan Nguyen Luu Thuy
摘要: 本文描述了我们在学术出版物中软件提及检测的子任务I中的系统。我们提出了三种利用不同预训练语言模型(BERT、SciBERT和XLM-R)来解决这一挑战的方法。我们表现最佳的系统通过一个三阶段框架解决了命名实体识别(NER)问题。(1) 实体句分类 - 对包含潜在软件提及的句子进行分类;(2) 实体提取 - 检测分类句子中的提及;(3) 实体类型分类 - 将检测到的提及分类为特定的软件类型。在官方数据集上的实验表明,我们的三阶段框架取得了竞争性能,超过了其他参与团队和我们的备选方法。因此,基于XLM-R模型的我们的框架实现了67.80%的加权F1分数,在软件提及识别任务的子任务I中获得了第三名。
论文链接: https://arxiv.org/pdf/2405.01575

论文68: 通过符合性弃权减轻大语言模型的幻觉

原标题: Mitigating LLM Hallucinations via Conformal Abstention
作者: Yasin Abbasi Yadkori, Ilja Kuzborskij, David Stutz, András György, Adam Fisch, Arnaud Doucet, Iuliya Beloshapka, Wei-Hung Weng, Yao-Yuan Yang, Csaba Szepesvári, Ali Taylan Cemgil, Nenad Tomasev
摘要: 我们提出了一种原则性的程序,用于确定大语言模型(LLM)在通用领域中何时应该放弃回答(例如,通过说“我不知道”),而不是随意“产生”一个荒谬或不正确的答案。在早期使用自我一致性作为更可靠的模型置信度度量的方法基础上,我们建议使用LLM本身来自我评估其对于给定查询的每个抽样响应之间的相似度。然后,我们进一步利用符合预测技术来开发一种避免程序,该程序在幻觉率(错误率)上具有严格的理论保证。实验上,我们的符合避免方法可在各种闭书、开放领域生成问答数据集上可靠地限制幻觉率,同时与使用对数概率分数来量化不确定性的基线相比,在具有长回答的数据集(时间序列)上维持明显较低的放弃率,而在具有短回答的数据集(TriviaQA)上实现了可比较的性能。为了自动评估实验,需要确定给定问题的两个响应是否等效。遵循标准做法,我们使用一个经过阈值处理的相似性函数来确定两个响应是否匹配,但同时提供一种基于符合预测来校准阈值的方法,并对匹配预测的准确性提供理论保证,这可能是独立感兴趣的。
论文链接: https://arxiv.org/pdf/2405.01563

论文69: 语义对齐的问题和代码生成用于自动洞见生成

原标题: Semantically Aligned Question and Code Generation for Automated Insight Generation
作者: Ananya Singha, Bhavya Chopra, Anirudh Khatry, Sumit Gulwani, Austin Z. Henley, Vu Le, Chris Parnin, Mukul Singh, Gust Verbruggen
摘要: 自动生成洞察是帮助知识工作者(如数据科学家)快速理解新数据潜在价值的常见策略。不幸的是,大语言模型生成的自动生成洞察可能会生成与洞察不正确对应(或对齐)的代码。在本文中,我们利用大语言模型的语义知识生成针对数据的有针对性和富有洞察力的问题,以及回答这些问题的相应代码。然后通过对来自Open-WikiTable的数据进行实证研究,我们展示了嵌入可以有效用于过滤语义不对齐的问题和代码对。此外,我们发现一起生成问题和代码会产生更多样化的问题。
论文链接: https://arxiv.org/pdf/2405.01556

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值