在行业规模上的 AI 辅助 SQL 作者
原标题: AI-Assisted SQL Authoring at Industry Scale
作者: Chandra Maddila, Negar Ghorbani, Kosay Jabre, Vijayaraghavan Murali, Edwin Kim, Parth Thakkar, Nikolay Pavlovich Laptev, Olivia Harman, Diana Hsu, Rui Abreu, Peter C. Rigby
机构: 美国Meta平台公司
摘要: SqlCompose 是一个利用生成式人工智能来辅助数据分析任务的工具,特别是 SQL 查询。它解决了 SQL 具有声明性、具有正式表模式,并且通常以非线性方式编写的挑战。作者们开发了一个内部 SQL 基准来测试 Public Llama 模型的性能,发现它表现良好,单行预测的 BLEU 得分为 53%,多行预测为 24%。然后他们在内部数据和数据库模式上对 Llama 模型进行微调,导致性能大幅提升。他们还开发了一个填充中间模型 SqlComposeFIM,该模型能够意识到需要完成的行前后的上下文,这个模型比其他两个模型表现出了35个百分点的优势。此外,他们衡量了模型正确获取表名的频率,并发现 SqlComposeFIM 能够在 75% 的时间内做到这一点,这是对其他两个模型的重大改进。作者们还在 Meta 推出了 SqlComposeFIM,并收到了用户的积极反馈,包括完成繁琐或重复的 SQL 子句,建议模板编码,并帮助消除记住困难 SQL 语法的需要。然而,一些用户报告表和列名幻觉,随着 SqlComposeFIM 的发布,这种情况已经减少。总体而言,尽管规模较小,SqlCompose 模型始终优于公共和内部 LLM,提供了早期迹象,即较小的专业模型可以胜过较大的通用模型。
论文链接: https://arxiv.org/abs/2407.13280
巴巴是AI:打破规则,超越基准。
原标题: Baba Is AI: Break the Rules to Beat the Benchmark
作者: Nathan Cloos, Meagan Jens, Michelangelo Naim, Yen-Ling Kuo, Ignacio Cases, Andrei Barbu, Christopher J. Cueva
机构: 斯坦福大学 谷歌
摘要: 人类通过遵循现有的规则和程序来解决问题,同时也通过创造性的飞跃来重新定义这些规则和目标。为了探究这些能力,我们开发了一个基于游戏《Baba Is You》的新基准测试,其中一个智能体操纵环境中的物体和规则,规则由可移动的带有文字的瓷砖表示,以达到指定的目标并赢得游戏。我们测试了三种最先进的多模态大语言模型(OpenAI GPT-4o、Google Gemini-1.5-Pro 和 Gemini-1.5-Flash),发现它们在需要操纵和组合游戏规则的泛化时失败得相当惨重。
论文链接: https://arxiv.org/abs/2407.13729
大语言模型作为函数逼近器:术语、分类和评估问题
原标题: LLMs as Function Approximators: Terminology, Taxonomy, and Questions for Evaluation
作者: David Schlangen
机构: 波茨坦大学 德国
摘要: 自然语言处理已经迅速从建模特定任务转变为使用更通用的预训练模型,并对其进行微调以适用于特定任务,直至我们现在拥有了看似固有的通用主义模型。本文认为,由于对这些模型所建模的内容缺乏清晰度,导致了类似"人工通用智能"的隐喻,这并不有助于评估它们的优势和劣势。提议是要看到它们的通用性,以及它们在基于自然语言规范的专业功能近似方面的潜在价值。这种框架突显了近似质量的问题,但除此之外,还涉及到这些功能的可发现性、稳定性和可保护性的问题。正如本文将展示的那样,这种框架因此将从实践和理论角度汇集各种评估方面的问题,以及通常被降级为次要地位的问题(如"提示注入"和"越狱")。
论文链接: https://arxiv.org/abs/2407.13744
黑盒意见操纵攻击对大语言模型的检索增强生成
原标题: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models
作者: Zhuo Chen, Jiawei Liu, Haotan Liu, Qikai Cheng, Fan Zhang, Wei Lu, Xiaozhong Liu
机构: 武汉大学 沃斯特理工学院
摘要: 检索增强生成(RAG)被应用于解决大型语言模型的幻觉问题和实时约束,但也会导致对检索损坏攻击的脆弱性。现有研究主要探讨了RAG在白盒和封闭领域问答任务中的不可靠性。本文旨在揭示检索增强生成(RAG)模型在面对黑盒攻击进行观点操纵时的脆弱性。我们探讨了这种攻击对用户认知和决策的影响,为增强RAG模型的可靠性和安全性提供新的见解。我们通过指导操纵RAG中检索模型的排名结果,并将这些结果用作训练替代模型的数据。通过对替代模型采用对抗性检索攻击方法,进一步实现了对RAG的黑盒传递攻击。在跨多个主题的观点数据集上进行的实验表明,所提出的攻击策略可以显著改变RAG生成内容的观点极性。这表明了模型的脆弱性,并更重要的是揭示了对用户认知和决策的潜在负面影响,使用户更容易接受不正确或有偏见的信息。
论文链接: https://arxiv.org/abs/2407.13757
潜在因果探究:利用数据的因果模型进行探究的形式化视角
原标题: Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data
作者: Charles Jin
机构: 麻省理工学院
摘要: 随着语言模型在各种自然语言处理任务上表现日益出色,探测分类器已成为更好理解其内部运作的不可或缺的技术。典型的设置包括(1)定义一个辅助任务,其中包含用标签注释的文本数据集,然后(2)监督小型分类器,从预训练语言模型处理数据集时的表示中预测标签。高探测准确性被解释为证据,表明语言模型已经学会执行辅助任务,作为其原始预训练目标的无监督副产品。然而,尽管探测器的广泛使用,其稳健的设计和分析仍然是一个挑战。我们利用结构因果模型(SCM)对探测进行了正式的视角。具体来说,鉴于一个解释训练期间观察到的标记分布的SCM,我们将中心假设框架为语言模型是否已经学会表示SCM的潜在变量。在实证方面,我们在合成网格世界导航任务的背景下扩展了最近对语言模型的研究,其中对潜在因果结构的精确模型使我们能够从探测实验的结果中得出有力的推论。我们的技术为语言模型学习文本背后的潜在因果概念的能力提供了强有力的实证证据。
论文链接: https://arxiv.org/abs/2407.13765
在直接偏好优化中理解参考策略
原标题: Understanding Reference Policies in Direct Preference Optimization
作者: Yixin Liu, Pengfei Liu, Arman Cohan
机构: 耶鲁大学 上海交通大学 Allen人工智能研究所
摘要: 直接偏好优化(DPO)已成为大语言模型(LLMs)指令微调的广泛使用训练方法。在这项工作中,我们探讨了DPO的一个少有人研究的方面 - 它对参考模型或策略的依赖性。这些参考策略通常被实例化为需要进一步微调的模型,因为它们可以对DPO的有效性施加上限。因此,我们在这项工作中解决了三个相关的研究问题。首先,我们探讨了KL散度约束在DPO中的最佳强度,该约束惩罚与参考策略的偏差,并发现DPO对这种强度很敏感。接下来,我们通过在DPO和相关学习目标之间提供理论和实证比较,展示了DPO的优越性,来检验参考策略对指令微调的必要性。此外,我们调查了DPO是否受益于更强的参考策略,发现更强的参考策略可以提高性能,但仅当它与被微调的模型相似时。我们的研究突出了参考策略在DPO中的混淆作用,并为最佳实践提供了见解,同时也确定了未来研究的开放性问题。
论文链接: https://arxiv.org/abs/2407.13709
ANHALTEN:用于德语标记级别无参考幻觉检测的跨语言转移
原标题: ANHALTEN: Cross-Lingual Transfer for German Token-Level Reference-Free Hallucination Detection
作者: Janek Herrlein, Chia-Chien Hung, Goran Glavaš
机构: 维尔茨堡大学 德国 曼海姆大学 德国 日本电气株式会社欧洲实验室 德国
摘要: 研究令牌级别的无参考虚构检测主要集中在英语上,主要是因为其他语言中缺乏健壮数据集。这阻碍了对跨语言转移在这一重要的自然语言处理应用中有效性的系统调查。为了填补这一空白,我们引入了一个新的评估数据集ANHALTEN,将英语虚构检测数据集扩展到德语。据我们所知,这是第一个探索令牌级别无参考虚构检测的跨语言转移的工作。ANHALTEN包含德语中的黄金标注,这些标注是平行的(即,可以直接与原始英语实例进行比较)。我们对几种著名的跨语言转移方法进行基准测试,表明更大的上下文长度会导致在德语中更好的虚构检测,即使没有成功的上下文。重要的是,我们展示了高效的少样本转移是大多数设置中最有效的方法。这突显了在目标语言中进行最少标注工作对于无参考虚构检测的实际好处。为了推动未来关于跨语言令牌级别无参考虚构检测的研究,我们将ANHALTEN公开提供:此处链接。
论文链接: https://arxiv.org/abs/2407.13702
Github: https://github.com/janekh24/anhalten
基准一致性测试的正确方法:LLM基准评估指南
原标题: Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation
作者: Yotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen
机构: IBM Research AI MIT CSAIL MIT-IBM Watson AI Lab
摘要: 最近语言模型(LMs)的进展催生了多个基准的创建,旨在评估这些模型的通用能力。然而,一个关键任务是评估基准本身的有效性。这通常是通过基准一致性测试(BAT)来完成的,其中新基准通过某种一致性度量(例如,排名相关性)与已建立的基准进行验证。尽管BAT对于基准构建者和使用者至关重要,但目前并没有针对这种一致性测试的标准化程序。这种不足可能导致无效的结论,从而培养对基准的不信任,并破坏了正确选择适当基准的能力。通过分析超过40个知名基准,我们展示了一些被忽视的方法选择如何显著影响BAT结果,潜在地削弱了结论的有效性。为了解决这些不一致性,我们提出了一套BAT最佳实践,并展示了如何利用这些方法显著提高BAT的稳健性和有效性。为促进采用和促进未来研究,我们推出了BenchBench,一个用于BAT的Python包,并发布了BenchBench排行榜,一个元基准,旨在使用同行评估基准。我们的发现强调了标准化BAT的必要性,确保在语言模型研究不断发展的背景下基准评估的稳健性和有效性。
BenchBench包:此处链接
排行榜:此处链接
论文链接: https://arxiv.org/abs/2407.13696
Github: https://github.com/IBM/BenchBench
FuLG: 150B 罗马尼亚语语料库用于语言模型预训练
原标题: FuLG: 150B Romanian Corpus for Language Model Pretraining
作者: Vlad-Andrei Bădoiu, Mihai-Valentin Dumitru, Alexandru M. Gherghescu, Alexandru Agache, Costin Raiciu
机构: 布加勒斯特理工大学 Broadcom 公司
摘要: 语言模型领域的研究正在迅速发展,许多开放模型被发布给公众使用。公开可用的预训练语料库通常只关注少数几种语言,而其他许多语言要么完全缺失,要么极度代表不足。在这份报告中,我们介绍了FuLG,这是一个从CommonCrawl中提取的包含一千五百亿个罗马尼亚语Token的语料库。我们介绍了过滤FuLG的方法,并通过消融研究将其与现有的罗马尼亚语语料库进行了比较。
论文链接: https://arxiv.org/abs/2407.13657
证明者-验证者游戏提高大语言模型输出的可读性
原标题: Prover-Verifier Games improve legibility of LLM outputs
作者: Jan Hendrik Kirchner, Yining Chen, Harri Edwards, Jan Leike, Nat McAleese, Yuri Burda
机构: OpenAI
摘要: 增加大语言模型(LLMs)输出的可信度的一种方法是支持清晰且易于检查的推理,这种属性我们称之为可读性。我们研究在解决小学数学问题的情境中的可读性,并表明仅为了答案正确性而优化思维链解决方案可能会降低可读性。为了减轻可读性的损失,我们提出了一种训练算法,灵感来自于 Anil 等人(2021)的 Prover-Verifier 游戏。我们的算法迭代地训练小的验证者来预测解决方案的正确性,“有帮助的”证明者来产生验证者接受的正确解决方案,以及“狡猾的”证明者来产生欺骗验证者的不正确解决方案。我们发现,在训练过程中,有帮助的证明者的准确性和验证者对对抗性攻击的鲁棒性都会增加。此外,我们表明,可读性训练会转移到受限于时间的人类任务,即验证解决方案的正确性。在大语言模型训练过程中,当检查有帮助的证明者的解决方案时,人类的准确性会提高,而当检查狡猾的证明者的解决方案时,准确性会降低。因此,通过小的验证者进行可检查性训练是增加输出可读性的一种可行技术。我们的结果表明,针对小验证者进行可读性训练是增加大型LLMs对人类可读性的实用途径,因此可能有助于超人类模型的对齐。
论文链接: https://arxiv.org/abs/2407.13692
弱到强推理
原标题: Weak-to-Strong Reasoning
作者: Yuqing Yang, Yan Ma, Pengfei Liu
机构: 上海交通大学 复旦大学 上海人工智能实验室 Generative AI Research Lab (GAIR)
摘要: 当大型语言模型(LLMs)超越人类水平能力时,为这些模型提供全面和准确的监督变得越来越具挑战性。弱到强学习利用一个能力较弱的模型来释放更强大模型的潜在能力,在这种情况下被证明是有价值的。然而,这种方法在复杂推理任务中的有效性仍未经过测试。此外,在弱到强设置下处理推理任务目前缺乏有效方法,以避免盲目模仿弱监督者,包括其错误。在本文中,我们介绍了一个渐进学习框架,使得强模型能够自主地优化其训练数据,而无需来自更高级模型或人工注释数据的输入。该框架从对选择性小型但高质量数据集的监督微调开始,然后通过强模型自身识别的对比样本进行偏好优化。对GSM8K和MATH数据集的大量实验表明,我们的方法显著增强了Llama2-70b的推理能力,使用了三个独立的弱模型。该方法在一个前瞻性的实验设置中进一步得到验证,其中Llama3-8b-instruct有效地监督了在极具挑战性的OlympicArena数据集上的Llama3-70b。这项工作为增强AI推理能力铺平了道路。所有相关代码和资源都可以在\url{this https URL}中找到。
论文链接: https://arxiv.org/abs/2407.13647
Github: https://github.com/GAIR-NLP/weak-to-strong-reasoning
一项关于医疗文书自动编码的可解释性比较研究
原标题: A Comparative Study on Automatic Coding of Medical Letters with Explainability
作者: Jamie Glen, Lifeng Han, Paul Rayson, Goran Nenadic
机构: 兰开斯特大学 曼彻斯特大学
摘要: 这项研究旨在探索自然语言处理(NLP)和机器学习(ML)技术的应用,以实现医学文书编码的自动化,同时具有可视化的可解释性和轻量级的本地计算机设置。目前在临床环境中,编码是一个手动过程,涉及为患者文书中的每个病症、程序和药物分配代码(例如,使用 SNOMED CT 代码的 56265001 心脏病)。在这一领域已经有关于使用最先进的 ML 模型进行自动编码的初步研究;然而,由于模型的复杂性和规模,实际部署尚未实现。为了进一步促进自动编码实践的可能性,我们在本地计算机设置中探索了一些解决方案;此外,我们探讨了可解释性功能以透明化 AI 模型。我们使用公开可获得的 MIMIC-III 数据库和 HAN/HLAN 网络模型进行 ICD 编码预测。我们还尝试了 ICD 和 SNOMED CT 知识库之间的映射。在我们的实验中,模型为 97.98% 的代码提供了有用信息。这项调查的结果可以为在实践中实现自动临床编码提供一些启示,例如在医院环境中,临床医生使用的本地计算机上,项目页面 \url{this https URL}。
论文链接: https://arxiv.org/abs/2407.13638
Github: https://github.com/Glenj01/Medical-Coding
NADI 2024共享任务中的dzNLP:多分类器集成与加权投票和TF-IDF特征
原标题: dzNLP at NADI 2024 Shared Task: Multi-Classifier Ensemble with Weighted Voting and TF-IDF Features
作者: Mohamed Lichouri, Khaled Lounnas, Boualem Nadjib Zahaf, Mehdi Ayoub Rabiai
机构: 阿尔及利亚科技大学
摘要: 这篇论文介绍了我们dzNLP团队在NADI 2024共享任务中的贡献,特别是在子任务1 - 多标签国家级方言识别(MLDID)(封闭跟踪)中。我们探索了各种配置来解决这一挑战:在实验1中,我们利用了n-gram分析器(单词、字符、带有单词边界的字符)的并集,其中n-gram值不同;在实验2中,我们结合了各种权重的词项频率-逆文档频率(TF-IDF)特征的加权并集;在实验3中,我们实现了一个加权的多数投票方案,使用了三个分类器:线性支持向量分类器(LSVC)、随机森林(RF)和K-最近邻(KNN)。
尽管我们的方法简单且依赖于传统的机器学习技术,但在F1分数和精确度方面表现出竞争力。值得注意的是,我们在参与团队中取得了最高的精确度得分,为63.22%。然而,我们的整体F1分数约为21%,受到12.87%的低召回率的显著影响。这表明,虽然我们的模型非常精确,但在召回广泛范围的方言标签方面存在困难,突出了在处理多样化方言变体方面需要改进的关键领域。
论文链接: https://arxiv.org/abs/2407.13608
随着词汇量的增加,规模定律:更大的模型应该配备更大的词汇量
原标题: Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
作者: Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong
机构: 香港大学 海洋人工智能实验室 Contextual AI 俄亥俄州立大学
摘要: 对于扩展大语言模型(LLMs)的研究主要集中在模型参数和训练数据大小,忽略了词汇量的作用。直觉上,更大的词汇量通过用更少的标记表示句子来实现更高效的标记化,但它们也增加了对稀有标记的欠拟合风险。我们通过在多达500B个字符上训练从33M到3B参数的模型,使用各种词汇配置,来研究词汇量如何影响LLM的扩展规律。我们提出了三种预测计算最优词汇量的互补方法:IsoFLOPs分析,导数估计和损失函数的参数拟合。我们的方法得出了相同的结论,即最佳词汇量取决于可用的计算预算,并且更大的模型应该使用更大的词汇量。然而,大多数LLMs使用的词汇量都太小。例如,我们预测Llama2-70B的最佳词汇量至少应该是216K,比其32K的词汇量大7倍。我们通过在不同FLOPs预算下训练具有3B参数的模型来实证验证我们的预测。采用我们预测的最佳词汇量一致地提高了在常用词汇量上的下游性能。通过将词汇量从传统的32K增加到43K,我们在相同的2.3e21 FLOPs上将ARC-Challenge的性能从29.1提高到32.0。我们的工作强调了共同考虑模型参数和词汇量对于有效扩展的必要性。
论文链接: https://arxiv.org/abs/2407.13623
植物:一个用于规划类任务摘要的新问题和数据集
原标题: PLANTS: A Novel Problem and Dataset for Summarization of Planning-Like (PL) Tasks
作者: Vishal Pallagani, Biplav Srivastava, Nitin Gupta
机构: 南卡罗来纳大学
摘要: 文本摘要是一个经过深入研究的问题,涉及从人类消耗的非结构化文本中获取见解,并已在广泛的商业应用中找到应用。然而,许多现实生活任务涉及生成一系列行动以实现特定目标,例如工作流程、食谱、对话和旅行计划。我们将它们称为类似规划(PL)任务,指出它们共享的主要共同点是控制流信息,这些信息可能部分指定。它们的结构提供了一个机会,可以创建更实用的摘要,帮助用户快速做出决策。我们通过引入一个新颖的计划摘要问题、提供一个数据集,并提供一个用于生成PL摘要的基线方法来研究这一观察。通过使用定量指标和定性用户研究来建立基线,我们评估了我们的方法和大型语言模型生成的计划摘要。我们相信这一新颖的问题和数据集可以重新激发摘要研究,一些人认为摘要已经是一个解决的问题。
论文链接: https://arxiv.org/abs/2407.13597
在 StanceEval2024 中的 dzStance:基于句子 Transformer 的阿拉伯语立场检测
原标题: dzStance at StanceEval2024: Arabic Stance Detection based on Sentence Transformers
作者: Mohamed Lichouri, Khaled Lounnas, Khelil Rafik Ouaras, Mohamed Abi, Anis Guechtouli
机构: LCPTS, FGE-USTHB Algiers-ALGERIA CRSTDLA Algiers-ALGERIA Algiers 01 University
摘要: 这项研究比较了使用词项频率-逆文档频率(TF-IDF)特征和句子Transformer来检测作者对三个重要主题的立场——支持、反对或中立——这三个主题分别是COVID-19疫苗、数字转型和妇女赋权。通过实证评估,我们证明了句子Transformer在各种实验设置中优于TF-IDF特征。我们的团队dzStance参加了一个立场检测比赛,在妇女赋权中获得第13名(74.91%),COVID疫苗中获得第10名(73.43%),数字转型中获得第12名(66.97%)。总体而言,我们团队的表现在所有参与者中排名第13(71.77%)。值得注意的是,我们的方法取得了令人期待的F1分数,突显了其在识别不同主题上作者立场的有效性。这些结果强调了句子Transformer在增强应对关键社会问题的立场检测模型方面的潜力。
论文链接: https://arxiv.org/abs/2407.13603
朝向零样本多模态机器翻译
原标题: Towards Zero-Shot Multimodal Machine Translation
作者: Matthieu Futeral, Cordelia Schmid, Benoît Sagot, Rachel Bawden
机构: Inria巴黎 ENS信息学院 CNRS PSL Research University
摘要: 当前的多模态机器翻译(MMT)系统依赖于完全监督的数据(即模型在句子及其翻译以及相关图像上进行训练)。然而,这种类型的数据收集成本高昂,限制了MMT向其他语言对的扩展,因为这些语言对缺乏这样的数据。在这项工作中,我们提出了一种方法,绕过对完全监督数据的需求来训练MMT系统,仅使用多模态英文数据。我们的方法称为ZeroMMT,通过在两个目标的混合上训练一个强大的仅文本机器翻译(MT)模型来实现:在视觉条件下进行掩码语言建模和原始MMT输出与新输出之间的Kullback-Leibler散度。我们在标准的MMT基准测试和最近发布的CoMMuTE上进行评估,CoMMuTE是一个对比基准,旨在评估模型如何使用图像来消除英语句子的歧义。我们获得了接近最先进的MMT模型在额外训练了完全监督示例的情况下的消除歧义性能。为了证明我们的方法可以推广到没有完全监督训练数据的语言,我们将CoMMuTE评估数据集扩展到三种新语言:阿拉伯语、俄语和中文。我们进一步展示,我们可以在推理时使用无分类器指导和不需要任何额外数据来控制消除歧义能力和翻译保真度之间的权衡。我们的代码、数据和训练模型是公开可访问的。
论文链接: https://arxiv.org/abs/2407.13579
在AraFinNLP中的dzFinNlp:改进金融对话智能体中的意图检测
原标题: dzFinNlp at AraFinNLP: Improving Intent Detection in Financial Conversational Agents
作者: Mohamed Lichouri, Khaled Lounnas, Mohamed Zakaria Amziane
机构: 阿尔及利亚科技和医学科学大学LCPTS-FGE 阿尔及利亚阿尔及利亚科学技术研究中心CRSTDLA 阿尔及利亚阿尔及利亚阿尔及利亚01大学
摘要: 在这篇论文中,我们介绍了我们dzFinNlp团队在金融对话代理意图检测方面的贡献,作为AraFinNLP共享任务的一部分。我们尝试了各种模型和特征配置,包括传统的机器学习方法,如使用TF-IDF的LinearSVC,以及深度学习模型,如长短期记忆(LSTM)。此外,我们还探索了基于Transformer的模型在这一任务中的应用。我们的实验显示了令人鼓舞的结果,我们最佳模型在ArBanking77数据集的开发集和测试集上分别实现了93.02%和67.21%的微平均F1分数。
论文链接: https://arxiv.org/abs/2407.13565
基于大语言模型的藏区旅游观点信息生成系统研究
原标题: Research on Tibetan Tourism Viewpoints information generation system based on LLM
作者: Jinhu Qi, Shuai Yan, Wentao Zhang, Yibo Zhang, Zirui Liu, Ke Wang
机构: 成都金城学院 软件工程系 计算机科学系 人工智能系
摘要: 藏地位于中国领土范围内,以其复杂多样的地形而闻名,这是其深厚历史遗产的证明,也是独特宗教精神的摇篮。然而,这些特质的本质阻碍了藏地旅游服务基础设施的发展,使得现有的智能旅游服务无法满足该地区游客的需求。本研究探讨了旅游景点信息差异对藏地旅游业的影响,并解决了建立大语言模型(LLM)评估标准的挑战。引入了一种创新方法,即DualGen Bridge AI系统,采用监督微调技术来增强模型功能并改善优化过程。此外,该研究开创了一种多结构生成结果评估框架。经验验证证实了该框架的有效性。研究还探讨了监督微调方法在专有的DualGen Bridge AI中的应用,旨在优化旅游景点信息的生成。研究结果为优化系统性能提供了宝贵见解,并为LLM技术在藏地旅游服务及其他领域的应用提供支持和启示,有可能通过先进的定制信息生成能力,从而彻底改变智能旅游行业。
论文链接: https://arxiv.org/abs/2407.13561
大语言模型作为可靠的知识库?
原标题: Large Language Models as Reliable Knowledge Bases?
作者: Danna Zheng, Mirella Lapata, Jeff Z. Pan
机构: 爱丁堡大学 华为爱丁堡研究中心
摘要: 最近,自然语言处理(NLP)社区对利用大语言模型(LLMs)进行知识密集型任务表现出越来越浓厚的兴趣,将LLMs视为潜在的知识库(KBs)。然而,LLMs作为知识库的可靠性和功能程度仍未得到充分探讨。尽管先前的研究表明LLMs可以在其参数中编码知识,但仅有参数化知识量并不足以评估它们作为知识库的有效性。本研究定义了可靠的LLM作为知识库应满足的标准,侧重于事实性和一致性,并涵盖已知和未知知识。我们基于这些标准开发了几个度量标准,并使用它们评估了26个流行的LLMs,同时全面分析了模型大小、指导调整和上下文学习(ICL)的影响。我们的结果描绘了令人担忧的画面。即使像GPT-3.5-turbo这样性能很高的模型也不具备事实性或一致性,而ICL和微调等策略也未能使LLMs成为更好的知识库。
论文链接: https://arxiv.org/abs/2407.13578
开源大语言模型能否与商业模型竞争?探索当前 GPT 模型在生物医学任务中的少样本表现
原标题: Can Open-Source LLMs Compete with Commercial Models? Exploring the Few-Shot Performance of Current GPT Models in Biomedical Tasks
作者: Samy Ateia, Udo Kruschwitz
机构: 雷根斯堡大学 德国
BioASQ实验室 CLEF 2024
摘要: 商业大语言模型(LLMs),如OpenAI的GPT-4驱动的ChatGPT和Anthropic的Claude 3 Opus,已经在不同领域的自然语言处理(NLP)基准测试中占据主导地位。新的竞争性开源替代方案,如Mixtral 8x7B或Llama 3,已经出现,并似乎正在缩小差距,通常提供更高的吞吐量,并且使用成本更低。开源LLMs也可以自行托管,这使它们在企业和临床用例中变得有趣,其中不应该由第三方处理敏感数据。我们参加了第12届BioASQ挑战赛,这是一个检索增强生成(RAG)设置,并探索了当前GPT模型Claude 3 Opus、GPT-3.5-turbo和Mixtral 8x7b在上下文学习(零样本、少样本)和QLoRa微调中的性能。我们还探讨了从维基百科中添加的额外相关知识如何改善LLM的性能。在10-shot设置中,Mixtral 8x7b在有无微调的情况下都具有竞争力,但在零样本设置中未能产生可用结果。QLoRa微调和维基百科上下文并没有带来可衡量的性能提升。我们的结果表明,在RAG设置中,商业和开源模型之间的性能差距主要存在于零样本设置中,并且可以通过简单收集少量样本示例来闭合。重新运行这些实验所需的代码可通过GitHub获取。
论文链接: https://arxiv.org/abs/2407.13511
增强生物医学知识发现对疾病的影响:一个端到端的开源框架
原标题: Enhancing Biomedical Knowledge Discovery for Diseases: An End-To-End Open-Source Framework
作者: Christos Theodoropoulos, Andrei Catalin Coman, James Henderson, Marie-Francine Moens
机构: 鲁汶大学 EPFL Idiap研究所
摘要: 不断增长的生物医学出版物数量导致了对高效知识发现的迫切需求。在这种情况下,我们介绍了一个开源的端到端框架,旨在直接从原始文本构建围绕特定疾病的知识。为了促进与疾病相关知识发现的研究,我们创建了两个注释数据集,专注于雷特综合征和阿尔茨海默病,从而实现了生物医学实体之间语义关系的识别。广泛的基准测试探索了表示关系和实体表征的各种方式,为语义关系检测的最佳建模策略提供了见解,并突出了语言模型在知识发现中的能力。我们还进行了探究实验,使用不同的层表示和注意力分数来探索Transformer捕捉语义关系的能力。
论文链接: https://arxiv.org/abs/2407.13492
将约束编程推理与大语言模型预测相结合
原标题: Combining Constraint Programming Reasoning with Large Language Model Predictions
作者: Florian Régin, Elisabetta De Maria, Alexandre Bonlarron
机构: Universit ´e Cˆote d’Azur CNRS I3S Inria France
摘要: 由于约束编程(CP)和机器学习(ML)在文本生成方面面临挑战,其中 CP 难以实现“含义”,而 ML 难以处理结构约束,本文提出了一种解决方案,即将大语言模型(LLM)嵌入到 CP 中。LLM 负责单词生成和含义,而 CP 管理结构约束。这种方法基于 GenCP,这是使用 LLM 生成的域的 On-the-fly Constraint Programming Search(OTFS)的改进版本。与标准的自然语言处理方法 Beam Search(BS)相比,这种结合方法(GenCP with LLM)更快,产生更好的结果,确保满足所有约束。CP 和 ML 的融合为在约束条件下增强文本生成提供了新的可能性。
论文链接: https://arxiv.org/abs/2407.13490
注意力溢出:长上下文缺失项目推荐期间的语言模型输入模糊
原标题: Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation
作者: Damien Sileo
机构: 里尔大学 Inria CNRS 里尔中央学校 UMR 9189 - CRIStAL
摘要: 大语言模型(LLMs)可以从提示中列出的项目中提供缺失元素的建议,这可以用于完成列表或基于用户历史记录的推荐。然而,当呈现太多项目时,它们的性能会下降,因为它们开始建议已包含在输入列表中的项目。这种情况在2024年中期的旗舰LLMs中大约在100个项目时发生。我们在合成问题(例如,在打乱的整数范围中查找缺失数字)和现实电影推荐场景中评估这种现象。我们将这个问题称为“注意力溢出”,因为防止重复需要同时关注所有项目。尽管迭代循环可以缓解这个问题,但它们的成本随着重复率的增加而增加,影响语言模型从冗长输入中提取新颖性的能力。
论文链接: https://arxiv.org/abs/2407.13481
使用适配器的固定和自适应同时机器翻译策略
原标题: Fixed and Adaptive Simultaneous Machine Translation Strategies Using Adapters
作者: Abderrahmane Issam, Yusuf Can Semerci, Jan Scholtes, Gerasimos Spanakis
机构: 马斯特里赫特大学
摘要: 同时机器翻译旨在通过在消耗完整个输入之前开始翻译来解决实时翻译的任务,这在平衡翻译质量和延迟方面存在挑战。等待- k k k策略通过在消耗 k k k个单词后开始翻译来提供解决方案,其中数字 k k k的选择直接影响延迟和质量。在我们希望在推断过程中保持对延迟和质量选择的应用中,等待- k k k策略要求我们训练不止一个模型。在本文中,我们解决了构建一个可以满足多个延迟级别的模型的挑战,我们通过在解码器中引入轻量级适配器模块来实现这一目标。这些适配器被训练成针对不同等待- k k k值进行专门化,并与其他技术相比,它们提供了更大的灵活性,以便实现参数共享的好处并最小化干扰。此外,我们展示了通过与自适应策略相结合,我们可以进一步改善结果。对两种语言方向的实验表明,我们的方法在大多数延迟值上优于或与其他强基线竞争。
论文链接: https://arxiv.org/abs/2407.13469
从单词到世界:认知架构的组合性
原标题: From Words to Worlds: Compositionality for Cognitive Architectures
作者: Ruchira Dhar, Anders Søgaard
摘要: 大语言模型(LLMs)是非常高性能的连接主义系统,但它们是否表现出更多的组合性?更重要的是,这是否是它们表现出色的原因之一?我们对四个LLM系列(12个模型)和三个任务类别进行了实证分析,包括下面介绍的一个新任务。我们的研究结果揭示了LLMs学习组合策略的复杂关系 - 尽管扩展增强了组合能力,但指导调整通常会产生相反的效果。这种差异带来了一些关于如何开发和改进大语言模型以符合人类认知能力的开放问题。
论文链接: https://arxiv.org/abs/2407.13419
通过低成本数据策略提高印度 TTS 系统在实际应用中的词汇外表现
原标题: Enhancing Out-of-Vocabulary Performance of Indian TTS Systems for Practical Applications through Low-Effort Data Strategies
作者: Srija Anand, Praveen Srinivasa Varadhan, Ashwin Sankar, Giri Raju, Mitesh M. Khapra
机构: 印度理工学院 印度
AI4Bharat
摘要: 像印地语和泰米尔语这样的低资源语言的 TTS 数据集通常只包含 10-20 小时的数据,导致词汇覆盖率较低。这种限制在后续应用中变得明显,特别是在领域特定词汇与频繁的英语混合使用相结合时,会导致许多 OOV 词汇。为了突出这一问题,我们创建了一个包含来自多个现实应用的 OOV 词汇的基准。事实上,最先进的印地语和泰米尔语 TTS 系统在这个 OOV 基准上表现不佳,这是通过可懂性测试所指出的。为了提高模型在 OOV 词汇上的表现,我们提出了一种低成本且经济可行的策略来获取更多训练数据。具体来说,我们建议使用志愿者而不是高质量的语音艺术家来录制包含训练数据中未见的字符二元组的单词。我们展示了使用这种廉价数据,模型在 OOV 词汇上的表现得到改善,同时不会影响语音质量和领域内表现。
论文链接: https://arxiv.org/abs/2407.13435
利用大语言模型进行端到端临床试验匹配
原标题: End-To-End Clinical Trial Matching with Large Language Models
作者: Dyke Ferber, Lars Hilgers, Isabella C. Wiest, Marie-Elisabeth Leßmann, Jan Clusmann, Peter Neidlinger, Jiefu Zhu, Georg Wölflein, Jacqueline Lammert, Maximilian Tschochohei, Heiko Böhme, Dirk Jäger, Mihaela Aldea, Daniel Truhn, Christiane Höper, Jakob Nikolas Kather
机构: 医学肿瘤科学系
摘要: 将癌症患者与临床试验进行匹配对于推进治疗和患者护理至关重要。然而,医学自由文本文档的不一致格式和复杂的试验符合条件使得这一过程对医生来说极具挑战性且耗时。我们调查了是否可以使用大语言模型(LLMs)自动化整个试验匹配过程——从在这个 http URL 上识别出与105,600个肿瘤相关临床试验中相关的试验,到生成基于标准的符合条件匹配。使用 GPT-4o 和一组51个合成的电子健康记录(EHRs),我们展示了我们的方法在93.3%的情况下能够识别出相关的候选试验,并在将患者级别信息与基准进行准则级别匹配时达到了88.0%的初步准确率,该基准由人类专家定义。利用LLM反馈显示,最初被认为不正确的39.3%准则要么是模糊的,要么是注释不准确的,经过改进我们的人类基准后,总模型准确率达到了92.7%。总之,我们提出了一个使用LLMs进行临床试验匹配的端到端流水线,展示了在筛选和将试验与个体患者匹配方面的高精度,甚至优于合格医生的表现。我们的完全端到端流水线可以自主运行或在人类监督下运行,并且不局限于肿瘤学,为增强现实世界环境中患者-试验匹配提供了可扩展的解决方案。
论文链接: https://arxiv.org/abs/2407.13463
其他链接: http://clinicaltrials.gov
线性复杂度的自监督学习用于语音处理
原标题: Linear-Complexity Self-Supervised Learning for Speech Processing
作者: Shucong Zhang, Titouan Parcollet, Rogier van Dalen, Sourav Bhattacharya
机构: 三星人工智能中心 剑桥 英国
摘要: 自监督学习(SSL)模型通常需要数周的预训练,使用数十个高端 GPU。这些模型通常具有多头自注意力(MHSA)上下文编码器。然而,MHSA 在输入长度上需要二次时间和空间,导致高昂的预训练成本。已经提出了与 MHSA 具有线性复杂度的替代方案。例如,在监督训练中,SummaryMixing 模型是第一个在多个语音处理任务中胜过 MHSA 的模型。然而,这些更便宜的替代方案尚未被用于 SSL。本文首次研究了一种具有线性复杂度的 SSL 上下文编码器。在 MP3S 基准测试的下游任务中表现更好或相当,SummaryMixing 将 wav2vec 2.0 模型的预训练时间和峰值 VRAM 分别减少了 18% 和 23%,使得使用 4 个 Tesla A100 GPU 在一周内完成了一个 155M 的 wav2vec 2.0 模型的预训练。代码可在此 https URL 找到。
论文链接: https://arxiv.org/abs/2407.13377
Github: https://github.com/SamsungLabs/SummaryMixing
在作者和文档表示中捕捉风格
原标题: Capturing Style in Author and Document Representation
作者: Enzo Terreau, Antoine Gourru, Julien Velcin
机构: 里昂第二大学 Laboratoire Hubert Curien UMR CNRS 5516 法国Saint-Etienne 大学
摘要: 在深度自然语言处理(NLP)模型中,广泛使用连续和低维表示的单词和文档。令人惊讶的是,很少有模型研究作者的表示学习。这些表示可以用于许多NLP任务,如作者识别和分类,或在推荐系统中使用。现有作品的一个重要局限是它们没有明确捕捉写作风格,使其几乎不适用于文学数据。因此,我们提出了一种基于变分信息瓶颈(VIB)的新架构,该架构学习了带有风格约束的作者和文档的嵌入。我们的模型微调了一个预训练的文档编码器。我们通过添加预定义的风格特征来刺激写作风格的检测,使表示轴与写作风格指标相关联。我们在三个数据集上评估了我们的方法:从古腾堡计划中提取的文学语料库,博客作者语料库和IMDb62,我们展示了它在作者归属方面与强大/最新基线相匹配或表现更好,同时更准确地捕捉了作者的风格方面。
论文链接: https://arxiv.org/abs/2407.13358
学习-从-错误提示用于土著语言翻译
原标题: Learning-From-Mistakes Prompting for Indigenous Language Translation
作者: You-Cheng Liao, Chen-Jui Yu, Chi-Yi Lin, He-Feng Yun, Yen-Hsiang Wang, Hsiao-Min Li, Yao-Chung Fan
机构: 中興大學
摘要: 利用大语言模型,本文提出了改进极低资源土著语言翻译的技术。我们的方法基于以下几点:(1)存在一个由有限数量平行翻译示例组成的数据存储库,(2)LLM(如GPT-3.5)的固有能力,以及(3)一个单词级的翻译词典。我们利用LLM的潜力和上下文学习技术,在这样的环境中将LLM用作极低资源语言的通用翻译器。我们的方法论依赖于将LLM用作选定语言对的语言编译器,假设它们可以内化句法结构以促进准确翻译。我们引入了三种技术:带有检索提示上下文的KNNPrompting,思维链提示和从错误中学习的提示,最后一种方法解决了过去的错误。评估结果表明,即使有限的语料库,配合适当的提示,LLM可以有效地翻译极低资源语言。
论文链接: https://arxiv.org/abs/2407.13343
CoD,朝向使用诊断链的可解释医疗智能体
原标题: CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis
作者: Junying Chen, Chi Gui, Anningzhe Gao, Ke Ji, Xidong Wang, Xiang Wan, Benyou Wang
机构: 深圳大数据研究院 中文大学香港深圳
摘要: 随着大语言模型(LLMs)的出现,医学诊断领域发生了重大转变,然而这些模型内部的可解释性挑战仍然未得到很好解决。本研究引入了“诊断链”(CoD)来增强基于LLM的医学诊断的可解释性。CoD将诊断过程转化为一个反映医生思维过程的诊断链,提供了一个透明的推理路径。此外,CoD输出疾病置信度分布,以确保决策过程的透明性。这种可解释性使模型诊断可控,并有助于通过减少置信度的熵来识别需要进一步询问的关键症状。通过CoD,我们开发了DiagnosisGPT,能够诊断9604种疾病。实验结果表明,DiagnosisGPT在诊断基准上优于其他LLMs。此外,DiagnosisGPT在确保诊断严谨性的同时提供了可解释性。
论文链接: https://arxiv.org/abs/2407.13301
你为什么引用?引文意图和决策分类过程的研究
原标题: Why do you cite? An investigation on citation intents and decision-making classification processes
作者: Lorenzo Paolini (Department of Classical Philology and Italian Studies, University of Bologna, Bologna, Italy), Sahar Vahdati (Nature-inspired machine intelligence group, SCaDS.AI center, Technical University of Dresden, Germany Institute for Applied Computer Science, InfAI - Dresden, Germany), Angelo Di Iorio (Department of Computer Science and Engineering, University of Bologna, Bologna, Italy), Robert Wardenga (Institute for Applied Computer Science, InfAI - Dresden, Germany), Ivan Heibi (Research Centre for Open Scholarly Metadata, Department of Classical Philology and Italian Studies, University of Bologna, Bologna, Italy, Digital Humanities Advanced Research Centre (/DH.arc), Department of Classical Philology and Italian Studies, University of Bologna, Bologna, Italy), Silvio Peroni (Research Centre for Open Scholarly Metadata, Department of Classical Philology and Italian Studies, University of Bologna, Bologna, Italy, Digital Humanities Advanced Research Centre (/DH.arc), Department of Classical Philology and Italian Studies, University of Bologna, Bologna, Italy)
机构: 博洛尼亚大学 德累斯顿工业大学
摘要: 识别作者引用其他作品的原因对于理解科学贡献的性质并评估其影响至关重要。引用是学术交流的支柱之一,用于分析这些概念联系的大多数指标都基于定量观察。在引用另一篇学术作品的行为背后,有一个需要熟练和有效地揭示的意义世界。本研究强调了信任地对引文意图进行分类的重要性,以提供更全面和有见地的研究评估分析。我们通过提出一项利用先进的集成策略进行引文意图分类(CIC)的研究,结合语言模型(LMs)并采用可解释人工智能(XAI)技术来增强模型预测的可解释性和可信度。我们的方法涉及两个集成分类器,利用微调的SciBERT和XLNet LMs作为基线。我们进一步展示了章节标题作为一种特征在提高模型性能方面的关键作用。该研究还介绍了一个使用Flask开发的网络应用程序,目前可在此http URL上使用,旨在对引文意图进行分类。我们的一个模型在SciCite基准上以89.46%的Macro-F1分数设定了一个新的最先进(SOTA)水平。XAI技术的整合为决策过程提供了见解,突出了个别单词对于级别-0分类的贡献,以及个别模型对于元分类的贡献。研究结果表明,包含章节标题显著增强了CIC任务中的分类性能。我们的贡献为开发更健壮的数据集和方法提供了有用的见解,从而促进对学术交流的更深入理解。
论文链接: https://arxiv.org/abs/2407.13329
其他链接: http://137.204.64.4:81/cic/classifier
使用保守数据过滤的鲁棒ASR错误校正
原标题: Robust ASR Error Correction with Conservative Data Filtering
作者: Takuma Udagawa, Masayuki Suzuki, Masayasu Muraoka, Gakuto Kurata
机构: 国际商用机器公司研究人工智能
摘要: 基于大语言模型的错误校正(EC)是一种新兴技术,可提高自动语音识别(ASR)系统的性能。通常,EC 的训练数据是通过自动配对大量 ASR 假设(作为源)和它们的黄金参考(作为目标)收集而来。然而,这些配对的质量并不被保证,我们观察到各种类型的噪音可能会使 EC 模型变得脆弱,例如在域外(OOD)环境中引起过度校正。在这项工作中,我们提出了 EC 训练数据应满足的两个基本标准:即,EC 目标应(1)在语言上比源更可接受,且(2)可从可用上下文(例如源音素)推断出来。通过这些标准,我们确定了低质量的 EC 配对,并训练模型在这种情况下不进行任何校正,这个过程我们称之为保守数据过滤。在我们的实验中,我们专注于使用强大的 Conformer-CTC 作为基线并微调日语大语言模型进行 EC 的日语 ASR。通过在一套包含 21 个内部基准测试的评估中,我们展示了我们的方法可以显著减少过度校正,并在具有挑战性的域外环境中提高 ASR 结果的准确性和质量。
论文链接: https://arxiv.org/abs/2407.13300
SpeciaLex:用于上下文专业词汇学习的基准测试
原标题: SpeciaLex: A Benchmark for In-Context Specialized Lexicon Learning
作者: Joseph Marvin Imperial, Harish Tayyar Madabushi
机构: 巴斯大学 菲律宾国立大学
摘要: 专业词汇表是一组带有特定约束的词汇集合,例如特殊定义、特定角色和目标受众。这些约束对于内容生成和文档编写任务(例如编写技术手册或儿童读物)是必要的,其目标是减少文本内容的歧义性,提高其对特定受众的整体可读性。了解大语言模型如何捕捉这些约束可以帮助研究人员构建更好、更有影响力的工具,超越自然语言处理社区的更广泛应用。为此,我们引入了SpeciaLex,这是一个用于评估语言模型遵循基于专业词汇表约束的能力的基准,涵盖了18个不同子任务,包括1,285个测试实例,涵盖了检查、识别、改写和开放生成等核心任务。我们对15个开源和闭源大语言模型进行了实证评估,并讨论了模型规模、开放性、设置和最新性等因素如何影响在基准测试中的性能。
论文链接: https://arxiv.org/abs/2407.13297
大语言模型能够生成类似人类水平的叙事吗?
原标题: Are Large Language Models Capable of Generating Human-Level Narratives?
作者: Yufei Tian, Tenghao Huang, Miri Liu, Derek Jiang, Alexander Spangher, Muhao Chen, Jonathan May, Nanyun Peng
机构: 加州大学洛杉矶分校 南加州大学 加州大学戴维斯分校
摘要: 本文研究了大语言模型在讲故事方面的能力,重点关注叙事发展和情节进展。我们引入了一种新颖的计算框架,通过三个层面来分析叙事:i)故事弧线,ii)转折点,和iii)情感维度,包括唤起和价值。通过利用专家和自动注释,我们发现了LLM写作的故事与人类写作的故事之间存在显著差异。虽然人类写作的故事充满悬念、唤起情感,并且在叙事结构上多样化,但LLM写作的故事却是同质化的积极性,缺乏紧张感。接下来,我们衡量叙事推理能力作为生成能力的前提,得出大多数LLM在话语理解方面不及人类能力的结论。最后,我们展示了前述话语特征的明确整合可以增强讲故事能力,通过神经讲故事的多样性、悬念和唤起方面的40%以上改善来加以证明。
论文链接: https://arxiv.org/abs/2407.13248
使用咨询和心理治疗文本评估大语言模型在焦虑和抑郁分类中的表现
原标题: Evaluating Large Language Models for Anxiety and Depression Classification using Counseling and Psychotherapy Transcripts
作者: Junwei Sun, Siqi Ma, Yiran Fan, Peter Washington
机构: 斯坦福大学 夏威夷大学马诺阿分校
摘要: 我们旨在评估传统机器学习和大语言模型(LLMs)在从长对话文本中分类焦虑和抑郁的有效性。我们对已建立的Transformer模型(BERT、RoBERTa、Longformer)和较新的大型模型(Mistral-7B)进行微调,训练了一个带有特征工程的支持向量机,并通过提示评估了GPT模型。我们观察到,与传统机器学习方法相比,最先进的模型未能提高分类结果。
论文链接: https://arxiv.org/abs/2407.13228
PM-LLM-Benchmark: 在过程挖掘任务上评估大语言模型
原标题: PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks
作者: Alessandro Berti, Humam Kourani, Wil M.P. van der Aalst
机构: 亚琛工业大学 Fraunhofer FIT
摘要: 大语言模型(LLMs)有潜力在一定程度上自动化一些过程挖掘(PM)分析。虽然商业模型已经足够胜任许多分析任务,但开源LLMs在PM任务中的竞争水平尚不明确。在本文中,我们提出了PM-LLM-Benchmark,这是第一个专注于领域知识(特定于过程挖掘和特定于过程)以及不同实现策略的PM全面基准。我们还关注创建这样一个基准所面临的挑战,涉及数据的公开可用性以及LLMs对评估的偏见。总体而言,我们观察到大多数考虑的LLMs可以以令人满意的水平执行一些过程挖掘任务,但在边缘设备上运行的微小模型仍然不足够。我们还得出结论,虽然所提出的基准对于确定哪些LLMs适用于过程挖掘任务是有用的,但需要进一步研究来克服评估偏见,并对竞争LLMs进行更全面的排名。
论文链接: https://arxiv.org/abs/2407.13244
自然语言处理中的检索增强生成:一项调查
原标题: Retrieval-Augmented Generation for Natural Language Processing: A Survey
作者: Shangyu Wu, Ying Xiong, Yufei Cui, Haolun Wu, Can Chen, Ye Yuan, Lianming Huang, Xue Liu, Tei-Wei Kuo, Nan Guan, Chun Jason Xue
机构: 香港城市大学 麦吉尔大学 MBZUAI 国立台湾大学
摘要: 大语言模型(LLMs)在各个领域取得了巨大成功,得益于其存储知识的大量参数。然而,LLMs 仍然面临一些关键问题,如幻觉问题、知识更新问题以及缺乏领域特定专业知识。检索增强生成(RAG)的出现利用外部知识数据库来增强LLMs,弥补了LLMs的这些缺点。本文回顾了RAG的所有重要技术,特别是在检索器和检索融合方面。此外,还提供了用于实现RAG中代表性技术的教程代码。本文进一步讨论了RAG的训练,包括带/不带数据存储更新的RAG。然后,我们介绍了RAG在代表性自然语言处理任务和工业场景中的应用。最后,本文讨论了RAG的未来发展方向和挑战,以促进其发展。
论文链接: https://arxiv.org/abs/2407.13193
基于Transformer的单细胞语言模型:一项调查
原标题: Transformer-based Single-Cell Language Model: A Survey
作者: Wei Lan, Guohang He, Mingyang Liu, Qingfeng Chen, Junyue Cao, Wei Peng
机构: 广西大学 昆明理工大学
摘要: Transformer 在自然语言处理领域取得了重大成就,其出色的并行处理能力和高度灵活的注意力机制。此外,越来越多基于 Transformer 的研究被提出来建模单细胞数据。在这篇综述中,我们试图系统总结基于 Transformer 的单细胞语言模型及其应用。首先,我们详细介绍了 Transformer 的结构和原理。然后,我们回顾了用于单细胞数据分析的单细胞语言模型和大语言模型。此外,我们探讨了单细胞语言模型在批次校正、细胞聚类、细胞类型注释、基因调控网络推断和干扰响应等下游任务中的数据集和应用。此外,我们讨论了单细胞语言模型面临的挑战,并提供了有前途的研究方向。我们希望这篇综述能成为对单细胞语言模型方向感兴趣的研究人员的最新参考资料。
论文链接: https://arxiv.org/abs/2407.13205
隐私受限语音到语音翻译系统的预设语音匹配
原标题: Preset-Voice Matching for Privacy Regulated Speech-to-Speech Translation Systems
作者: Daniel Platnick, Bishoy Abdelnour, Eamon Earl, Rahul Kumar, Zahra Rezaei, Thomas Tsangaris, Faraj Lagum
机构: V osyn Vector Institute Toronto Canada
摘要: 近年来,工业领域对语音到语音翻译(S2ST)系统的需求不断增加。尽管克隆型S2ST系统已成功商业化,但当个人滥用时,这些系统会使其分销商面临责任,并且当媒体组织利用时可能侵犯个性权利。本文提出了一种名为预设声音匹配(PVM)的受监管的S2ST框架。PVM通过首先将输入声音与目标语言中类似的先前同意的说话者声音进行匹配,从而消除了S2ST中的跨语言声音克隆。通过这种分离,PVM避免了对输入说话者进行克隆,确保PVM系统符合法规并降低滥用风险。我们的结果表明,PVM可以显著提高多说话者环境下S2ST系统的运行时间以及S2ST合成语音的自然度。据我们所知,PVM是第一个明确受监管的S2ST框架,利用类似匹配的预设声音进行动态S2ST任务。
论文链接: https://arxiv.org/abs/2407.13153
增强大语言模型以进行受限制的翻译
原标题: Translate-and-Revise: Boosting Large Language Models for Constrained Translation
作者: Pengcheng Huang, Yongyu Mu, Yuzhang Wu, Bei Li, Chunyang Xiao, Tong Xiao, Jingbo Zhu
机构: 东北大学 计算机科学与工程学院 牛顿研究 朱晶波 摩根大通
摘要: 对机器翻译系统施加约束是一个具有挑战性的问题,因为这些系统并未经过训练以利用约束来生成足够流畅的翻译。在本文中,我们利用大语言模型(LLMs)的能力进行受约束的翻译,鉴于LLMs可以通过将翻译指令和约束作为提示轻松适应这一任务。然而,LLMs并不能始终保证翻译的充分性,在某些情况下会忽略给定的约束。这部分是因为LLMs可能对其预测过于自信,从而覆盖了约束的影响。为了克服这种覆盖行为,我们提出添加一个修订过程,通过提示尚未满足的约束来鼓励LLMs纠正输出。我们在四个受约束的翻译任务上评估了我们的方法,涵盖了多个约束领域中的词汇和结构约束。实验证明,在约束为基础的翻译准确性方面,我们的方法比标准LLMs提高了15%,并且该方法在神经机器翻译(NMT)最先进的方法方面也表现显著。
论文链接: https://arxiv.org/abs/2407.13164
一个轻量级高效的标点符号和单词大小写预测模型,用于设备端流式自动语音识别。
原标题: A light-weight and efficient punctuation and word casing prediction model for on-device streaming ASR
作者: Jian You, Xiangfeng Li
机构: Convolutional Neural Network (CNN)、Bidirectional Long Short-Term Memory (BiLSTM)、Transformer
摘要: 标点符号和单词大小写预测对于自动语音识别(ASR)是必要的。随着设备端端到端流式ASR系统的普及,设备端的标点符号和单词大小写预测变得必不可少,然而我们发现对此的讨论很少。随着Transformer的出现,基于Transformer的模型已经被探索用于这种情况。然而,基于Transformer的模型对于设备端ASR系统来说太大了。在本文中,我们提出了一个轻量级高效的模型,可以实时联合预测标点符号和单词大小写。该模型基于卷积神经网络(CNN)和双向长短期记忆(BiLSTM)。在IWSLT2011测试集上的实验结果显示,与非Transformer模型的最佳表现相比,所提出的模型在整体F1分数上获得了9%的相对改进。与基于Transformer的模型代表相比,所提出的模型在体积上仅为其四十分之一,推理时间快2.5倍的情况下,实现了可比较的结果。它适用于设备端流式ASR系统。我们的代码已公开发布。
论文链接: https://arxiv.org/abs/2407.13142
使用本地大语言模型进行动态情感分析,采用多数投票:对影响餐厅评价的因素进行研究
原标题: Dynamic Sentiment Analysis with Local Large Language Models using Majority Voting: A Study on Factors Affecting Restaurant Evaluation
作者: Junichiro Niimi
机构: 名古屋大学 RIKEN AIP
摘要: 在线平台上的用户生成内容(UGC)允许营销研究人员了解消费者对产品和服务的偏好。随着大语言模型(LLMs)的进步,一些研究利用这些模型进行注释和情感分析。然而,LLMs的准确性与超参数之间的关系尚未得到彻底研究。此外,现有文献中很少考虑LLMs每次试验结果的可变性和可重复性问题。由于实际的人工注释使用多数投票来解决注释者之间的分歧,本研究将多数投票机制引入到使用本地LLMs的情感分析模型中。通过对餐厅评价的在线评论进行三次分析,我们证明了使用中等大小模型进行多次尝试的多数投票比使用大型模型进行单次尝试产生更稳健的结果。此外,我们进行了进一步的分析,以研究每个方面对整体评价的影响。
论文链接: https://arxiv.org/abs/2407.13069
AlcLaM: 阿拉伯方言语言模型
原标题: AlcLaM: Arabic Dialectal Language Model
作者: Murtadha Ahmed, Saghir Alfasly, Bo Wen, Jamaal Qasem, Mohammed Ahmed, Yunfeng Liu
机构: 中国追忆人工智能实验室 美国梅奥诊所 中国东北财经大学 中国西北工业大学
摘要: 预训练语言模型(PLMs)是许多现代自然语言处理(NLP)系统中不可或缺的。虽然多语言模型涵盖了多种语言,但它们常常面临高推理成本和缺乏多样化的非英语训练数据等挑战。针对阿拉伯语特定的 PLMs 主要是在现代标准阿拉伯语上进行训练,这影响了它们在地区方言上的表现。为了解决这个问题,我们构建了一个包含来自社交媒体平台的340万句子的阿拉伯方言语料库。我们利用这个语料库来扩展词汇并从头开始重新训练基于 BERT 的模型。我们的模型名为 AlcLaM,仅使用了13 GB 的文本进行训练,这仅相当于现有模型(如 CAMeL、MARBERT 和 ArBERT)使用的数据的一小部分,分别为它们的7.8%、10.2% 和21.3%。值得注意的是,尽管训练数据有限,AlcLaM 在各种阿拉伯语 NLP 任务上表现出优越的性能。AlcLaM 可在 GitHub(链接:https://github.com)和 HuggingFace(链接:https://huggingface.co)上获得。
论文链接: https://arxiv.org/abs/2407.13097
Github: https://github.com/amurtadha/Alclam
检索、总结、规划:通过迭代方法推进多跳问题回答
原标题: Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach
作者: Zhouyu Jiang, Mengshu Sun, Lei Liang, Zhiqiang Zhang
机构: 蚂蚁集团
摘要: 多跳问题回答是一项具有明显工业相关性的挑战性任务,基于大语言模型(LLMs)的检索增强生成(RAG)方法已成为解决此任务的流行方法。由于在单次迭代中可能无法检索到所有必要信息,最近已开发了一系列迭代的RAG方法,显示出显著的性能改进。然而,现有方法仍然面临两个关键挑战:由于多轮检索导致的上下文过载,以及由于缺乏记录的检索轨迹而导致的过度规划和重复规划。在本文中,我们提出了一种名为ReSP的新型迭代RAG方法,配备了双功能摘要生成器。该摘要生成器从检索到的文档中压缩信息,同时针对总体问题和当前子问题。在多跳问题回答数据集HotpotQA和2WikiMultihopQA上的实验结果表明,我们的方法明显优于最先进技术,并在处理上下文长度方面表现出色。
论文链接: https://arxiv.org/abs/2407.13101
将花岗岩代码模型扩展到128K上下文
原标题: Scaling Granite Code Models to 128K Context
作者: Matt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda
机构: IBM研究
摘要: 这篇论文介绍了支持长上下文的Granite代码模型,可以有效支持长达128K个标记的上下文窗口。我们将Granite 3B/8B代码模型的上下文长度从2K/4K扩展到128K的解决方案包括通过逐渐增加RoPE基础频率、使用存储库级文件打包和长度上采样的长上下文数据进行轻量级持续预训练。此外,我们还发布了支持长上下文的指令调整模型,这些模型是通过在允许许可的短和长上下文指令-响应对的混合上进一步微调长上下文基础模型得到的。与原始短上下文Granite代码模型相比,我们的长上下文模型在长上下文任务上取得了显著改进,而在常规代码完成基准(例如HumanEval)上没有明显的性能下降。我们以Apache 2.0许可证发布了所有我们的长上下文Granite代码模型,供研究和商业使用。
论文链接: https://arxiv.org/abs/2407.13739
从视频示例中查找美国手语(ASL)手势的新功能
原标题: New Capability to Look Up an ASL Sign from a Video Example
作者: Carol Neidle, Augustine Opoku, Carey Ballard, Yang Zhou, Xiaoxiao He, Gregory Dimitriadis, Dimitris Metaxas
机构: 波士顿大学 罗格斯大学
摘要: 在手语词典中查找一个未知手势可能会很困难。大多数手语词典都是基于英语注释进行组织的,尽管(1)没有为手语手势分配基于英语的注释的惯例;以及(2)手语手势与英语单词之间并没有一一对应关系。此外,如果用户既不知道目标手势的含义,也不知道它可能的英文翻译,那该怎么办呢?一些手语词典允许通过指定口型特征、位置、运动特征等进行搜索。然而,这是一个繁琐的过程,并不总能成功查找。在这里,我们描述了一个新系统,公开在网络上,用于查找手语手势的视频(例如,网络摄像头录制或连续手语视频片段)。用户提交一个视频进行分析,然后呈现给用户五个最可能的手势匹配,按可能性递减的顺序排列,以便用户确认选择,然后进入我们的ASLLRP手语词库条目以查看该手势。此外,这种视频查找还集成到我们最新版本的SignStream®软件中,以促进对手语视频数据的语言学注释,使用户能够直接在被注释的视频中查找手势,并在确认匹配后,直接输入该手势的注释和特征,极大地提高了对手语视频数据的语言学注释的效率和一致性。
论文链接: https://arxiv.org/abs/2407.13571
Qalam:用于阿拉伯光学字符和手写识别的多模态大语言模型
原标题: Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition
作者: Gagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed
机构: 不列颠哥伦比亚大学 可逆人工智能
摘要: 阿拉伯文本字符识别(OCR)和手写识别(HWR)由于阿拉伯文本的草书和上下文敏感特性而面临独特挑战。这项研究介绍了Qalam,这是一个为阿拉伯文本字符识别和手写识别设计的新型基础模型,采用了基于SwinV2编码器和RoBERTa解码器架构。我们的模型明显优于现有方法,在手写识别任务中实现了仅0.80%的单词错误率(WER),在OCR任务中为1.18%。我们在多样化数据集上训练了Qalam,包括来自阿拉伯手稿的450万多幅图像和包含60k图像文本对的合成数据集。值得注意的是,Qalam展示了对阿拉伯文本重音的出色处理能力,这是阿拉伯文本中的一个关键特征。此外,它表现出处理高分辨率输入的显著能力,解决了当前OCR系统中的一个常见限制。这些进展突显了Qalam作为阿拉伯文本识别领域领先解决方案的潜力,提供了在准确性和效率方面的重大飞跃。
论文链接: https://arxiv.org/abs/2407.13559
基于语言模型的具有可控自发行为的自然风格文本转语音合成
原标题: Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models
作者: Weiqin Li, Peiji Yang, Yicheng Zhong, Yixuan Zhou, Zhisheng Wang, Zhiyong Wu, Xixin Wu, Helen Meng
机构: 清华大学 腾讯 香港中文大学
摘要: 旨在生成类似人类语音的自发风格语音合成经常面临挑战,原因是高质量数据稀缺以及模型能力的限制。最近基于语言模型的TTS系统可以在大规模、多样化和低质量的语音数据集上进行训练,从而产生高度自然的合成语音。然而,它们受限于模拟各种自发行为的困难以及捕捉自发语音中的语调变化。本文提出了一种基于语言模型的新型自发风格语音合成系统。我们系统地对各种自发行为进行分类和统一建模。此外,引入了细粒度的语调建模,以增强模型捕捉自发语音中微妙语调变化的能力。实验结果表明,我们提出的方法在语调自然度和自发行为自然度方面明显优于基线方法。
论文链接: https://arxiv.org/abs/2407.13509
BEAF:观察BEfore-AFter变化以评估视觉语言模型中的幻觉
原标题: BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models
作者: Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Tae-Hyun Oh
机构: 浦项工科大学 韩国 延世大学
摘要: 视觉语言模型(VLMs)通过视觉编码器和大语言模型(LLM)的组合来感知世界。预先在大规模视觉文本数据集上进行训练的视觉编码器为视觉数据提供了零样本泛化能力,而LLM赋予了其高推理能力。这使得VLMs在广泛基准上实现了高性能,无需微调,展现出零样本或少样本的能力。然而,最近的研究表明,VLMs容易出现幻觉。这种不良行为降低了可靠性和可信度,使用户无法完全信任VLMs的输出。为了增强可信度并更好地解决VLMs的幻觉问题,我们策划了一个名为BEfore-AFter幻觉数据集(BEAF)的新评估数据集,并引入了新的度量标准:真实理解(TU)、无知(IG)、固执(SB)和犹豫(ID)。与之前仅侧重构建问题和答案的工作不同,我们基准的关键思想是通过图像编辑模型操纵视觉场景信息,并根据场景变化设计度量标准。这使我们能够通过观察感知变化的能力来清楚评估VLMs是否正确理解给定的场景。我们还通过我们的双轴视图:视觉和文本,可视化图像间的对象关系。通过使用我们的数据集评估VLMs,我们观察到我们的度量揭示了以前未曾报道的VLM幻觉的不同方面。项目页面:\url{this https URL}
论文链接: https://arxiv.org/abs/2407.13442
Github: https://beafbench.github.io/
通过弱监督音素为基础的多语言预训练,实现对瑶族语言的低资源语音识别
原标题: Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training
作者: Lukuan Dong, Donghong Qin, Fengbo Bai, Fanhua Song, Yan Liu, Chen Xu, Zhijian Ou
机构: 广西民族大学 清华大学
摘要: 主流的自动语音识别(ASR)技术通常需要数百到数千小时的带注释语音数据。低资源 ASR 的三种方法包括基于音素或子词的监督预训练,以及在多语言数据上进行自监督预训练。瑶族的主要民族语言是瑶语,其在中国是低资源语言,即带注释语音非常有限。本文研究并比较了三种方法用于瑶语语音识别。我们的实验基于最近发布的三个骨干模型,这些模型是在来自 CommonVoice 数据集的 10 种语言(CV-Lang10)上进行预训练的,这对应于低资源 ASR 的三种方法。研究发现,与子词监督和自监督相比,音素监督可以取得更好的结果,从而提供更高的数据效率。特别是 Whistle 模型,即通过基于音素的弱监督多语言预训练获得的模型,取得了最具竞争力的结果。
论文链接: https://arxiv.org/abs/2407.13292
修正 KL 正则化的神话:通过卡方偏好优化实现直接对齐而不过度参数化
原标题: Correcting the Mythos of KL-Regularization: Direct Alignment without Overparameterization via Chi-squared Preference Optimization
作者: Audrey Huang, Wenhao Zhan, Tengyang Xie, Jason D. Lee, Wen Sun, Akshay Krishnamurthy, Dylan J. Foster
机构: 伊利诺伊大学 普林斯顿大学 威斯康星大学 康奈尔大学 微软公司
摘要: 语言模型对齐方法,如从人类反馈中强化学习(RLHF),已经在语言模型能力方面取得了令人印象深刻的进展,但现有技术受到一个被广泛观察到的现象的限制,即过度优化,即语言模型的质量在对齐过程中达到平稳状态或下降。过度优化通常被归因于对不准确奖励模型的过度拟合,虽然可以通过在线数据收集来减轻这种情况,但在许多情况下这是不可行的。这引发了一个基本问题:现有的离线对齐算法是否充分利用了它们拥有的数据,或者它们的样本效率是否可以进一步提高?
我们通过一个新的离线对齐算法
χ
2
\chi^2
χ2-Preference Optimization(
χ
\chi
χPO)来回答这个问题。
χ
\chi
χPO 是对直接偏好优化(DPO;Rafailov等,2023)的一个小改动,只涉及修改 DPO 目标中的对数链接函数。尽管这一变化很小,但
χ
\chi
χPO 通过
χ
2
\chi^2
χ2-divergence 的正则化隐式地实现了面对不确定性时的悲观原则,这种方法比 KL-regularization 更有效地量化不确定性,并且根据单策略可集中性实现了基于样本复杂度的保证,这是离线强化学习中的金标准。
χ
\chi
χPO 的简单性和强大的保证使其成为第一个实用的、通用的离线对齐算法,可以明确地抵抗过度优化。
论文链接: https://arxiv.org/abs/2407.13399
TrialEnroll:使用深度交叉网络和大语言模型预测临床试验招募成功率
原标题: TrialEnroll: Predicting Clinical Trial Enrollment Success with Deep & Cross Network and Large Language Models
作者: Ling Yue, Sixue Xing, Jintai Chen, Tianfan Fu
机构: 雷恩瑟拉理工学院 伊利诺伊大学厄巴纳-香槟
摘要: 临床试验需要招募足够数量的志愿患者,以证明治疗(例如新药)在治愈某种疾病方面的统计功效。临床试验的招募对试验成功有重要影响。在进行试验之前预测招募过程是否成功将节省许多资源和时间。本文开发了一种新颖的深度交叉网络,结合大语言模型(LLM)增强的文本特征,从试验入选标准中学习语义信息并预测招募成功。所提出的方法通过理解入选标准中哪些句子/单词对预测产生重大影响,实现了可解释性。我们还展示了所提出方法(0.7002 PR-AUC)在一系列成熟的机器学习方法上的经验优越性。代码和筛选后的数据集可在https://anonymous.4open.science/r/TrialEnroll-7E12 上公开获取。
论文链接: https://arxiv.org/abs/2407.13115
MetaSumPerceiver:用于事实核查的多模态多文档证据摘要
原标题: MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking
作者: Ting-Chih Chen, Chia-Wei Tang, Chris Thomas
机构: 弗吉尼亚理工学院
摘要: 事实核查真实世界声明通常需要查看多个多模态文档,以评估声明的真实性,这是一项非常费时费力的任务。在本文中,我们提出了一个旨在从多模态、多文档数据集中生成适用于事实核查的特定于声明的摘要的模型。该模型接受文档、图像和声明的输入,旨在协助事实核查任务。我们引入了一种基于动态感知器的模型,可以处理任意长度的多模态输入。为了训练我们的模型,我们利用一种基于强化学习的新颖蕴涵目标来生成提供区分不同真实性标签的证据的摘要。为了评估我们方法的有效性,我们在现有基准数据集和我们贡献的新的多文档声明数据集上进行实验。我们的方法在MOCHEG数据集的声明验证任务中比SOTA方法提高了4.6%,并在我们的新Multi-News-Fact-Checking数据集上表现出色。
论文链接: https://arxiv.org/abs/2407.13089
SciCode:科学家策划的研究编码基准。
原标题: SciCode: A Research Coding Benchmark Curated by Scientists
作者: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng
机构: 伊利诺伊大学厄巴纳-香槟分校 阿贡国家实验室 卡内基梅隆大学 北卡罗来纳大学教堂山分校 麻省理工学院 哈佛大学 芝加哥大学 德克萨斯大学奥斯汀分校 斯坦福大学 普林斯顿大学 人工智能和基本相互作用国家科学基金会人工智能研究所
摘要: 由于语言模型(LMs)现在在许多具有挑战性的任务上表现优于普通人类,因此开发具有挑战性、高质量和真实性的评估变得越来越困难。我们通过检查LMs生成解决真实科学研究问题的代码的能力来解决这个问题。结合来自16个不同自然科学子领域(包括数学、物理、化学、生物和材料科学)的科学家和AI研究人员的意见,我们创建了一个由科学家策划的编码基准,SciCode。SciCode中的问题自然地分解为多个子问题,每个子问题涉及知识回忆、推理和代码合成。总共,SciCode包含从80个具有挑战性的主要问题分解出的338个子问题。它提供了可选描述,指定有用的科学背景信息以及科学家注释的黄金标准解决方案和用于评估的测试用例。在经过测试的模型中表现最佳的Claude3.5-Sonnet,在最真实的设置中只能解决4.6%的问题。我们相信,SciCode展示了当代LMs朝着成为有用的科学助手取得的进展,并为未来科学AI的发展和评估提供了启示。
论文链接: https://arxiv.org/abs/2407.13168