2024年7月12日Arxiv语言模型相关论文

朝着利用系统1和系统2融合构建专业通用人工智能的方向前进

原标题: Towards Building Specialized Generalist AI with System 1 and System 2 Fusion

作者: Kaiyan Zhang, Biqing Qi, Bowen Zhou

机构: 清华大学 上海人工智能实验室

摘要: 在这篇观点论文中,我们介绍了专业通用人工智能(SGAI或简称SGI)的概念,作为通向通用人工智能(AGI)的关键里程碑。与直接扩展通用能力相比,SGI被定义为至少在一项任务上专业化,超越人类专家,同时保留通用能力。这种融合路径使SGI能够迅速实现高价值领域。我们根据对专业技能和普遍性表现的掌握程度,将SGI分为三个阶段。此外,我们讨论了SGI在解决与大语言模型相关的问题方面的必要性,例如它们的普遍性不足、专业能力、创新的不确定性和实际应用。此外,我们提出了一个用于开发SGI的概念框架,该框架整合了系统1和系统2认知处理的优势。该框架包括三个层次和四个关键组成部分,重点是增强个体能力并促进协作演化。最后,我们总结了潜在的挑战,并提出了未来的方向。我们希望所提出的SGI将为进一步研究和应用AGI提供见解。

论文链接: https://arxiv.org/abs/2407.08642

大语言模型在医学问答中的不确定性估计

原标题: Uncertainty Estimation of Large Language Models in Medical Question Answering

作者: Jiaxin Wu, Yizhou Yu, Hong-Yu Zhou

机构: 香港大学 哈佛医学院

摘要: 大语言模型(LLMs)在医疗保健领域的自然语言生成方面显示出潜力,但存在风险产生事实不准确的信息幻觉。部署大语言模型用于医学问答需要可靠的不确定性估计(UE)方法来检测幻觉。在这项工作中,我们在医学问答数据集上对不同模型大小的流行UE方法进行了基准测试。我们的结果显示,当前方法在这一领域通常表现不佳,突显了医学应用中不确定性估计的挑战。我们还观察到,较大的模型往往会产生更好的结果,暗示模型大小与UE可靠性之间存在相关性。为了解决这些挑战,我们提出了一种无需概率的不确定性估计方法——两阶段验证。首先,一个LLM生成一份逐步解释以及其初始答案,然后制定验证问题来检查解释中的事实主张。模型然后两次回答这些问题:首先独立回答,然后参考解释。两组答案之间的不一致度衡量了原始回应中的不确定性。我们使用Llama 2 Chat模型在三个生物医学问答数据集上评估我们的方法,并将其与基准基准方法进行比较。结果显示,我们的两阶段验证方法在各种数据集和模型大小上均实现了最佳的整体准确性和稳定性,并且其性能随着模型大小的增加而提高。

论文链接: https://arxiv.org/abs/2407.08662

你的模型真的是一个优秀的数学推理者吗?用清单评估数学推理

原标题: Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

作者: Zihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang

机构: 西交利物浦大学 University of Liverpool 澳门大学 University of Macau 香港科技大学 HKUST 微软亚洲研究院 Microsoft Research Asia 昆山杜克大学 Duke Kunshan University

摘要: 卓越的数学推理能力是展示大语言模型(LLMs)强大力量的关键特征之一。如何全面定义和评估LLMs的数学能力,甚至反映用户在现实场景中的体验,已成为一个关键问题。当前的基准主要集中在问题解决能力上,这带来了模型过拟合的风险,并未准确代表真正的数学推理能力。在本文中,我们认为,如果一个模型真正理解了一个问题,它应该能够在各种任务中稳健且轻松地应用。受此启发,我们引入了MATHCHECK,一个用于测试任务泛化和推理稳健性的设计良好的检查表,以及一个高效生成检查表的自动工具。MATHCHECK包括多个数学推理任务和稳健性测试类型,以促进对数学推理能力和行为测试的全面评估。利用MATHCHECK,我们开发了MATHCHECK-GSM和MATHCHECK-GEO,分别用于评估数学文本推理和多模态推理能力,作为包括GSM8k、GeoQA、UniGeo和Geometry3K在内的基准的升级版本。我们采用MATHCHECK-GSM和MATHCHECK-GEO评估了20多个LLMs和11个MLLMs,评估它们的全面数学推理能力。我们的结果表明,虽然像GPT-4o这样的前沿LLMs在检查表上继续表现出色,但许多其他模型家族表现出显著下降。进一步的实验表明,与传统的数学基准相比,MATHCHECK更好地反映了真实的数学能力,并更线性地代表了数学智能,从而支持我们的设计。在我们的MATHCHECK上,我们可以轻松进行详细的行为分析,深入研究模型。

论文链接: https://arxiv.org/abs/2407.08733

大语言模型中的数据污染分类法

原标题: A Taxonomy for Data Contamination in Large Language Models

作者: Medha Palavalli, Amanda Bertsch, Matthew R. Gormley

机构: 卡内基梅隆大学

摘要: 大语言模型在广泛的网络语料库上预训练,展现出在各种下游任务中出色的性能。然而,一个日益关注的问题是数据污染,即评估数据集可能包含在预训练语料库中,从而夸大模型性能。去污染是一种检测和移除这类数据的潜在解决方案;然而这些污染物可能来自测试集的修改版本,从而在去污染过程中逃避检测。不完全了解不同类型的污染如何影响语言模型在下游任务中的性能。我们提出了一个分类法,对LLM在预训练阶段遇到的各种污染进行分类,并确定哪些类型具有最高风险。我们分析了污染对两个关键的自然语言处理任务——摘要和问答——的影响,揭示了不同类型的污染如何影响评估过程中的任务性能。

论文链接: https://arxiv.org/abs/2407.08716

使用心理指标进行转折级别的共情预测

原标题: Turn-Level Empathy Prediction Using Psychological Indicators

作者: Shaz Furniturewala, Kokil Jaidka

机构: 比尔拉理工学院和科学,比拉尼 国立新加坡大学信任互联网与社区中心

摘要: 对于 WASSA 2024 共情和个性预测共享任务,我们提出了一种新颖的基于对话轮的共情检测方法,将共情分解为六个心理指标:情感语言、透视能力、同情和怜悯、外向性、开放性和宜人性。使用大语言模型(LLM)进行文本增强,然后进行 DeBERTA 微调的流程显示出在共情检测的皮尔逊相关系数和 F1 分数方面的显著改进,突显了我们方法的有效性。我们的系统在 CONV-turn 跟踪中正式排名第7。

论文链接: https://arxiv.org/abs/2407.08607

泰米尔语言计算:现在与未来

原标题: Tamil Language Computing: the Present and the Future

作者: Kengatharaiyer Sarveswaran

机构: 斯里兰卡杰夫纳大学

摘要: 这篇论文深入探讨了语言计算的文本处理方面,使计算机能够理解、解释和生成人类语言。语言计算专注于诸如语音识别、机器翻译、情感分析、文本摘要和语言建模等任务,整合了包括语言学、计算机科学和认知心理学在内的学科,以创建有意义的人机交互。深度学习的最新进展使计算机更易接近并能够独立学习和适应。在审视语言计算的领域时,该论文强调了诸如编码等基础工作的重要性,其中泰米尔语从ASCII过渡到Unicode,增强了数字通信。论文讨论了计算资源的开发,包括原始数据、词典、术语表、标注数据和计算语法,这些对于有效的语言处理是必要的。还涵盖了语言学标注的挑战,树库的创建以及大语言模型的训练,强调了对高质量标注数据和先进语言模型的需求。论文强调了构建泰米尔语等语言的实际应用的重要性,以满足日常交流需求,并突出了当前技术存在的差距。它呼吁增加研究合作,数字化历史文本,并促进数字化使用,以确保泰米尔语处理的全面发展,最终增强全球交流和数字服务的获取。

论文链接: https://arxiv.org/abs/2407.08618

在大语言模型内部的通用真实性超平面

原标题: On the Universal Truthfulness Hyperplane Inside LLMs

作者: Junteng Liu, Shiqi Chen, Yu Cheng, Junxian He

机构: 上海交通大学 香港城市大学 香港中文大学 香港科技大学

摘要: 尽管大型语言模型(LLMs)在各个领域展示了显著的能力,但幻觉仍然是一个重大挑战。最近的研究通过内部表示的视角探索了幻觉,提出了解释LLMs遵循事实的机制。然而,这些方法通常无法推广到分布之外的数据,引发了对内部表示模式是否反映了基本事实意识,或者只是在特定数据集上过拟合虚假相关性的担忧。在这项工作中,我们调查了一个能够区分模型的事实正确和错误输出的通用真实性超平面是否存在于模型中。为此,我们扩大了训练数据集的数量,并进行了广泛的评估–我们在超过40个数据集的多样化集合上训练真实性超平面,并检查其跨任务、跨领域和领域内的泛化能力。我们的结果表明,增加训练数据集的多样性显著提高了所有场景中的性能,而数据样本的数量起到了较小的作用。这一发现支持了一个乐观的假设,即模型内可能确实存在一个通用的真实性超平面,为未来研究提供了有希望的方向。

论文链接: https://arxiv.org/abs/2407.08582

不带矢量量化的自回归语音合成

原标题: Autoregressive Speech Synthesis without Vector Quantization

作者: Lingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei

机构: 香港中文大学 微软公司

摘要: 我们提出了一种新颖的基于连续数值标记的语言建模方法 MELLE,用于文本到语音合成(TTS)。MELLE 通过自回归方式直接从文本条件生成连续的梅尔频谱帧,避免了对矢量量化的需求,后者最初设计用于音频压缩,与梅尔频谱相比牺牲了保真度。具体来说,(i)我们应用回归损失而非交叉熵损失,使用提出的频谱通量损失函数来建模连续数值标记的概率分布。 (ii)我们将变分推断结合到 MELLE 中,以促进采样机制,从而增强输出多样性和模型鲁棒性。实验证明,与两阶段编解码器语言模型 VALL-E 及其变体相比,单阶段的 MELLE 通过避免采样离散编码的固有缺陷,减轻了鲁棒性问题,在多个指标上实现了卓越性能,并且最重要的是提供了更简洁的范式。请查看此 https URL 以查看我们工作的演示。

论文链接: https://arxiv.org/abs/2407.08551

其他链接: https://aka.ms/melle

GTA:通用工具智能体基准测试

原标题: GTA: A Benchmark for General Tool Agents

作者: Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le

机构: 上海交通大学 上海人工智能实验室

摘要: 对将大语言模型(LLMs)与各种工具集成以开发通用智能体的研究投入了大量关注。这对LLMs的工具使用能力提出了挑战。然而,现有的工具使用评估与现实世界场景之间存在明显差距。目前的评估通常使用AI生成的查询、单步任务、虚拟工具和仅限文本的交互,未能有效揭示智能体的现实世界问题解决能力。为了解决这个问题,我们提出了GTA,一个针对通用工具智能体的基准,具有三个主要方面:(i) 真实用户查询:人类编写的查询,具有简单的现实世界目标但隐含的工具使用,要求LLM推理合适的工具并规划解决步骤。(ii) 真实部署的工具:一个配备感知、操作、逻辑和创造力类别工具的评估平台,以评估智能体的实际任务执行表现。(iii) 真实多模态输入:真实的图像文件,如空间场景、网页截图、表格、代码片段和打印/手写材料,作为查询上下文,以密切贴合现实世界场景。我们设计了229个现实世界任务和可执行的工具链来评估主流LLMs。我们的研究结果表明,现实世界的用户查询对现有的LLMs是具有挑战性的,GPT-4完成不到50%的任务,大多数LLMs完成率低于25%。这种评估揭示了当前LLMs在现实世界场景中的工具使用能力的瓶颈,为未来推进通用工具智能体提供了方向。代码和数据集可在此https URL获取。

论文链接: https://arxiv.org/abs/2407.08713

Github: https://github.com/open-compass/GTA

通过上下文增强调查大语言模型作为投票助手:2024年欧洲议会选举的案例研究

原标题: Investigating LLMs as Voting Assistants via Contextual Augmentation: A Case Study on the European Parliament Elections 2024

作者: Ilias Chalkidis

机构: 哥本哈根大学 混合语言模型(MIXTRAL)

摘要: 调整过的大语言模型展示了前所未有的自然语言理解能力。最近的研究一直在探索LLMs中的政治偏见和政治推理能力,主要范围是美国背景。鉴于最近2024年欧洲议会选举,我们正在调查LLMs是否可以用作投票建议应用程序(VAAs)。我们审计了MISTRAL和MIXTRAL模型,并根据最新的“EU and I”投票协助问卷评估它们预测政党立场的准确性。此外,我们通过依赖网络搜索的检索增强生成(RAG)和使用分阶段对话的自我反思来探讨改进模型性能的替代方案,旨在重新收集模型内存中的相关内容。我们发现MIXTRAL的平均准确率为82%。通过使用专家策划的信息增强输入背景可以显著提高约9%,这仍然是自动化方法的一个挑战。

论文链接: https://arxiv.org/abs/2407.08495

为算术推理训练语言模型

原标题: Self-training Language Models for Arithmetic Reasoning

作者: Marek Kadlčík, Michal Štefánik

机构: 马萨里克大学 捷克共和国

摘要: 语言模型在涉及复杂多步推理的任务中取得了令人印象深刻的结果,但要进一步扩展这些能力传统上需要昂贵的收集更多带注释的数据。在这项工作中,我们探讨了在算术推理中通过仅使用对其预测的有效性的自动反馈(自我训练)来提高语言模型能力的潜力。我们发现模型在单轮(离线)和在线自我训练中都可以显著改善。在离线设置中,监督方法能够提供与偏好优化相当的收益,但在在线自我训练中,由于在看不见的问题类型上具有更高的稳定性和鲁棒性,偏好优化表现出明显优于监督训练。

论文链接: https://arxiv.org/abs/2407.08400

超越指令遵循:评估大语言模型的规则遵循

原标题: Beyond Instruction Following: Evaluating Rule Following of Large Language Models

作者: Wangtao Sun, Chenxiang Zhang, Xueyou Zhang, Ziyang Huang, Haotian Xu, Pei Chen, Shizhu He, Jun Zhao, Kang Liu

机构: 中国科学院自动化研究所 中国科学院大学 德克萨斯农工大学 上海人工智能实验室 小红书公司

摘要: 尽管大语言模型(LLMs)已经展示出强大的指令遵循能力,以提供帮助,但在现实场景中,它们进一步应该受到规则的控制和引导,以确保安全,并准确地响应。这要求LLMs具有遵循规则的能力。然而,很少有研究对LLMs的遵循规则能力进行了明确评估。先前的研究试图评估LLMs的遵循规则能力,但未能区分遵循规则场景和遵循指令场景。因此,本文首先对遵循规则的概念进行澄清,并策划了一个全面的基准测试RuleBench,以评估多样化的遵循规则能力。我们对多种LLMs的实验结果显示,它们在遵循规则方面仍然存在局限性。我们进一步的分析为LLMs朝着更好的遵循规则智能体提供了见解。数据和代码可在以下网址找到:https://anonymous.4open.science/r/llm-rule-following-B3E3/

论文链接: https://arxiv.org/abs/2407.08440

大语言模型真的没有偏见吗?越狱提示用于评估对偏见引发的对抗鲁棒性

原标题: Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation

作者: Riccardo Cantini, Giada Cosenza, Alessio Orsino, Domenico Talia

机构: 卡拉布里亚大学

摘要: 大语言模型(LLMs)已经彻底改变了人工智能,展示了出色的计算能力和语言能力。然而,这些模型天生容易受到训练数据带来的各种偏见的影响。这些偏见包括选择性偏见、语言偏见、确认偏见,以及与性别、种族、性取向、宗教、社会经济地位、残疾和年龄相关的常见刻板印象。本研究探讨了最新LLMs的回应中存在的这些偏见,分析了这些偏见对其公平性和可靠性的影响。我们还调查了已知的提示工程技术如何被利用来有效地揭示LLMs的隐藏偏见,测试它们对专门设计用于偏见引发的越狱提示的对抗鲁棒性。我们使用不同规模的最广泛使用的LLMs进行了广泛的实验,确认LLMs仍然可以被操纵以产生偏见或不恰当的回应,尽管它们具有先进的能力和复杂的调整过程。我们的发现强调了增强缓解技术以解决这些安全问题的重要性,以实现更可持续和包容的人工智能。

论文链接: https://arxiv.org/abs/2407.08441

RB-SQL:用于文本到SQL的基于检索的大语言模型框架

原标题: RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL

作者: Zhenhe Wu, Zhongqiu Li, Jie Zhang, Mengxiang Li, Yu Zhao, Ruiyu Fang, Zhongjiang He, Xuelong Li, Zhoujun Li, Shuangyong Song

机构: 北京航空航天大学 中国电信股份有限公司

摘要: 大语言模型(LLMs)通过上下文学习显著提高了文本转SQL任务的性能。先前的研究通常侧重于使用独占的SQL生成提示来提高LLMs的推理能力。然而,它们大多难以处理具有大量表和列的大型数据库,并且通常忽略了预处理数据库和提取有价值信息以进行更有效的提示工程的重要性。基于以上分析,我们提出了RB-SQL,一种新颖的基于检索的LLM框架,用于上下文提示工程,它由三个模块组成,用于检索简洁的表和列作为模式,并针对上下文学习的有针对性示例。实验结果表明,我们的模型在公共数据集BIRD和Spider上比几个竞争基线表现更好。

论文链接: https://arxiv.org/abs/2407.08273

调查公共微调数据集:从建筑角度对当前实践进行复杂审查

原标题: Investigating Public Fine-Tuning Datasets: A Complex Review of Current Practices from a Construction Perspective

作者: Runyuan Ma, Wei Li, Fukai Shang

机构: 上海人工智能实验室

摘要: 随着大模型领域的快速发展,与微调相关的研究也取得了显著进展,因为微调是大规模模型训练过程中的一个组成部分。数据工程在模型训练过程中起着基础性作用,包括数据基础设施、数据处理等。在微调过程中使用的数据同样构成了大模型的基础。为了利用微调数据集的力量并探索其新可能性,本文从数据构建的角度回顾了当前的公开微调数据集。从演变和分类两个方面对公开微调数据集进行了概述,旨在描绘其发展轨迹。详细介绍了大语言模型(LLMs)公开微调数据集的构建技术和方法,包括数据生成和数据增强等。这一阐述遵循上述分类法,具体涵盖了示范、比较和通用三大类别。此外,我们在审查中抽象出了数据生成技术的分类树,以帮助研究人员从构建维度深入理解微调数据集。我们的回顾还总结了当前实践中不同数据准备阶段的构建特点,旨在提供全面概览并为未来研究提供参考。本文还从构建角度讨论了各种数据模态的微调数据集实践。文章的最后,我们提供了关于未来微调数据集构建和发展的见解和考量。

论文链接: https://arxiv.org/abs/2407.08475

模型告诉你在哪里合并:长上下文任务中大语言模型的自适应KV缓存合并

原标题: Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks

作者: Zheng Wang, Boxiao Jin, Zhongzhi Yu, Minjia Zhang

机构: 佐治亚理工学院 伊利诺伊大学厄巴纳-香槟分校

摘要: 如何高效地为大语言模型(LLMs)提供服务已成为一个紧迫的问题,因为它们在自回归生成过程中具有巨大的计算成本。为了减轻计算成本,LLMs通常采用KV缓存技术来提高生成速度。虽然提高了计算效率,但KV缓存的存储需求很大,特别是在长上下文场景中,导致显著的内存消耗。现有的KV缓存驱逐方法通常会由于驱逐引入的信息丢失而导致LLMs在长上下文场景中性能下降。在本文中,我们提出了一种新颖的KV缓存合并方法,称为KVMerger,以在受限内存预算下实现长上下文任务的自适应KV缓存压缩,而不会出现显著的性能下降。我们的方法受到了一个有趣的观察启发,即关键状态在单个序列内在标记级别上表现出高相似性。为了促进合并,我们开发了一种有效而简单的合并集识别算法,以识别适合合并的KV状态。我们的合并集识别算法激发了第二个观察,即从相似性的角度看,KV缓存的稀疏性与数据集无关,并且在模型级别上保持持久。随后,我们提出了一种高斯核加权合并算法,以选择性地合并每个合并集内的所有状态。我们进行了大量实验,以证明KVMerger在受限内存预算下对长上下文任务的有效性,将其应用于包括Llama2-7B-chat和Llama2-13B-chat在内的模型。使用LongBench和ZeroScroll基准,我们将我们的方法与其他KV缓存压缩技术(包括H2O和CaM)进行了比较,结果显示我们的方法在50%和35%的KV缓存预算下在各项任务中均取得了优越的性能。

论文链接: https://arxiv.org/abs/2407.08454

大语言模型对复杂的由FST生成的芬兰词的形态分析

原标题: LLMs’ morphological analyses of complex FST-generated Finnish words

作者: Anssi Moisio, Mathias Creutz, Mikko Kurimo

机构: 阿尔托大学 赫尔辛基大学

摘要: 基于规则的语言处理系统在实用性方面已被神经系统所遮蔽,但神经自然语言处理系统是否在实践中学习了人类使用的语法规则仍不清楚。本研究旨在通过评估最先进的大语言模型在复杂芬兰名词形态分析任务中的表现来阐明这一问题。我们使用 FST 工具生成这些形式,它们不太可能出现在大语言模型的训练集中,因此需要形态概括能力。我们发现 GPT-4-turbo 在任务中存在一些困难,而 GPT-3.5-turbo 则挣扎艰难,较小的模型 Llama2-70B 和 Poro-34B 几乎完全失败。

论文链接: https://arxiv.org/abs/2407.08269

为盲人和视力低下的人生成与上下文相关的导航指示

原标题: Generating Contextually-Relevant Navigation Instructions for Blind and Low Vision People

作者: Zain Merchant, Abrar Anwar, Emily Wang, Souti Chattopadhyay, Jesse Thomason

摘要: 在陌生环境中导航对盲人和视力低下(BLV)个体来说存在重大挑战。在这项工作中,我们构建了一个包含不同场景下的图像和目标的数据集,例如在厨房中搜索或在室外导航。然后,我们研究了如何通过基于场景的指导生成方法为用户提供相关上下文的导航指引。通过一个有视力的用户研究,我们证明了大型预训练语言模型可以生成被视为有益于BLV用户的正确和有用的指令。我们还对4名BLV用户进行了调查和访谈,并观察到了关于基于场景的不同指令偏好的有用见解。

论文链接: https://arxiv.org/abs/2407.08219

AutoBencher:为语言模型创建突出、新颖、困难的数据集

原标题: AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models

作者: Xiang Lisa Li, Evan Zheran Liu, Percy Liang, Tatsunori Hashimoto

机构: 斯坦福大学 AutoBencher Imbue

摘要: 评估对于评估能力、跟踪科学进展和指导模型选择至关重要。在本文中,我们提出了一个好的大语言模型基准的三个期望:(i) 显著性(例如,关于第二次世界大战的知识比历史上的随机一天更显著),(ii) 新颖性(即,基准揭示了以前基准未显示的新模型排名趋势),(iii) 难度(即,基准应该对现有模型来说是困难的,为未来的改进留有余地)。我们将这三个期望具体化,并将基准创建视为一个搜索问题,即寻找满足所有三个期望的基准。为了解决这个搜索问题,我们提出了AutoBencher,它使用大语言模型自动搜索满足三个期望的数据集。AutoBencher使用特权信息(例如,相关文档)来构建可靠的数据集,并通过重新排序的自适应性来优化搜索目标。我们使用AutoBencher创建了数学、多语言和知识密集型问答的数据集。AutoBencher的可扩展性允许它测试细粒度类别和尾部知识,创建的数据集平均比现有基准新颖性高27%,难度高22%。对我们构建的数据集进行更深入的调查表明,我们可以识别现有基准未捕捉到的语言模型知识的具体差距,例如Gemini Pro在有关二叠纪灭绝和福特主义的问答中表现得更差,而OpenAGI-7B在有关COVID-19的问答中表现出色。

论文链接: https://arxiv.org/abs/2407.08351

超越文本:利用多任务学习和认知评估理论进行购买后意向分析

原标题: Beyond Text: Leveraging Multi-Task Learning and Cognitive Appraisal Theory for Post-Purchase Intention Analysis

作者: Gerard Christopher Yeo, Shaz Furniturewala, Kokil Jaidka

机构: 新加坡国立大学 比尔拉理工学院与科学研究所

摘要: 监督学习机器学习模型用于预测用户行为,提供了一个具有挑战性的分类问题,其平均预测性能得分低于其他文本分类任务。本研究评估基于认知评价理论的多任务学习框架,以预测用户行为作为用户自我表达和心理属性的函数。我们的实验表明,用户的语言和特质可以提高预测性能,超越仅从文本预测的模型。我们的发现突显了将心理构建整合到自然语言处理中以增强对用户行为理解和预测的重要性。最后,我们讨论了将大语言模型应用于计算心理学的未来应用的影响。

论文链接: https://arxiv.org/abs/2407.08182

推测性 RAG:通过起草增强检索增强生成

原标题: Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting

作者: Zilong Wang, Zifeng Wang, Long Le, Huaixiu Steven Zheng, Swaroop Mishra, Vincent Perot, Yuwei Zhang, Anush Mattapalli, Ankur Taly, Jingbo Shang, Chen-Yu Lee, Tomas Pfister

机构: 加州大学圣地亚哥分校 谷歌云AI研究 谷歌DeepMind 谷歌云AI

摘要:
检索增强生成(RAG)结合了大语言模型(LLM)的生成能力和外部知识源,以提供更准确和最新的响应。最近的RAG进展专注于通过迭代LLM细化或通过额外指令调整LLM获取的自我批评能力来改善检索结果。在这项工作中,我们介绍了推测性RAG - 一个框架,利用一个更大的通用LM有效地验证由一个较小的蒸馏专门LM并行生成的多个RAG草稿。每个草稿是从一组不同的检索文档中生成的,提供了对证据的多样化视角,同时减少了每个草稿的输入Token数量。这种方法增强了对每个子集的理解,并减轻了长上下文中的潜在位置偏差。我们的方法通过将草稿编写委托给较小的专门LM来加速RAG,较大的通用LM则对草稿进行一次验证。大量实验表明,推测性RAG在TriviaQA、MuSiQue、PubHealth和ARC-Challenge基准测试中实现了最先进的性能,并减少了延迟。与传统RAG系统相比,它显著提高了准确性(高达12.97%),同时减少了51%的延迟。

论文链接: https://arxiv.org/abs/2407.08223

CCL24-Eval任务7的系统报告:多错误建模和面向流畅性的中文作文评估预训练

原标题: System Report for CCL24-Eval Task 7: Multi-Error Modeling and Fluency-Targeted Pre-training for Chinese Essay Evaluation

作者: Jingshen Zhang, Xiangyu Yang, Xinkai Su, Xinglu Chen, Tianyou Huang, Xinying Qiu

机构: 广东外语外贸大学

摘要: 本系统报告展示了我们在CCL-2024中文作文流利度评估(CEFE)任务中的方法和结果。对于Track 1,我们使用二元分类模型对具有挑战性的细粒度错误类型进行了优化预测,并在Chinese Learner 4W语料库上训练了粗粒度模型。在Track 2中,我们通过构建每个句子包含多种错误类型的伪数据集来提高性能。在Track 3中,我们通过反向翻译生成流利度评分的伪数据进行预训练,并使用对称交叉熵损失的NSP策略来捕捉上下文和缓解长依赖问题,获得了第一名。我们的方法有效地解决了中文作文流利度评估中的关键挑战。

论文链接: https://arxiv.org/abs/2407.08206

外表可能具有欺骗性:区分重复语焉不顺畅和重复现象

原标题: Looks can be Deceptive: Distinguishing Repetition Disfluency from Reduplication

作者: Arif Ahmad, Mothika Gayathri Khyathi, Pushpak Bhattacharyya

机构: 印度理工学院孟买

摘要: 重复和重复虽然在形式上相似,但在语言学上有着不同的目的。重复是一种有意的形态过程,用于表达语法、语义或语用细微差别,而重复往往是无意的,表明不流畅。本文首次以计算语言学为工具,对语音中的重复和重复进行了大规模研究。我们介绍了IndicRedRep,这是一个新的公开可用数据集,其中包含用印地语、泰卢固语和马拉地语注释的重复和重复的文本,注释是在词级别进行的。我们评估了基于Transformer的模型,用于多类重复和重复标记分类,利用Reparandum-Interregnum-Repair结构来区分这两种现象。我们的模型在印地语达到了高达85.62%的宏F1分数,在泰卢固语达到了83.95%,在马拉地语达到了84.82%的重复-重复分类准确率。

论文链接: https://arxiv.org/abs/2407.08147

基于自动机的约束用于语言模型解码

原标题: Automata-based constraints for language model decoding

作者: Terry Koo, Frederick Liu, Luheng He

机构: Google DeepMind

摘要: LMs通常被期望生成某种形式语言的字符串;例如,结构化数据、API调用或代码片段。虽然LMs可以被调整以提高它们对形式语法的遵循,但这并不能保证符合性,特别是对于适用于大规模部署的较小LMs。此外,调整需要大量资源,使得对于不常见或任务特定格式来说是不切实际的。为了防止下游解析错误,我们理想情况下会限制LM仅生成有效输出,但由于标记化通常既模糊又与形式语法不对齐,这会变得非常复杂。我们通过应用自动机理论来解决这些问题,为正则语言提供了一个高效的封闭形式解决方案,正则语言是一类具有许多实际应用的形式语言,包括API调用或基于模式的JSON和YAML。我们还讨论了用于应对高分支因子问题的实用扩展。最后,我们将我们的技术扩展到确定性上下文无关语言,同样可以得到一个高效的封闭形式解决方案。尽管我们的方法具有灵活性和代表性,但我们的方法只需要访问每个标记解码logits,并转化为独立于LM大小的简单计算,使其既高效又易于应用于几乎任何LM架构。

论文链接: https://arxiv.org/abs/2407.08103

fairBERTs:通过语义和公平感知扰动抹去敏感信息

原标题: fairBERTs: Erasing Sensitive Information Through Semantic and Fairness-aware Perturbations

作者: Jinfeng Li, Yuefeng Chen, Xiangyu Liu, Longtao Huang, Rong Zhang, Hui Xue

机构: 阿里巴巴集团

摘要: 预训练语言模型(PLMs)在自然语言处理研究和应用中引发了革命。然而,PLMs 中编码的刻板偏见(例如,性别和种族歧视)引发了负面的伦理影响,严重限制了它们的广泛应用。为了解决上述不公平问题,我们提出了 fairBERTs,一个通过生成对抗网络生成的语义和公平感知扰动来擦除受保护的敏感信息的学习公平微调 BERT 系列模型的通用框架。通过在两个实际任务上进行广泛的定性和定量实验,我们证明了 fairBERTs 在缓解不公平现象的同时保持模型效用的巨大优势。我们还验证了将 fairBERTs 中的对抗性组件转移到其他常规训练的 BERT 类模型中以实现公平性改进的可行性。我们的发现可能会为构建更公平的微调 PLMs 的进一步研究提供启示。

论文链接: https://arxiv.org/abs/2407.08189

Burrows’ Delta 在中世纪中国诗歌文本上是如何运作的?

原标题: How does Burrows’ Delta work on medieval Chinese poetic texts?

作者: Boris Orekhov

机构: 高等经济学院 俄罗斯科学院俄罗斯文学研究所 (普希金之家)

摘要: Burrows’ Delta是在2002年引入的,已被证明是一种有效的作者归属工具。尽管这些是不同的语言,它们大多属于相同的语法类型,并使用相同的图形原则来传达书面语言:采用音素字母表,使用空格进行单词分隔。我想在这篇文章中要探讨的问题是,这种归属方法在具有不同语法结构和基于不同原则的文字的语言中的效果如何。与欧洲语言的文本相比,对中文文本中Delta方法的有效性进行分析的研究较少。我认为汉学家对Delta的关注度较低,是由于专注于中国古代诗歌的科学领域的结构所致。基于文本间距离的聚类工作得非常顺利。Delta产生的结果显示,一个作者的样本彼此最相似,Delta从未混淆不同的诗人。尽管我采用了一种非传统的方法,并将Delta方法应用于不太适合的语言,但该方法证明了其有效性。唐代诗人可以通过Delta正确识别,对于使用欧洲标准语言撰写的作者观察到的经验模式再次得到证实。

论文链接: https://arxiv.org/abs/2407.08099

Transformer电路的忠实度指标不够稳健。

原标题: Transformer Circuit Faithfulness Metrics are not Robust

作者: Joseph Miller, Bilal Chughtai, William Saunders

机构: 独立 维廷姆桑德斯

摘要: 机械解释性工作试图逆向工程神经网络内部学习算法。这项工作的一个重点是发现“电路”——解释特定任务行为的完整模型的子图。但是,我们如何衡量这些电路的性能呢?先前的工作尝试衡量电路的“忠实度”——即电路复制完整模型性能的程度。在这项工作中,我们调查了设计实验以通过消融模型计算部分来衡量电路忠实度的许多考虑因素。令人担忧的是,我们发现现有方法对消融方法中看似微不足道的变化非常敏感。我们得出结论,现有的电路忠实度评分既反映了研究人员的方法选择,也反映了电路的实际组件——电路需要执行的任务取决于用于测试它的消融。机械解释性工作的最终目标是理解神经网络,因此我们强调有必要对电路的具体声明提供更多清晰度。我们在这个网址开源了一个库,其中包括高效实现多种消融方法和电路发现算法。

论文链接: https://arxiv.org/abs/2407.08734

Github: https://github.com/UFO-101/auto-circuit

猞猁:一个开源幻觉评估模型

原标题: Lynx: An Open Source Hallucination Evaluation Model

作者: Selvan Sunitha Ravi, Bartosz Mielczarek, Anand Kannappan, Douwe Kiela, Rebecca Qian

机构: 斯坦福大学 Patronus AI Contextual AI

摘要: 检索增强生成(RAG)技术旨在减轻大语言模型(LLMs)中的幻觉。然而,LLMs 仍然可能产生与检索上下文不支持或矛盾的信息。我们介绍了LYNX,这是一种最先进的幻觉检测LLM,能够对具有挑战性的现实世界幻觉场景进行高级推理。为了评估LYNX,我们提出了HaluBench,一个包含来自各种现实世界领域的1.5万个样本的全面幻觉评估基准。我们的实验结果显示,LYNX在HaluBench上优于GPT-4o、Claude-3-Sonnet以及封闭和开源的LLM作为评判模型。我们发布了LYNX、HaluBench以及我们的评估代码供公众访问。

论文链接: https://arxiv.org/abs/2407.08488

图像文本表示中的新兴视觉语义层级

原标题: Emergent Visual-Semantic Hierarchies in Image-Text Representations

作者: Morris Alper, Hadar Averbuch-Elor

机构: 特拉维夫大学

摘要: 最近的视觉与语言模型(VLMs)如CLIP是分析文本和图像在共享语义空间中的强大工具,但它们并未明确建模可能描述图像的文本集的层次性质。相反,现有的多模态分层表示学习方法需要昂贵的从头训练,未能利用现有最先进的多模态基础模型所编码的知识。在这项工作中,我们研究了现有基础模型的知识,发现它们表现出对视觉-语义层次的新兴理解,尽管并非直接为此目的进行训练。我们提出了径向嵌入(RE)框架来探究和优化层次理解,并贡献了HierarCaps数据集,这是一个基准,通过大型语言模型自动构建,促进了对图像-文本表示中层次知识的研究。我们的结果显示,基础VLMs表现出零样本层次理解,超越了专门为此目的明确设计的先前模型的性能。此外,我们展示了基础模型可以通过仅文本的微调阶段更好地与层次推理对齐,同时保留预训练知识。

论文链接: https://arxiv.org/abs/2407.08521

关于向大语言模型归因置信度的问题

原标题: On the attribution of confidence to large language models

作者: Geoff Keeling, Winnie Street

机构: 谷歌研究

摘要: 信念是对命题的信心程度所对应的心理状态。在大语言模型(LLMs)评估的实证文献中,常常会将信念归因于大语言模型。然而,关于将信念归因于大语言模型的理论基础尚不清楚。我们提出三点观点。首先,我们的语义观点是,大语言模型的信念归因(至少在一般情况下)应当被直接解释为字面意义上的表述,表达了科学家对于描述大语言模型信念事实的真实信念。其次,我们的形而上观点是,大语言模型的信念存在至少是合理的,尽管目前的证据并不确定。第三,我们的认识论观点是,对于大语言模型评估的实证文献中所做的大语言模型信念归因存在着非平凡的怀疑。有一个明显的可能性,即使大语言模型具有信念,由于用于评估大语言模型信念的实验技术并非追踪真相,大语言模型信念归因通常是错误的。

论文链接: https://arxiv.org/abs/2407.08388

Skywork-Math:大语言模型中数学推理的数据缩放定律 – 故事继续进行中

原标题: Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models – The Story Goes On

作者: Liang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou

机构: 昆仑公司 智慧天空 AI

摘要: 在这篇论文中,我们研究了潜在增强大语言模型(LLMs)数学推理能力的基本因素。我们认为,现代LLMs中数学推理能力的数据扩展规律远未饱和,突出了模型质量随着数据量增加而提高的情况。为了支持这一观点,我们引入了Skywork-Math模型系列,使用我们提出的250万个实例的Skywork-MathQA数据集对常见的7B LLMs进行了监督微调(SFT)。Skywork-Math 7B在竞赛级别的MATH基准测试上取得了51.2%的令人印象深刻的准确率,并且在使用仅SFT数据时在GSM8K基准测试上达到了83.9%的准确率,优于MATH上的GPT-4早期版本。Skywork-Math模型的卓越性能归功于我们的新颖的两阶段数据合成和模型SFT流程,其中包括三种不同的增强方法和一个多样化的种子问题集,确保了Skywork-MathQA数据集在不同难度级别上的数量和质量。最重要的是,我们提供了一些实用的经验教训,以增强LLMs的数学推理能力,适用于研究和工业应用。

论文链接: https://arxiv.org/abs/2407.08348

一个基于用户生成内容的角色扮演游戏文本生成引擎

原标题: A Text-to-Game Engine for UGC-Based Role-Playing Games

作者: Lei Zhang, Xuezheng Peng, Shuyi Yang, Feiyang Wang

机构: RPGGO

摘要: 从专业生成内容(PGC)向用户生成内容(UGC)的转变彻底改变了各种媒体格式,从文本到视频。随着生成式人工智能的快速发展,类似的转变将改变游戏行业,特别是在角色扮演游戏(RPGs)领域。本文介绍了一个新的文本到游戏引擎框架,利用基础模型将简单的文本输入转换为复杂的互动式RPG体验。该引擎以多模式格式动态呈现游戏故事,并根据玩家的行为实时调整游戏角色、环境和机制。利用这一框架,我们开发了“Zagii”游戏引擎,成功支持了数百款跨多种类型的RPG游戏,并促进了数万次在线用户游戏实例。这验证了我们框架的有效性。我们的工作展示了更开放、民主化游戏范式的潜力,突显了生成式人工智能对游戏生命周期的转变影响。

论文链接: https://arxiv.org/abs/2407.08195

自动生成网络审查探测列表

原标题: Automatic Generation of Web Censorship Probe Lists

作者: Jenny Tang, Leo Alvarez, Arjun Brar, Nguyen Phong Hoang, Nicolas Christin

机构: 卡内基梅隆大学 EPFL 加拿大英属哥伦比亚大学

摘要: 领域探测列表——用于确定哪些 URL 应该被探测以进行网络审查——在互联网审查测量研究中发挥着关键作用。事实上,领域探测列表的大小和准确性限制了可以检测到的被审查页面集合;不准确的列表可能导致对审查格局的不完整视图或有偏见的结果。先前生成领域探测列表的工作大多是手动或众包的。这种方法耗时,容易出错,并且不太适用于不断变化的审查格局。
在本文中,我们探讨了自动生成既全面又及时的用于网络审查测量的探测列表的方法。我们从包含各种语言页面的各种现有测试列表中的 139,957 个独特 URL 的初始集合开始生成新的候选页面。通过分析这些 URL 的内容(即进行主题和关键词提取),扩展这些主题,并将它们作为搜索引擎的输入,我们的方法生成了来自 35,147 个域的 119,255 个新 URL。然后,我们通过尝试从全球十一个不同位置的服务器访问每个 URL,持续四个月的时间,检查它们的连通性和潜在的审查迹象来测试新的候选页面。我们的测量结果显示,我们的方法发现了超过 1,400 个领域——在原始数据集中不存在——我们怀疑被封锁。简而言之,自动更新探测列表是可能的,并且有助于进一步自动化大规模审查测量。

论文链接: https://arxiv.org/abs/2407.08185

隐私保护数据去重以增强语言模型联邦学习

原标题: Privacy-Preserving Data Deduplication for Enhancing Federated Learning of Language Models

作者: Aydin Abadi, Vishnu Asutosh Dasu, Sumanta Sarkar

机构: 纽卡斯尔大学 宾夕法尼亚州立大学 华威大学

摘要: 去重是一个至关重要的预处理步骤,可以提升机器学习模型的性能,节省训练时间和能源。然而,通过去重增强联邦学习面临挑战,特别是在可扩展性和潜在隐私侵犯方面,如果去重涉及共享所有客户端数据。在本文中,我们通过引入一种开创性协议——高效隐私保护多方去重(EP-MPD),解决了联邦设置中的去重问题。它可以有效地从多个客户端数据集中删除重复项,而不会损害数据隐私。EP-MPD以模块化方式构建,利用了两种新颖变体的私有集合交集协议。我们的大量实验证明了在大型语言模型的联邦学习中去重的显著好处。例如,我们观察到困惑度提高了高达19.61%,运行时间减少了高达27.95%。EP-MPD在联邦学习中有效平衡了隐私和性能,使其成为大规模应用的宝贵解决方案。

论文链接: https://arxiv.org/abs/2407.08152

朝向使用大语言模型实现可解释的进化策略

原标题: Towards Explainable Evolution Strategies with Large Language Models

作者: Jill Baumann, Oliver Kramer

机构: 卡尔·冯·奥西茨基老年大学

摘要: 这篇论文介绍了一种将自适应进化策略(ES)与大语言模型(LLMs)相结合的方法,以增强复杂优化过程的可解释性。通过采用配备重启机制的自适应ES,我们有效地遍历基准函数的具有挑战性的景观,捕获优化过程的详细日志,包括适应度演变、步长调整以及由于停滞而导致的重启事件。然后利用LLM处理这些日志,生成简洁、用户友好的摘要,突出收敛行为、最佳适应度成就以及与局部最优解的相遇等关键方面。我们在Rastrigin函数上的案例研究展示了我们的方法如何使ES优化的复杂性变得透明和易于理解。我们的研究结果突出了利用LLMs弥合先进优化算法与可解释性之间差距的潜力。

论文链接: https://arxiv.org/abs/2407.08331

长序列模型能够多好地建模长序列?比较对长上下文能力的架构归纳偏好

原标题: How Well Can a Long Sequence Model Model Long Sequences? Comparing Architechtural Inductive Biases on Long-Context Abilities

作者: Jerry Huang

机构: 蒙特利尔大学 Quebec AI研究所

摘要: 长序列在现实场景中大量出现,因此正确地对其进行建模可以开启许多下游用例。然而,深度神经网络由于多种原因经常在处理这些序列时遇到困难。最近的进展,无论是在系统工程还是模型设计方面,都已经实现了模型的扩展,据称可以支持更长的上下文长度。特别是,状态空间和线性循环神经网络系列的模型理论上可以延伸到无限序列长度。然而,这是否太美好而不真实呢?我们进行了评估,结果显示,虽然这些说法在理论上可能是正确的,但在实践中仍存在大量经验观察到的差距。特别是,循环模型在与具有注意力机制的长上下文LLM相同的情境中仍然存在问题。我们进一步表明,不同的归纳偏差具有不一致的外推能力,突出了需要进一步研究这些范式并调查为什么长上下文模型似乎未能如人们所期望地行为的需求。

论文链接: https://arxiv.org/abs/2407.08112

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值