文章目录~
- 1.Time Series Analysis for Education: Methods, Applications, and Future Directions
- 2.Bidirectional Awareness Induction in Autoregressive Seq2Seq Models
- 3.CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction
- 4.LLM with Relation Classifier for Document-Level Relation Extraction
- 5.CodeGraph: Enhancing Graph Reasoning of LLMs with Code
- 6.Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data
- 7.Towards Reliable Medical Question Answering: Techniques and Challenges in Mitigating Hallucinations in Language Models
- 8.LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings
- 9.Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods
- 10.HRGraph: Leveraging LLMs for HR Data Knowledge Graphs with Information Propagation-based Job Recommendation
- 11.Utilizing Large Language Models for Named Entity Recognition in Traditional Chinese Medicine against COVID-19 Literature: Comparative Study
- 12.A Law of Next-Token Prediction in Large Language Models
- 13.Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning
- 14.The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities
- 15.In-Context Learning with Reinforcement Learning for Incomplete Utterance Rewriting
- 16.Semantic Alignment for Multimodal Large Language Models
- 17.CLLMFS: A Contrastive Learning enhanced Large Language Model Framework for Few-Shot Named Entity Recognition
- 18.Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation
- 19.Controllable Text Generation for Large Language Models: A Survey
- 20.Towards Evaluating and Building Versatile Large Language Models for Medicine
- 21.GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models
- 22.Extraction of Research Objectives, Machine Learning Model Names, and Dataset Names from Academic Papers and Analysis of Their Interrelationships Using LLM and Network Analysis
- 23.Aligning (Medical) LLMs for (Counterfactual) Fairness
- 24.Large Language Models for Page Stream Segmentation
- 25.SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs
- 26.Leveraging Chemistry Foundation Models to Facilitate Structure Focused Retrieval Augmented Generation in Multi-Agent Workflows for Catalyst and Materials Design
- 27.Personality Alignment of Large Language Models
- 28.Leveraging Fine-Tuned Retrieval-Augmented Generation with Long-Context Support: For 3GPP Standards
- 29.DocTabQA: Answering Questions from Long Documents Using Tables
- 30.First Activations Matter: Training-Free Methods for Dynamic Activation in Large Language Models
- 31.On the Interchangeability of Positional Embeddings in Multilingual Neural Machine Translation Models
- 32.RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation
- 33.Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond
- 34.SarcasmBench: Towards Evaluating Large Language Models on Sarcasm Understanding
- 35.UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation
1.Time Series Analysis for Education: Methods, Applications, and Future Directions
标题:教育时间序列分析:方法、应用和未来方向
author:Shengzhong Mao, Chaoli Zhang, Yichi Song, Jindong Wang, Xiao-Jun Zeng, Zenglin Xu, Qingsong Wen
publish:24 pages, 3 figures, 6 tables, project page: see
https://github.com/ai-for-edu/time-series-analysis-for-education
date Time:2024-08-25
paper pdf:http://arxiv.org/pdf/2408.13960v2
摘要:
最近在收集和分析连续教育数据方面取得的进展,使时间序列分析在教育研究中占据了举足轻重的地位,凸显了其在促进数据驱动决策方面的重要作用。然而,目前还缺乏对这些进展进行整合的全面总结。据我们所知,本文是第一篇专门针对教育领域的时间序列分析技术进行全面评述的文章。我们首先探讨了教育数据分析的前景,对与教育相关的各种数据源和类型进行了分类。然后,我们回顾了四种著名的时间序列方法–预测、分类、聚类和异常检测–说明了它们在教育环境中的具体应用点。随后,我们介绍了一系列教育场景和应用,重点关注如何利用这些方法来解决不同的教育任务,从而突出多种时间序列方法的实际整合,以解决复杂的教育问题。最后,我们讨论了未来的发展方向,包括个性化学习分析、多模态数据融合以及大型语言模型(LLM)在教育时间序列中的作用。本文的贡献包括:对教育数据进行了详细分类;综合了具有特定教育应用的时间序列技术;以前瞻性的视角探讨了教育分析领域的新兴趋势和未来研究机会。相关论文和资源可在项目页面获取并定期更新。
2.Bidirectional Awareness Induction in Autoregressive Seq2Seq Models
标题:自回归 Seq2Seq 模型中的双向意识诱导
author:Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi
date Time:2024-08-25
paper pdf:http://arxiv.org/pdf/2408.13959v1
摘要:
自回归序列到序列模型是视觉和自然语言处理等主要研究领域中许多深度学习成果的基础。尽管如此,它们仍然存在很大的局限性。例如,当预测的早期步骤出现错误时,整个输出就会受到严重影响。这种对先前预测标记的依赖以及顺序算法在计算上的固有缺陷,促使研究人员探索不同的架构和方法,寻找双向方法。在这项工作中,我们介绍了双向认知诱导(BAI),这是一种利用网络中的一个元素子集(Pivots)来执行双向学习而不破坏自回归约束的训练方法。为了展示该方法的灵活性,我们将其应用于三种架构,即 Transformer、ExpansionNet v2 和 GPT,然后在三个任务中进行了实验。实验结果表明 BAI 在所有选定的任务和架构上都很有效。特别是,我们观察到,与各自的基线相比,BAI 在图像标注(Image-Captioning)中提高了 2.4 CIDEr,在神经机器翻译(Neural Machine Translation)中提高了 4.96 BLEU,在文本总结(Text Summarization)中提高了 1.16 ROUGE。值得注意的是,BAI 不仅对从头开始训练的模型有积极影响,而且对预训练的模型也有积极影响。这一方面,再加上没有架构要求,与当前 LLM 的发展趋势相得益彰。
3.CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction
标题:CoT Rerailer:通过错误检测和纠正提高大型语言模型在复杂推理任务中的可靠性
author:Guangya Wan, Yuqi Wu, Jie Chen, Sheng Li
date Time:2024-08-25
paper pdf:http://arxiv.org/pdf/2408.13940v1
摘要:
思维链(CoT)提示通过生成中间步骤,增强了大型语言模型(LLM)的复杂推理能力。然而,这些步骤可能会产生幻觉并积累错误。为了应对这些挑战,我们提出了 CoT Rerailer,利用自洽性和多代理辩论系统来识别和纠正推理过程中的错误。CoT Rerailer 首先通过自动代理的一致性检查和批判性评估,选择逻辑上最正确的推理路径(RP)。然后,它让多代理辩论系统提出并验证纠正措施,以确保生成无误的中间逻辑路径。修正后的步骤将用于生成修正推理链,以进一步减少幻觉并提高答案质量。我们在不同知识领域的各种问题解答数据集上展示了我们的方法的有效性。CoT Rerailer 增强了 LLM 生成的推理的可靠性,有助于提高人工智能驱动的决策过程的可信度。
4.LLM with Relation Classifier for Document-Level Relation Extraction
标题:带有关系分类器的文档级关系提取 LLM
author:Xingzuo Li, Kehai Chen, Yunfei Long, Min Zhang
date Time:2024-08-25
paper pdf:http://arxiv.org/pdf/2408.13889v1
摘要:
大型语言模型(LLM)开创了自然语言处理的新模式。尽管取得了进步,但基于 LLM 的方法在文档级关系提取(DocRE)方面仍然落后于传统方法,而文档级关系提取是理解复杂实体关系的关键任务。本文研究了造成这种性能差距的原因,发现 LLM 对没有关系的实体对的注意力分散是一个主要因素。然后,我们为 DocRE 引入了一种新颖的分类器-LLM 方法。我们提出的方法首先是一个分类器,专门用于选择展示潜在关系的实体对候选者,然后将其输入 LLM 进行最终的关系提取。这种方法可以确保在推理过程中,LLM 主要关注具有关系的实体对。在 DocRE 基准上进行的实验表明,我们的方法明显优于最近基于 LLM 的 DocRE 模型,并在性能上可与几种领先的传统 DocRE 模型相媲美。
5.CodeGraph: Enhancing Graph Reasoning of LLMs with Code
标题:CodeGraph:利用代码增强 LLM 的图推理能力
author:Qiaolong Cai, Zhaowei Wang, Shizhe Diao, James Kwok, Yangqiu Song
publish:In Progress
date Time:2024-08-25
paper pdf:http://arxiv.org/pdf/2408.13863v1
摘要:
随着大型语言模型(LLMs)的日益普及,对基本图形算法问题进行推理是评估其处理和推断复杂图形推理任务能力的重要中间步骤。现有方法通常将图结构数据转换为文本描述,然后使用 LLM 进行推理和计算。然而,在基本图算法问题中,LLMs 在计算边数等算术部分经常出现计算错误。此外,它们也很难控制或理解推理过程的输出结果,这让人担心 LLM 是否只是在猜测。在本文中,我们介绍了一种将图问题解决方案编码为代码的方法–CodeGraph。该方法通过学习示例、生成程序并通过程序解释器执行程序来解决新的图问题。我们使用少数几个例子的设置,评估了以 GPT-3.5 Turbo、Llama3-70B Instruct、Mixtral-8x22B Instruct 和 Mixtral-8x7B Instruct 为基础 LLM 的 CodeGraph。在GraphQA数据集中使用六种图形编码方法完成的六项任务的实验结果表明,CodeGraph可以将LLM内的图形推理任务的性能提高1.3%到58.6%,具体取决于任务。与现有方法相比,CodeGraph 在图任务中的算术问题上表现出色,并为推理过程提供了一种更可控、更可解释的方法。
6.Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data
标题:在未知医学数据上,生物医学大型语言模型似乎并不优于通用模型
author:Felix J. Dorfner, Amin Dada, Felix Busch, Marcus R. Makowski, Tianyu Han, Daniel Truhn, Jens Kleesiek, Madhumita Sushil, Jacqueline Lammert, Lisa C. Adams, Keno K. Bressem
publish:10 pages, 3 tables, 1 figure
date Time:2024-08-25
paper pdf:http://arxiv.org/pdf/2408.13833v1
摘要:
大型语言模型(LLMs)在生物医学应用中显示出了潜力,因此人们努力在特定领域的数据上对其进行微调。然而,这种方法的有效性仍不明确。本研究评估了经过生物医学微调的 LLM 在各种临床任务中的表现,并与通用型 LLM 进行了对比。我们评估了它们在《新英格兰医学杂志》(NEJM)和《美国医学会杂志》(JAMA)的临床病例挑战以及几项临床任务(如信息提取、文档摘要和临床编码)上的性能。通过使用生物医学模型微调数据集之外的特定基准,我们发现生物医学 LLM 的性能大多不如通用型 LLM,尤其是在不侧重于医学知识的任务上。虽然大型模型在病例任务上的表现类似(例如,OpenBioLLM-70B:66.4% vs. Llama-3-70B-Instruct:65% on JAMA cases),但小型生物医学模型的表现则更为明显(例如,OpenBioLLM-8B:30% vs. Llama-3-8B-Instruct: 64.3% on NEJM cases)。在 CLUE(临床语言理解评估)基准任务中也观察到了类似的趋势,通用模型通常在文本生成、问题解答和编码任务中表现更好。我们的研究结果表明,根据生物医学数据对 LLM 进行微调可能不会带来预期的好处,还有可能导致性能下降,这对目前关于 LLM 特定领域适应性的假设提出了挑战,并强调了医疗人工智能领域需要更严格的评估框架。其他方法,如检索增强生成,可能会更有效地增强 LLM 的生物医学能力,而不会损害其一般知识。
7.Towards Reliable Medical Question Answering: Techniques and Challenges in Mitigating Hallucinations in Language Models
标题:实现可靠的医学问题解答:减轻语言模型幻觉的技术与挑战
author:Duy Khoa Pham, Bao Quoc Vo
publish:9 pages
date Time:2024-08-25
paper pdf:http://arxiv.org/pdf/2408.13808v1
摘要:
大型语言模型(LLM)的快速发展对包括医疗保健和生物医学在内的各个领域产生了重大影响。然而,幻觉现象(即 LLM 生成的输出偏离事实准确性或上下文)带来了严峻的挑战,尤其是在高风险领域。本文对现有的减少基于知识的任务中的幻觉现象的技术进行了概括性研究,尤其是在医学领域。本文涉及的主要方法包括基于检索增强生成(RAG)的技术、迭代反馈循环、监督微调和提示工程。这些技术虽然在一般情况下大有可为,但由于医疗领域对最新专业知识和严格遵守医疗指南的独特要求,还需要进一步调整和优化。应对这些挑战对于开发值得信赖的人工智能系统至关重要,这些系统可增强临床决策、患者安全以及生物医学科学研究的准确性。
8.LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings
标题:作为零点图学习者的 LLM:将 GNN 表示与 LLM 标记嵌入对齐
author:Duo Wang, Yuan Zuo, Fengzhi Li, Junjie Wu
date Time:2024-08-25
paper pdf:http://arxiv.org/pdf/2408.14512v1
摘要:
由于标注数据稀缺的挑战,零点图机器学习,尤其是图神经网络(GNN),引起了人们的极大兴趣。虽然自监督学习和图提示学习等方法已被广泛探索,但它们通常依赖于特定任务标签的微调,从而限制了它们在零点场景中的有效性。受经过指令微调的大型语言模型(LLMs)的零点学习能力的启发,我们引入了一个名为 "标记嵌入对齐图语言模型(TEA-GLM)"的新框架,该框架利用 LLMs 作为跨数据集和跨任务的零点学习器,用于图机器学习。具体来说,我们对 GNN 进行预训练,将其表征与 LLM 的标记嵌入对齐。然后,我们训练一个线性投影器,将 GNN 的表示转换为固定数量的图标记嵌入,而无需调整 LLM。我们为不同层次的各种图任务设计了统一的指令,如节点分类(节点级)和链接预测(边级)。这些设计选择共同提高了我们的方法在零点学习中的有效性,使其有别于现有方法。实验表明,与其他使用 LLM 作为预测器的方法相比,我们的图标记嵌入有助于 LLM 预测器在未见过的数据集和任务中取得最先进的性能。
9.Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods
标题:揭示思维链提示法的统计基础
author:Xinyang Hu, Fengzhuo Zhang, Siyu Chen, Zhuoran Yang
publish:150 pages, 18 figures, 3 tables
date Time:2024-08-25
paper pdf:http://arxiv.org/pdf/2408.14511v2
摘要:
思维链(CoT)提示及其变体作为使用预训练的大型语言模型(LLM)解决多步骤推理问题的有效方法,已经广受欢迎。在这项工作中,我们从统计估算的角度分析了 CoT 提示,对其样本复杂性进行了全面描述。为此,我们引入了一个多步骤潜变量模型,该模型封装了推理过程,其中潜变量编码了任务信息。在此框架下,我们证明了当预训练数据集足够大时,CoT 提示形成的估计器等同于贝叶斯估计器。这种估计器通过聚合从提示中的演示示例推断出的后验分布,有效地解决了多步推理问题。此外,我们还证明,CoT 估算器的统计误差可分解为两个主要部分:(i) 提示误差,这产生于使用 CoT 提示推断真实任务,以及 (ii) 预训练 LLM 的统计误差。我们发现,在适当的假设条件下,随着演示次数的增加,提示误差会以指数形式衰减为零。此外,我们还明确描述了预训练 LLM 的近似误差和泛化误差。值得注意的是,我们构建了一个变压器模型,该模型可以近似多步骤推理问题的目标分布,其误差随变压器块的数量呈指数级下降。我们的分析扩展到了 CoT 的其他变体,包括自洽 CoT、思想树和选择推理,为这些方法的有效性提供了一个广阔的视角。我们还提供了数值实验来验证理论发现。
10.HRGraph: Leveraging LLMs for HR Data Knowledge Graphs with Information Propagation-based Job Recommendation
标题:HRGraph:利用基于信息传播的职位推荐,将 LLMs 用于人力资源数据知识图谱
author:Azmine Toushik Wasi
publish:7 Pages, 4 Figures. View in ACL Anthology:
https://aclanthology.org/2024.kallm-1.6/
date Time:2024-08-24
paper pdf:http://arxiv.org/pdf/2408.13521v1
摘要:
作为语义网络的知识图谱(KGs),通过提供统一的、上下文关联的、结构化的表示方法,以及允许轻松适应不断发展的知识的灵活性,被证明在管理不同领域复杂的互连数据方面非常有效。在处理复杂的人力资源(HR)数据时,KG 可以帮助实现不同的人力资源功能,如招聘、职位匹配、识别学习差距和提高员工保留率。尽管知识图谱具有很大的潜力,但在实施实用的人力资源知识图谱方面所做的努力还很有限。本研究针对这一空白,提出了一个利用大型语言模型从文档中有效开发人力资源知识图谱的框架。由此产生的知识图谱可用于各种下游任务,包括职位匹配、识别员工技能差距等。在这项工作中,我们展示了人力资源知识图谱在精确职位匹配中的作用,为雇主和雇员都带来了好处。在 KGs 和图神经网络中进行信息传播的实验以及案例研究的经验证据,都强调了 KGs 在工作和员工推荐以及工作领域分类等任务中的有效性。代码和数据请访问:https://github.com/azminewasi/HRGraph
11.Utilizing Large Language Models for Named Entity Recognition in Traditional Chinese Medicine against COVID-19 Literature: Comparative Study
标题:对照 COVID-19 文献,利用大语言模型进行中药命名实体识别:比较研究
author:Xu Tong, Nina Smirnova, Sharmila Upadhyaya, Ran Yu, Jack H. Culbert, Chao Sun, Wolfgang Otto, Philipp Mayr
publish:22 pages with 2 figures
date Time:2024-08-24
paper pdf:http://arxiv.org/pdf/2408.13501v1
摘要:
目的:以 COVID-19 文献为基础,探索并比较 ChatGPT 和其他最先进的 LLM 在特定领域 NER 任务中的性能,这些任务涵盖中医不同的实体类型和领域。研究方法我们针对 COVID-19 建立了一个包含 389 篇中医药文章的数据集,并对其中 48 篇文章进行了人工标注,标注了属于 3 个领域的 6 种实体类型,作为基本事实,以此来评估 LLM 的 NER 性能。然后,我们使用 ChatGPT(GPT-3.5 和 GPT-4)和 4 个最先进的基于 BERT 的问题解答(QA)模型(RoBERTa、MiniLM、PubMedBERT 和 SciBERT)对这 6 种实体类型执行了 NER 任务,而无需事先进行特定任务的培训。为了进行全面比较,还使用了一个经过领域微调的模型(GSAP-NER)。结果:在精确匹配和模糊匹配中,LLM 的总体性能差异很大。在模糊匹配中,ChatGPT 在 6 个任务中有 5 个超过了基于 BERT 的 QA 模型;而在精确匹配中,基于 BERT 的 QA 模型在 6 个任务中有 5 个超过了 ChatGPT,但 F-1 差异较小。在模糊匹配中,GPT-4 比其他模型有明显优势,尤其是在中药配方实体类型和中成药(TFD)及成分(IG)方面。虽然 GPT-4 在药材实体类型、目标和研究方法上的表现优于基于 BERT 的模型,但 F-1 分数均未超过 0.5。在 RM 方面,GSAP-NER 的 F-1 分数略高于 GPT-4。ChatGPT 的召回率大大高于精确率,尤其是在模糊匹配方面。结论LLM 的 NER 性能在很大程度上取决于实体类型,而且它们在不同应用场景下的性能也各不相同。对于需要高召回率的应用场景,ChatGPT 可能是一个不错的选择。然而,对于严格场景下的知识获取,无论是 ChatGPT 还是基于 BERT 的质量保证模型,都不是专业从业人员的现成工具。
12.A Law of Next-Token Prediction in Large Language Models
标题:大型语言模型中的下一个词预测定律
author:Hangfeng He, Weijie J. Su
date Time:2024-08-24
paper pdf:http://arxiv.org/pdf/2408.13442v1
摘要:
大型语言模型(LLMs)已被广泛应用于各种应用领域,但其黑箱性质给理解这些模型如何在内部处理输入数据以进行预测带来了巨大挑战。在本文中,我们介绍了一种精确的定量法则,该法则通过预训练 LLM 中的中间层来管理上下文标记嵌入的学习,从而实现下一个标记的预测。我们的研究结果表明,从最低层到最高层,每一层对提高预测准确性的贡献都是相同的–这是在基于 Transformer、RWKV 和 Mamba 等架构构建的各种开源 LLM 中观察到的普遍现象。我们证明,该定律提供了新的视角和见解,可为 LLM 开发和应用中的实践提供信息和指导,包括模型缩放、预训练任务和信息流。总体而言,我们的定律通过仔细研究 LLM 的内部数据处理机制,为 LLM 的设计、训练和解释提供了更精细的方法。
13.Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning
标题:基于即时工程的 LLM 能否成为优秀的路径规划师?减少路径规划的幻觉
author:Hourui Deng, Hongjie Zhang, Jie Ou, Chaosheng Feng
publish:Submitted to ICASSP
date Time:2024-08-23
paper pdf:http://arxiv.org/pdf/2408.13184v2
摘要:
大型语言模型(LLMs)的空间推理能力是体现智能的基础。然而,即使在简单的迷宫环境中,大语言模型在长期路径规划方面仍会遇到挑战,这主要是受其空间幻觉和长期推理的语境不一致幻觉的影响。为解决这一难题,本研究提出了一种创新模式–空间到关系转换和课程 Q 学习(S2RCQL)。为了解决长期推理的空间幻觉问题,我们提出了空间到关系的方法,将空间提示转化为实体关系和代表实体关系链的路径。这种方法充分挖掘了 LLMs 在顺序思维方面的潜力。因此,我们设计了一种基于 Q-learning 的路径规划算法,以减轻上下文不一致的幻觉,从而提高 LLM 的推理能力。利用状态-动作的Q值作为提示的辅助信息,我们纠正了LLMs的幻觉,从而引导LLMs学习最优路径。最后,我们提出了一种基于 LLMs 的反向课程学习技术,以进一步减轻上下文不一致的幻觉。LLMs 可以通过降低任务难度迅速积累成功经验,并利用这些经验处理更复杂的任务。我们基于百度自主研发的 LLM:ERNIE-Bot 4.0 进行了全面的实验。结果表明,与高级提示工程相比,我们的 S2RCQL 在成功率和优化率方面都提高了 23%-40%。
14.The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities
标题:从基础到突破的 LLM 微调终极指南:技术、研究、最佳实践、应用研究挑战与机遇详尽回顾
author:Venkatesh Balavadhani Parthasarathy, Ahtsham Zafar, Aafaq Khan, Arsalan Shahid
date Time:2024-08-23
paper pdf:http://arxiv.org/pdf/2408.13296v1
摘要:
本报告探讨了大型语言模型(LLM)的微调问题,将理论见解与实际应用相结合。报告概述了大型语言模型从传统的自然语言处理(NLP)模型到在人工智能领域发挥关键作用的历史演变过程。报告比较了微调方法,包括有监督、无监督和基于指令的方法,强调了这些方法对不同任务的适用性。报告介绍了用于微调 LLM 的结构化七阶段管道,包括数据准备、模型初始化、超参数调整和模型部署。重点是管理不平衡数据集和优化技术。为了在计算效率和性能之间取得平衡,还探讨了参数效率高的方法,如低阶自适应(Low-Rank Adaptation,LoRA)和半微调(Half Fine-Tuning)。报告还讨论了内存微调、专家混合(MoE)和代理混合(MoA)等先进技术,以充分利用专业网络和多代理协作。报告还探讨了近端策略优化(PPO)和直接偏好优化(DPO)等新方法,这些方法将 LLM 与人类偏好相匹配,并通过剪枝和路由优化来提高效率。其他章节涉及验证框架、部署后监控和推理优化,并关注在分布式和基于云的平台上部署 LLM。报告还探讨了多模态 LLM、音频和语音微调等新兴领域,以及与可扩展性、隐私和责任相关的挑战。本报告为研究人员和从业人员在不断变化的环境中驾驭 LLM 微调提供了可行的见解。
15.In-Context Learning with Reinforcement Learning for Incomplete Utterance Rewriting
标题:针对不完整语篇改写的语境学习与强化学习
author:Haowei Du, Dongyan Zhao
date Time:2024-08-23
paper pdf:http://arxiv.org/pdf/2408.13028v1
摘要:
大型语言模型(LLMs)的上下文学习(ICL)已引起越来越多的关注。现有的 ICL 示例选择方法利用稀疏或密集检索器,并能获得有效的性能。但是,这些方法并没有利用 LLM 的直接反馈来训练检索器,而且选择的示例并不一定能提高 LLM 的类比能力。为了解决这个问题,我们提出了基于策略的实例选择强化学习框架(RLS),它由语言模型(LM)选择器和 LLM 生成器组成。语言模型选择器将候选示例编码为密集表示,并选择前 k 个示例进行 LLM 演示。LLM 的输出用于计算奖励和策略梯度,以优化 LM 选择器。我们在不同的数据集上进行了实验,结果明显优于现有的示例选择方法。此外,我们的方法还显示出在少数几个镜头设置中优于监督微调(SFT)模型的优势。进一步的实验表明,例子的丰富性和与测试案例的相似性之间的平衡对于 LLM 的 ICL 性能非常重要。
16.Semantic Alignment for Multimodal Large Language Models
标题:多模态大型语言模型的语义对齐
author:Tao Wu, Mengze Li, Jingyuan Chen, Wei Ji, Wang Lin, Jinyang Gao, Kun Kuang, Zhou Zhao, Fei Wu
publish:Accepted by MM 2024
date Time:2024-08-23
paper pdf:http://arxiv.org/pdf/2408.12867v1
摘要:
针对多图像跨模态教学的多模态大语言模型(MLLMs)研究受到越来越多的关注,并取得了重大进展,尤其是在涉及近似图像的场景中(如更改字幕)。现有的 MLLM 通常采用两步流程:首先,为每张输入图像独立提取视觉标记,然后将这些来自不同图像的视觉标记与大语言模型(LLM)的文本特征空间对齐。然而,为每幅图像独立提取视觉标记可能会导致不同图像的不同语义在第一步中被优先处理,从而导致在随后的 LLM 分析中无法保留图像之间的链接信息。在图像之间存在显著差异(如视觉故事)的情况下,这个问题会变得更加严重。为了应对这一挑战,我们引入了多模态大型语言模型语义对齐(SAM)。通过在视觉标记提取过程中涉及不同图像之间的双向语义引导,SAM 的目的是在将不同图像输入 LLM 之前,为连贯分析加强链接信息的保存并对齐不同图像的语义。作为测试平台,我们提出了一个名为 MmLINK 的大规模数据集,其中包含 69K 个样本。与大多数现有的用于微调 MLLM 的数据集不同,我们的 MmLINK 数据集包含多模态指令和大量不同的图像。在分组字幕任务和讲故事任务上的广泛实验证明了我们的 SAM 模型的有效性,大大超过了最先进的方法(在 CIDEr 分数上,分组字幕 +37% ,讲故事 +22%)。项目页面:https://mccartney01.github.io/SAM。
17.CLLMFS: A Contrastive Learning enhanced Large Language Model Framework for Few-Shot Named Entity Recognition
标题:CLLMFS:用于少量命名实体识别的对比学习增强型大语言模型框架
author:Yafeng Zhang, Zilan Yu, Yuang Huang, Jing Tang
publish:27TH EUROPEAN CONFERENCE ON ARTIFICIAL INTELLIGENCE
date Time:2024-08-23
paper pdf:http://arxiv.org/pdf/2408.12834v1
摘要:
少量命名实体识别(NER)是指仅利用有限的标记数据识别命名实体的任务,它在自然语言处理领域的重要性与日俱增。虽然现有的方法已显示出一定的有效性,如通过各种提示模式或采用度量学习技术来丰富标签语义,但由于其预训练模型中缺乏丰富的知识,这些方法在不同领域的表现表现出有限的鲁棒性。为了解决这个问题,我们提出了用于少量命名实体识别的对比学习增强型大语言模型(LLM)框架–CLLMFS,从而在训练数据有限的情况下取得了可喜的成果。考虑到 LLM 的内部表征对下游任务的影响,CLLMFS 整合了低库自适应(Low-Rank Adaptation,LoRA)和对比学习机制,专为少拍 NER 量身定制。通过增强模型的内部表征,CLLMFS 有效地提高了实体边界感知能力和实体识别准确率。在多个公认的基准测试中,我们的方法与现有的最佳方法相比,在 F1 分数上实现了从 2.58% 到 97.74% 的一流性能提升。此外,通过在多个数据集上进行的跨领域 NER 实验,我们进一步验证了我们方法的强大泛化能力。我们的代码将在不久的将来发布。
18.Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation
标题:质量还是数量?为低资源翻译调整大型语言模型时的数据规模和多样性
author:Vivek Iyer, Bhavitvya Malik, Pavel Stepachev, Pinzhen Chen, Barry Haddow, Alexandra Birch
publish:10 pages, 6 figures
date Time:2024-08-23
paper pdf:http://arxiv.org/pdf/2408.12780v1
摘要:
尽管大语言模型(LLMs)最近在机器翻译(MT)领域大受欢迎,但其在低资源翻译中的表现仍然明显落后于神经机器翻译(NMT)模型。在本文中,我们将探讨如何使 LLM 适应低资源环境。特别是,我们重新审视了两个因素的作用:a) 并行数据的重要性和应用;b) 监督微调 (SFT) 的多样性。最近的研究表明,并行数据对于使用 LLM 的 MT 的重要性低于以往的 MT 研究。同样,监督微调(SFT)过程中的多样性已被证明可促进 LLM 在不同语言和任务间的显著转移。然而,对于低资源 LLM-MT,我们的研究表明这两个考虑因素恰恰相反:a)并行数据在预训练和 SFT 期间都至关重要;b)多样性往往会造成干扰,而不是迁移。我们在两个低资源语言群体–美国土著和印度东北部–的 3 个 LLM 中进行的实验揭示了这两种情况下的一致模式,强调了我们研究结果的普遍性。我们相信,这些见解对于扩展到大规模多语言 LLM-MT 模型非常有价值,这些模型可以有效地服务于低资源语言。
19.Controllable Text Generation for Large Language Models: A Survey
标题:大型语言模型的可控文本生成:调查
author:Xun Liang, Hanyu Wang, Yezhaohui Wang, Shichao Song, Jiawei Yang, Simin Niu, Jie Hu, Dan Liu, Shunyu Yao, Feiyu Xiong, Zhiyu Li
publish:52 pages, 11 figures, 7 tables, 11 equations
date Time:2024-08-22
paper pdf:http://arxiv.org/pdf/2408.12599v1
摘要:
在自然语言处理(NLP)领域,大型语言模型(LLM)已证明具有很高的文本生成质量。然而,在实际应用中,LLM 必须满足日益复杂的要求。除了避免误导或不恰当的内容外,LLM 还需要满足特定用户的需求,例如模仿特定的写作风格或生成富有诗意的文本。这些不同的需求推动了可控文本生成(Controllable Text Generation,CTG)技术的发展,CTG 可确保输出符合预定义的控制条件,如安全性、情感、主题一致性和语言风格,同时保持高标准的帮助性、流畅性和多样性。 本文系统地回顾了针对语言学习者的 CTG 的最新进展,对其核心概念进行了全面定义,并阐明了对控制条件和文本质量的要求。我们将 CTG 任务分为两种主要类型:内容控制和属性控制。我们讨论了主要方法,包括模型再训练、微调、强化学习、提示工程、潜空间操作和解码时干预。我们分析了每种方法的特点、优势和局限性,为实现生成控制提供了细致入微的见解。此外,我们还回顾了 CTG 评估方法,总结了其在各个领域的应用,并探讨了当前研究中的主要挑战,包括流畅性和实用性的降低。我们还提出了一些呼吁,例如在未来的研究中更加重视实际应用。本文旨在为该领域的研究人员和开发人员提供有价值的指导。我们的参考文献列表和中文版已在 https://github.com/IAAR-Shanghai/CTGSurvey 上开源。
20.Towards Evaluating and Building Versatile Large Language Models for Medicine
标题:评估和建立多功能医学大语言模型
author:Chaoyi Wu, Pengcheng Qiu, Jinxin Liu, Hongfei Gu, Na Li, Ya Zhang, Yanfeng Wang, Weidi Xie
date Time:2024-08-22
paper pdf:http://arxiv.org/pdf/2408.12547v1
摘要:
在本研究中,我们介绍了 MedS-Bench,这是一个综合性基准,旨在评估大型语言模型(LLM)在临床环境中的性能。与专注于多选题回答的现有基准不同,MedS-Bench 涵盖 11 项高级临床任务,包括临床报告总结、治疗建议、诊断、命名实体识别和医学概念解释等。我们评估了六种领先的 LLM,如 MEDITRON、Mistral、InternLM 2、Llama 3、GPT-4 和 Claude-3.5,发现即使是最复杂的模型也很难完成这些复杂的任务。为了解决这些局限性,我们开发了大规模医学指令调整数据集 MedS-Ins。MedS-Ins 包含 58 个面向医学的语料库,共 1350 万个样本,涉及 122 个任务。为了证明该数据集的实用性,我们在一个轻量级开源医学语言模型上进行了一次概念验证实验,对其进行了指令调优。由此产生的模型 MMedIns-Llama 3 在几乎所有临床任务中的表现都明显优于现有模型。此外,我们还为 MedS-Bench 推出了一个动态排行榜,计划定期更新测试集,以跟踪进展并提高通用 LLM 对医疗领域的适应性。排行榜:https://henrychur.github.io/MedS-Bench/。Github: https://github.com/MAGIC-AI4Med/MedS-Ins.
21.GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models
标题:GenderCARE:评估和减少大型语言模型中性别偏见的综合框架
author:Kunsheng Tang, Wenbo Zhou, Jie Zhang, Aishan Liu, Gelei Deng, Shuai Li, Peigui Qi, Weiming Zhang, Tianwei Zhang, Nenghai Yu
date Time:2024-08-22
paper pdf:http://arxiv.org/pdf/2408.12494v1
摘要:
大型语言模型(LLM)在自然语言生成方面表现出了非凡的能力,但人们也发现它们会放大社会偏见,尤其是与性别相关的偏见。针对这一问题,人们提出了一些基准来评估 LLM 中的性别偏见。然而,这些基准往往缺乏实际灵活性,或无意中引入了偏见。为了解决这些问题,我们推出了 GenderCARE,一个包含创新标准、偏见评估、减少技术和评估指标的综合框架,用于量化和减少法律硕士中的性别偏见。首先,我们为性别平等基准制定了开创性的标准,包括包容性、多样性、可解释性、客观性、稳健性和现实性等方面。在这些标准的指导下,我们构建了性别对(GenderPair)–一种新颖的基于对的基准,旨在全面评估法律硕士中的性别偏见。我们的基准提供了标准化和现实的评估,包括以前被忽视的性别群体,如变性人和非二元个人。此外,我们还开发了有效的去除法技术,将反事实数据增强和专门的微调策略结合起来,在不影响 LLM 整体性能的情况下减少 LLM 中的性别偏差。广泛的实验表明,各种性别偏差基准显著减少,在 17 种不同的 LLM 中,减少率最高超过 90%,平均超过 35%。重要的是,这些减少在主流语言任务中的变化极小,保持在 2% 以下。通过对性别偏见进行现实评估和量身定制的减少措施,我们希望我们的 GenderCARE 能够成为实现法律硕士公平和公正的重要一步。更多详情,请访问 https://github.com/kstanghere/GenderCARE-ccs24。
22.Extraction of Research Objectives, Machine Learning Model Names, and Dataset Names from Academic Papers and Analysis of Their Interrelationships Using LLM and Network Analysis
标题:从学术论文中提取研究目标、机器学习模型名称和数据集名称,并利用 LLM 和网络分析分析它们之间的相互关系
author:S. Nishio, H. Nonaka, N. Tsuchiya, A. Migita, Y. Banno, T. Hayashi, H. Sakaji, T. Sakumoto, K. Watabe
publish:10 pages, 8 figures
date Time:2024-08-22
paper pdf:http://arxiv.org/pdf/2408.12097v1
摘要:
机器学习广泛应用于各行各业。为特定任务确定合适的机器学习模型和数据集对于机器学习的有效行业应用至关重要。然而,这需要机器学习和相关领域的专业知识,从而导致高昂的学习成本。因此,从学术论文中提取任务、机器学习模型和数据集组合的研究至关重要,因为这有助于自动推荐合适的方法。传统的学术论文信息提取方法仅限于将机器学习模型和其他实体识别为命名实体。针对这一问题,本研究提出了一种从科学论文中提取任务、机器学习方法和数据集名称的方法,并利用 LLM、嵌入模型和网络聚类分析这些信息之间的关系。在使用 Llama3 时,所提方法的表达式提取性能在各种类别中都达到了超过 0.8 的 F-score,证实了其实用性。金融领域论文的基准测试结果证明了该方法的有效性,为最新数据集(包括与 ESG(环境、社会和治理)数据相关的数据集)的使用提供了启示。
23.Aligning (Medical) LLMs for (Counterfactual) Fairness
标题:对齐(医学)LLM,实现(反事实)公平性
author:Raphael Poulain, Hamed Fayyaz, Rahmatollah Beheshti
publish:arXiv admin note: substantial text overlap with arXiv:2404.15149
date Time:2024-08-22
paper pdf:http://arxiv.org/pdf/2408.12055v1
摘要:
大型语言模型(LLMs)已成为各种医疗和临床决策支持应用中大有可为的解决方案。然而,LLMs 通常会受到不同类型偏见的影响,这可能会导致对个人的不公平待遇、健康差异的恶化以及对人工智能增强型医疗工具信任度的降低。为了解决这一重要问题,我们在本研究中提出了一种新的模型配准方法,在知识提炼框架内使用偏好优化方法配准 LLM。在介绍我们提出的方法之前,我们首先使用评估框架进行了一次全面的(据我们所知最大的)实证评估,以揭示用于医疗应用的 LLM 中现有偏差的类型和性质。然后,我们提供了一种偏差缓解技术,以减少 LLM 在受保护属性确定的不同子群中的不公平输出模式。我们的研究表明,我们的缓解方法能有效地大幅减少观察到的偏差模式。我们的代码可在(url{https://github.com/healthylaife/FairAlignmentLLM})上公开获取。
24.Large Language Models for Page Stream Segmentation
标题:用于页面流分割的大型语言模型
author:Hunter Heidenreich, Ratish Dalvi, Rohith Mukku, Nikhil Verma, Neven Pičuljan
date Time:2024-08-21
paper pdf:http://arxiv.org/pdf/2408.11981v1
摘要:
页面流分割(PSS)是大规模自动文档处理的必要前提。然而,由于缺乏现实的公共基准,研究进展一直受到限制。本文通过引入 TABME++(一种具有商业光学字符识别(OCR)注释的增强型基准)来弥补这一不足。我们评估了大型语言模型(LLM)在 PSS 上的性能,重点关注基于解码器的模型,并采用参数高效的方法对其进行微调。我们的结果表明,基于解码器的 LLM 性能优于较小的多模态编码器。通过回顾现有的 PSS 研究和数据集,我们确定了该领域的主要挑战和进展。我们的研究结果强调了稳健 OCR 的关键重要性,为开发更有效的文档处理系统提供了宝贵的见解。
25.SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs
标题:SEA:用于 MLLM 中标记词级视觉-文本整合的监督嵌入式对齐方法
author:Yuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang
date Time:2024-08-21
paper pdf:http://arxiv.org/pdf/2408.11813v1
摘要:
多模态大型语言模型(MLLMs)最近展示了非凡的感知和推理能力,通常由视觉编码器、适配器和大型语言模型(LLM)组成。适配器是视觉和语言组件之间的关键桥梁。然而,使用图像级监督来训练适配器往往会导致严重的不对齐,从而削弱 LLM 的能力,限制多模态 LLM 的潜力。为了解决这个问题,我们引入了监督嵌入对齐(SEA),这是一种标记级对齐方法,它利用视觉语言预训练模型(如 CLIP),通过对比学习将视觉标记与 LLM 的嵌入空间对齐。这种方法能确保视觉和语言表征更加连贯地融合在一起,提高多模态 LLM 的性能和可解释性,同时保留其固有功能。广泛的实验表明,SEA 能有效改善多模态 LLM,尤其是对于较小的模型,而无需增加额外的数据或推理计算。SEA 还为开发更通用、适应性更强的解决方案以增强多模态系统奠定了基础。
26.Leveraging Chemistry Foundation Models to Facilitate Structure Focused Retrieval Augmented Generation in Multi-Agent Workflows for Catalyst and Materials Design
标题:利用化学基础模型促进催化剂和材料设计多代理工作流程中的结构重点检索增强生成
author:Nathaniel H. Park, Tiffany J. Callahan, James L. Hedrick, Tim Erdmann, Sara Capponi
date Time:2024-08-21
paper pdf:http://arxiv.org/pdf/2408.11793v1
摘要:
通过深度学习模型进行分子特性预测和生成设计,具有加速开发新型高性能材料的潜力,因此一直是热门研究课题。最近,随着大型语言模型(LLM)和 LLM 驱动的代理系统的出现,这些工作流程得到了显著增强,这些代理系统能够在更复杂的研究任务中利用预先训练好的模型进行预测。虽然效果显著,但在为材料设计任务检索突出信息方面,代理系统仍有很大的改进空间。此外,预测性深度学习模型的其他用途,如利用其潜在表征促进代理系统内的跨模态检索增强生成,以实现特定任务的材料设计,仍有待探索。在此,我们展示了大型预训练化学基础模型可以作为实现小分子、复杂聚合物材料和反应的语义化学信息检索的基础。此外,我们还展示了如何将化学基础模型与 OpenCLIP 等图像模型结合使用,从而在多个表征数据领域实现前所未有的查询和信息检索。最后,我们展示了将这些系统集成到多代理系统中,以促进基于结构和拓扑的自然语言查询和信息检索,完成复杂的研究任务。
27.Personality Alignment of Large Language Models
标题:大型语言模型的个性对齐
author:Minjun Zhu, Linyi Yang, Yue Zhang
date Time:2024-08-21
paper pdf:http://arxiv.org/pdf/2408.11779v1
摘要:
目前对大型语言模型(LLM)进行对齐的方法通常旨在反映人类的一般价值观和行为,但它们往往无法捕捉个体用户的独特特征和偏好。为了弥补这一不足,我们引入了 “个性对齐”(Personality Alignment)的概念。这种方法可以调整 LLM 的响应和决策,使其与个人用户或密切相关群体的特定偏好相匹配。受心理测量学的启发,我们创建了 "人格对齐与人格清单(PAPI)"数据集,其中包括来自 30 万名真实受试者的数据,每个人都提供了基于五大人格因素的行为偏好。通过该数据集,我们可以定量评估 LLM 与每个受试者行为模式的匹配程度。我们认识到人格匹配所面临的挑战:如有限的个人数据、多样的偏好和可扩展性要求:因此我们开发了一种激活干预优化方法。这种方法能利用最少的数据和计算资源,提高 LLM 与个人行为偏好有效匹配的能力。值得注意的是,与 DPO 相比,我们的方法 PAS 只需要 1/5 的优化时间就能实现卓越的性能,为个性调整提供了实用价值。我们的工作为未来的人工智能系统以真正的个性方式进行决策和推理铺平了道路,增强了人工智能交互对每个用户的相关性和意义,推动了以人为本的人工智能的发展。代码已在\url{https://github.com/zhu-minjun/PAlign}中发布。
28.Leveraging Fine-Tuned Retrieval-Augmented Generation with Long-Context Support: For 3GPP Standards
标题:利用微调检索–支持长文本的增强型生成:针对 3GPP 标准
author:Omar Erak, Nouf Alabbasi, Omar Alhussein, Ismail Lotfi, Amr Hussein, Sami Muhaidat, Merouane Debbah
publish:submitted to Proc. IEEE Globecom
date Time:2024-08-21
paper pdf:http://arxiv.org/pdf/2408.11775v1
摘要:
最近的研究表明,大型语言模型(LLM)在电信技术标准方面存在困难。我们提出了一种基于 Phi-2 小语言模型(SLM)的微调检索增强生成(RAG)系统,作为通信网络的神谕。我们开发的系统利用前瞻性语义分块技术,根据嵌入相似性自适应地确定解析断点,从而有效地处理各种文档格式。为了应对技术标准中多种相似上下文的挑战,我们采用了一种重新排序算法,以优先处理检索到的最相关的语块。认识到 Phi-2 的小上下文窗口的局限性,我们采用了一种最新技术,即 SelfExtend,在推理过程中扩展上下文窗口,这不仅提高了性能,还能满足从客户到专业技术人员的更广泛的用户查询和设计要求。在微调方面,我们利用低秩适应(LoRA)技术提高了训练过程中的计算效率,并能在小型数据集上进行有效的微调。我们的综合实验证明,与电信领域现有的问题解答方法相比,该方法有了实质性的改进,其性能超过了 GPT-4 等大型语言模型(其大小约为 GPT-4 的 880 倍)。这项工作提出了一种在通信网络中利用 SLM 的新方法,在效率和性能之间取得了平衡。这项工作可作为网络代理语言模型的基础。
29.DocTabQA: Answering Questions from Long Documents Using Tables
标题:DocTabQA:使用表格回答长文档中的问题
author:Haochen Wang, Kai Hu, Haoyu Dong, Liangcai Gao
publish:18 pages,5 figures
date Time:2024-08-21
paper pdf:http://arxiv.org/pdf/2408.11490v1
摘要:
我们研究了一种新的问题解答(QA)问题设置,称为 DocTabQA。在这种情况下,给定一个长文档,目标是通过将答案组织成直接源自文档内容的结构化表格来回答问题。传统的质量保证方法主要依赖于非结构化文本来制定答案,而 DocTabQA 则不同,它旨在利用结构化表格作为答案,清晰、系统地传达信息,从而提高用户理解能力并突出数据点之间的关系。据我们所知,以前还没有人探讨过这个问题。在本文中,我们介绍了 QTabA 数据集,该数据集包含 300 份金融文档,并附有人工标注的 1.5k 问题-表格对。最初,我们利用 GPT-4 等大型语言模型(LLM)来建立基线。然而,人们普遍认为大型语言模型在从较长的输入序列生成复杂的结构化输出时会遇到困难。为了克服这些困难,我们提出了一个名为 DocTabTalk 的两阶段框架,它首先从大量文件中检索相关句子,然后根据这些已识别的句子生成分层表格。DocTabTalk 融合了两项关键的技术创新:AlignLLaMA 和 TabTalk 专门用于协助 GPT-4 处理 DocTabQA,使其能够生成结构合理、层次分明的表格,并提高组织性和清晰度。在 QTabA 和 RotoWire 数据集上进行的综合实验评估表明,我们的 DocTabTalk 显著提高了 GPT-4 在我们提出的 DocTabQA 任务和表格生成任务中的性能。代码和数据集可在 https://github.com/SmileWHC/DocTabQA 上获取,供进一步研究使用。
30.First Activations Matter: Training-Free Methods for Dynamic Activation in Large Language Models
标题:首次激活很重要:大型语言模型动态激活的免训练方法
author:Chi Ma, Mincong Huang, Ying Zhang, Chao Wang, Yujie Wang, Lei Yu, Chuan Liu, Wei Lin
date Time:2024-08-21
paper pdf:http://arxiv.org/pdf/2408.11393v1
摘要:
动态激活(DA)技术,如 DejaVu 和 MoEfication,已证明其具有显著提高大型语言模型(LLM)推理效率的潜力。然而,这些技术通常依赖于 ReLU 激活函数,或者需要额外的参数和训练才能保持性能。本文介绍了一种无需训练的基于阈值的动态激活(TDA)方法,该方法利用序列信息来利用各种架构模型固有的稀疏性。该方法旨在将生成速度提高 18-25% 而不明显影响任务性能,从而解决现有动态激活技术的局限性。此外,我们还深入研究了 LLM 稀疏性的根本原因,并从理论上分析了其两个关键特征:与历史相关的激活不确定性和与语义无关的激活惯性。我们的全面分析不仅为诊断方法提供了坚实的理论基础,还为指导未来研究优化 LLM 以提高效率和有效性提供了宝贵的见解。
31.On the Interchangeability of Positional Embeddings in Multilingual Neural Machine Translation Models
标题:论多语言神经机器翻译模型中位置嵌入的互换性
author:Varun Gumma, Pranjal A. Chitale, Kalika Bali
publish:Under Review
date Time:2024-08-21
paper pdf:http://arxiv.org/pdf/2408.11382v1
摘要:
标准的神经机器翻译(NMT)模型传统上使用正弦位置嵌入(PE)进行训练,这种方法不足以捕捉长距离的依赖关系,对于长语境或文档级翻译效率低下。与此相反,最先进的大型语言模型(LLM)采用相对 PE,显示出卓越的长度泛化能力。这项研究探索了将预训练 NMT 模型的位置嵌入从绝对正弦 PE 有效转换为 RoPE 和 ALiBi 等相对方法的可能性。我们的研究结果表明,通过在一小部分高质量数据上进行微调,可以有效地用 RoPE 和 ALiBi 代替正弦 PE,而性能损失可以忽略不计或根本没有损失。此外,对于编码器-解码器架构来说,不使用位置嵌入(NoPE)训练的模型并不是一个可行的解决方案,因为与使用任何形式位置嵌入的模型相比,它们的性能始终不佳。此外,即使是使用这些相对位置嵌入从头开始训练的模型,其性能也略低于经过微调的模型,这凸显了我们假设的效率和有效性。
32.RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation
标题:RAGLAB:以研究为导向的模块化检索增强生成统一框架
author:Xuanwang Zhang, Yunze Song, Yidong Wang, Shuyun Tang, Xinfeng Li, Zhengran Zeng, Zhen Wu, Wei Ye, Wenyuan Xu, Yue Zhang, Xinyu Dai, Shikun Zhang, Qingsong Wen
publish:6 pages, 3 figures
date Time:2024-08-21
paper pdf:http://arxiv.org/pdf/2408.11381v1
摘要:
大型语言模型(LLMs)在对话、推理和知识保留方面展示了人类水平的能力。然而,即使是最先进的 LLM 也面临着幻觉和知识实时更新等挑战。目前的研究通过为 LLM 配备外部知识来解决这一瓶颈,这种技术被称为 “检索增强生成”(RAG)。然而,有两个关键问题制约着 RAG 的发展。首先,新型 RAG 算法之间越来越缺乏全面、公平的比较。其次,LlamaIndex 和 LangChain 等开源工具采用了高级抽象,导致缺乏透明度,限制了开发新型算法和评估指标的能力。为了缩小这一差距,我们引入了 RAGLAB,这是一个模块化、面向研究的开源库。RAGLAB 重现了 6 种现有算法,为研究 RAG 算法提供了一个全面的生态系统。利用 RAGLAB,我们在 10 个基准中对 6 种 RAG 算法进行了公平比较。借助 RAGLAB,研究人员可以有效地比较各种算法的性能,并开发新型算法。
33.Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond
标题:自动数据集构建 (ADC):样本收集、数据整理及其他
author:Minghao Liu, Zonglin Di, Jiaheng Wei, Zhongruo Wang, Hengxiang Zhang, Ruixuan Xiao, Haoyu Wang, Jinlong Pang, Hao Chen, Ankit Shah, Hongxin Wei, Xinlei He, Zhaowei Zhao, Haobo Wang, Lei Feng, Jindong Wang, James Davis, Yang Liu
date Time:2024-08-21
paper pdf:http://arxiv.org/pdf/2408.11338v1
摘要:
大规模数据收集对于开发个性化训练数据、缓解训练数据短缺以及微调专业模型至关重要。然而,由于注释错误、大量时间和人力成本,快速准确地创建高质量数据集仍然是一项挑战。为了解决这些问题,我们提出了自动数据集构建(ADC)这一创新方法,它能以可忽略不计的成本和高效率自动创建数据集。ADC 以图像分类任务为出发点,利用 LLM 进行详细的类设计和代码生成,通过搜索引擎收集相关样本,从而大大减少了人工标注的需要,加快了数据生成过程。尽管有这些优势,ADC 也会遇到现实世界中的挑战,如标签错误(标签噪声)和不平衡数据分布(标签偏差)。我们提供的开源软件结合了现有的标签错误检测方法、噪声和偏差数据下的稳健学习方法,确保了更高质量的训练数据和更稳健的模型训练过程。此外,我们还设计了三个基准数据集,分别侧重于标签噪声检测、标签噪声学习和类不平衡学习。这些数据集非常重要,因为尽管标签噪声检测非常重要,但现有的专门用于标签噪声检测的数据集却很少。最后,我们评估了现有流行方法在这些数据集上的性能,从而促进了该领域的进一步研究。
34.SarcasmBench: Towards Evaluating Large Language Models on Sarcasm Understanding
标题:SarcasmBench:评估理解讽刺语言的大型语言模型
author:Yazhou Zhang, Chunwang Zou, Zheng Lian, Prayag Tiwari, Jing Qin
date Time:2024-08-21
paper pdf:http://arxiv.org/pdf/2408.11319v2
摘要:
在大型语言模型(LLM)时代,“系统一”~~~快速、无意识、直观的任务,如情感分析、文本分类等,被认为已经成功解决。然而,讽刺作为一种微妙的语言现象,往往采用夸张、拟人等修辞手法来表达真实的情感和意图,涉及的抽象程度比情感分析更高。越来越多的人担心,在考虑讽刺理解时,有关法律硕士成功的论点可能并不完全站得住脚。为了解决这个问题,我们选择了 11 个 SOTA LLM 和 8 个 SOTA 预训练语言模型 (PLM),并通过不同的提示方法(即零镜头输入/输出 (IO) 提示、少镜头输入/输出 (IO) 提示、思维链 (CoT) 提示)对 6 个广泛使用的基准数据集进行了全面评估。我们的研究结果突出了三个主要发现:(1)在六个讽刺基准中,当前的 LLMs 的表现不如基于监督 PLMs 的讽刺检测基准。这表明,要提高 LLMs 对人类讽刺语言的理解,仍需付出巨大努力。(2) 在各种提示方法中,GPT-4 的表现始终明显优于其他 LLM,平均提高了 14.0%/
↑
\uparrow
↑。Claude 3 和 ChatGPT 的性能仅次于 GPT-4。(3) 少发 IO 提示方法的性能优于其他两种方法:零发 IO 和少发 CoT。原因在于讽刺语言检测是一个整体的、直观的、非理性的认知过程,不符合逐步推进的逻辑推理,因此与数学推理任务中的效果相比,CoT 在理解讽刺语言方面的效果较差。
35.UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation
标题:UniFashion:用于多模态时尚检索和生成的统一视觉语言模型
author:Xiangyu Zhao, Yuehan Zhang, Wenlong Zhang, Xiao-Ming Wu
date Time:2024-08-21
paper pdf:http://arxiv.org/pdf/2408.11305v1
摘要:
时尚领域包含各种真实世界的多模态任务,包括多模态检索和多模态生成。人工智能生成内容的技术突飞猛进,特别是用于文本生成的大型语言模型和用于视觉生成的扩散模型等技术,引发了将这些多模态模型应用于时尚领域的广泛研究兴趣。然而,从这个角度来看,由于多模态时尚领域的多样性,涉及嵌入的任务,如图像到文本或文本到图像的检索,在很大程度上被忽视了。而目前关于多任务单一模型的研究也缺乏对图像生成的关注。在这项工作中,我们提出了 UniFashion,这是一个统一的框架,可同时应对时尚领域中多模态生成和检索任务的挑战,将图像生成与检索任务和文本生成任务整合在一起。UniFashion 整合了扩散模型和 LLM,从而统一了嵌入和生成任务,实现了可控的高保真生成。在不同的时尚任务中,我们的模型明显优于以前的单任务先进模型,并可随时调整以管理复杂的视觉语言任务。这项工作展示了多模态生成和检索之间潜在的学习协同作用,为时尚领域的未来研究提供了一个前景广阔的方向。源代码见 https://github.com/xiangyu-mm/UniFashion。