小小帅AIGC-CSDN博客

原创 AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.05-2024.07.10

标题:多模态自我教学：利用语言模型进行合成抽象图像和视觉推理教学摘要尽管目前大多数大型多模态模型（LMM）已经能够理解自然场景和肖像的照片，但它们对抽象图像（如图表、地图或布局）的理解以及视觉推理能力仍然相当初级。他们在完成简单的日常任务时，如从时钟上读取时间、理解流程图或使用路线图规划路线时，往往会遇到困难。有鉴于此，我们设计了一种多模态自我指令，利用大型语言模型及其代码能力来合成日常场景中的大量抽象图像和视觉推理指令。

2024-07-18 13:11:52 520

原创 IE(关键词)—通过T5验证提示如何设计，细节原文阅读：A Preliminary Study on Prompt-based Unsupervised Keyphrase Extraction

A Preliminary Empirical Study on Prompt-based Unsupervised Keyphrase Extraction基于提示的无监督关键词提取初步实证研究本文探索的是基于提示的LLM在关键词抽取中的效果，也就是说，通过实验不同提示下的性能，从而分析提示工程的设计效果。主要方法是通过传统的方

2024-07-18 13:11:20 712

原创 IE(关键词)—设计统计方法完成关键词排序，细节和原文阅读：An Efficient Domain-independent Approach for Supervised Keyphrase Extr

An Efficient Domain-independent Approach for Supervised Keyphrase Extraction and Ranking与领域无关的高效关键字提取和排名监督方法

2024-07-17 13:05:22 545

原创 IE(关键词)—MetaKP：关键词生成新范式—按需生成关键词(T5/BART/LLM)，细节理解和原文阅读：MetaKP: On-Demand Keyphrase Generation

传统的关键词预测方法只能为每篇文档提供一组关键词，无法满足用户和下游应用的不同需求。为了弥补这一差距，我们引入了按需生成关键词的方法，这是一种新颖的范式，它要求关键词符合特定的高层次目标或意图。为了完成这项任务，我们提出了 METAKP，这是一个大型基准，包括四个数据集、7500 个文档和 3760 个目标，涉及新闻和生物医学领域，并带有人类标注的关键词。利用 METAKP，我们设计了监督和非监督方法，包括多任务微调方法和使用大型语言模型的自一致性提示方法。

2024-07-17 13:05:12 845

原创 AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.07.10-2024.07.15

在人工智能驱动的多样化故事世界中，有一个独特的机会可以让年轻受众参与定制的个性化叙事。本文介绍的 FairyLandAI 是通过 OpenAI 的应用程序接口（API）开发的创新型大语言模型（LLM），专门用于为儿童创作个性化的童话故事。FairyLandAI 的显著特点在于它的双重能力：它不仅能生成引人入胜、适合年龄、反映各种传统的故事，还能自主生成适合 GenAI 和 Dalle-3 等高级图像生成工具的富有想象力的提示，从而丰富讲故事的体验。

2024-07-16 12:39:42 1144

原创 AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.10-2024.07.15

大语言模型（LLMs）以其强大的会话能力而闻名，在教育领域，特别是在语言学习的自动智能教学系统中，被公认为是卓越的工具。在本文中，我们提出了一种基于 LLMs 的评分系统，其动机是 LLMs 对文本相关评分任务的积极影响。具体来说，语音编码器首先将学习者的语音映射为上下文特征。然后，适配器层转换这些特征，使之与潜在空间中的文本嵌入相一致。评估任务特定的前缀和提示文本被嵌入并与模态适配器层生成的特征串联起来，从而使 LLM 能够预测准确度和流利度得分。

2024-07-16 12:39:31 634

原创 AI推介-大语言模型LLMs之RAG（检索增强生成）论文速览（arXiv方向）：2024.06.20-2024.07.01

使用 SAPPhIRE 因果关系模型表示系统可以激发设计灵感。然而，创建技术系统或自然系统的 SAPPhIRE 模型需要从多个技术文档中获取有关系统工作原理的技术知识。本研究探讨了如何使用大型语言模型（也称 LLM）生成与 SAPPhIRE 因果关系模型相关的准确技术内容。本文是两部分研究的第一部分，介绍了一种利用 LLM 的检索增强生成技术抑制幻觉的方法，以生成与 SAPPhIRE 结构相关的科学信息支持的技术内容。研究结果表明，选择用于为 LLM 生成技术内容提供上下文的参考知识非常重要。

2024-07-11 12:54:43 1290

原创 AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.07.05-2024.07.10

标题:人工直觉科学摘要的高效分类摘要对科学短文（如拨款或出版物摘要）进行粗略分类，以用于战略洞察或研究组合管理，是非常可取的。这些文本能将密集的信息有效地传递给拥有丰富知识的专家，帮助他们进行解读。然而，由于篇幅简短且缺乏上下文，这项任务很难实现自动化。为了弥补这一不足，我们开发了一种新颖的方法来生成和适当分配粗略的特定领域标签。我们表明，大语言模型（LLM）可以提供对这项任务至关重要的元数据，这一过程类似于代表人类直觉的补充知识的增强，我们还提出了一个工作流程。

2024-07-11 12:54:33 648

原创 IE(关键词)—基于LLM和后处理步骤生成关键词，细节理解和原文阅读：LLM-TAKE: Theme-Aware Keyword Extraction Using Large Language Mod

关键词提取是自然语言处理的核心任务之一。传统的提取模型由于注意力集中时间短，很难总结出相距甚远的单词和句子之间的关系。这反过来又使它们无法用于生成从整个文本的上下文推断出的关键词。在本文中，我们将探索使用大型语言模型（LLM）来生成根据项目文本元数据推断出的项目关键词。我们的建模框架包括几个阶段，通过避免输出无信息或敏感的关键词，减少 LLM 中常见的幻觉，从而对结果进行细粒度处理。我们将基于 LLM 的框架称为主题感知关键词提取（LLM-TAKE）。

2024-07-10 12:51:42 1180

原创 AI推介-大语言模型LLMs之RAG（检索增强生成）论文速览（arXiv方向）：2024.06.01-2024.06.20

开发人员需要花费大量时间来查找与其问题相关的信息。Stack Overflow 一直是领先的资源，随着大型语言模型 (LLM) 的出现，ChatGPT 等生成模型也被频繁使用。然而，单独使用每一种模型都会遇到困难。搜索答案既耗时又乏味，研究人员为解决这一问题开发的许多工具就证明了这一点。另一方面，使用 LLM 并不可靠，因为它们可能会产生不相关或不可靠的答案（即幻觉）。

2024-07-10 12:51:24 938

原创 AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.07.01-2024.07.05

大型语言模型（LLM）的幻觉问题极大地限制了其可靠性和可信度。人类有一种自我意识过程，能让我们在面对询问时识别出自己不知道的东西。受此启发，我们的论文研究了 LLM 能否在生成响应之前估计自己的幻觉风险。我们从训练数据源和 15 种不同的自然语言生成（NLG）任务（跨越 700 多个数据集）两方面广泛分析了 LLM 的内部机制。我们的实证分析揭示了两个关键见解：(1) LLM 的内部状态表明他们是否在训练数据中看到过查询；(2) LLM 的内部状态表明他们是否有可能对查询产生幻觉。

2024-07-09 12:43:24 1225

原创 AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.07.01-2024.07.05

我们提出了 InternLM-XComposer-2.5 (IXC-2.5)，它是一种支持长语境输入和输出的多功能大视野语言模型。IXC-2.5 在各种文本图像理解和合成应用中表现出色，只需 7B LLM 后端就能实现 GPT-4V 级别的能力。它以 24K 交错图像-文本上下文进行训练，可通过 RoPE 外推法无缝扩展到 96K 长上下文。这种长上下文能力使 IXC-2.5 在需要大量输入和输出上下文的任务中表现出色。

2024-07-09 12:42:06 1045

原创 Information extraction (keywords extraction,关键词抽取)—提升关键词抽取的后处理方法（Pos,领域库），细节理解和原文阅读：Using PoS-Tag

随着现代计算机系统处理的数字文本数据量不断增加，自动关键词提取（AKE）变得越来越重要。它在信息检索（IR）和自然语言处理（NLP）中有多种应用，包括文本摘要、主题分析和文档索引。本文提出了一种简单而有效的基于后处理的通用方法，通过 PoS 标记支持的增强语义感知水平来提高任何 AKE 方法的性能。为了证明所提方法的性能我们考虑了从 PoS 标记步骤和两个代表性语义信息源（一个或多个上下文相关词库中定义的专门术语和维基百科中的命名实体）中检索到的词类型。

2024-07-08 12:14:16 801

原创 IE(关键词)—基于BART生成式摘要的关键词生成，细节理解和原文阅读：Cross-Domain Robustness of Transformer-based Keyphrase

用于文本生成的现代模型在许多自然语言处理任务中都取得了最先进的成果。在这项工作中，我们探讨了抽象文本摘要模型在关键词选择方面的有效性。关键词列表是数据库和电子文档库中文本的重要元素。在我们的实验中，针对关键词生成进行微调的抽象文本摘要模型在目标文本语料库中显示出相当高的结果。然而，在大多数情况下，在其他语料库和领域中的zero-shot性能要低得多。我们研究了抽象文本摘要模型在关键词生成方面的跨领域局限性。

2024-07-08 12:13:50 950

原创 AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.06.25-2024.07.01

虽然大型语言模型（LLM）中文本嵌入的压缩表示取得了重大进展，但大型多模态模型（LMM）中视觉标记的压缩在很大程度上仍是一个被忽视的领域。在这项工作中，我们介绍了有关视觉标记冗余分析和这些模型中高效训练的研究。我们的初步实验表明，在测试阶段通过简单的平均池化消除多达 70% 的视觉标记，只会导致在 GQA 基准上视觉问题解答准确率最低降低 3%，这表明视觉语境中存在大量冗余。

2024-07-05 09:46:08 937

原创 Information extraction(keywords extraction,关键词)—对LLM关键词抽取的实验分析，细节理解和原文阅读：Comparative Study of Domain

关键词在缩小人类理解与机器处理文本数据之间的差距方面发挥着至关重要的作用。关键词是丰富数据的必要条件，因为它们是详细注释的基础，而详细注释可提供对基础数据更深入的洞察力。关键词/领域驱动的术语提取是自然语言处理中的一项关键任务，有助于信息检索、文档摘要和内容分类。本综述重点介绍关键词抽取方法，强调三大大型语言模型（LLM）的使用： Llama2-7B、GPT-3.5 和 Falcon-7B。我们使用了一个定制的 Python 软件包来连接这些 LLM，从而简化了关键词提取。

2024-07-05 09:45:51 870

原创 AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.25-2024.07.01

基于扩散的模型在生成具有各种布局的高质量图像方面显示出巨大的潜力，这对下游感知任务大有裨益。然而，仅由语言驱动的全自动布局生成，以及衡量多个生成实例的合适指标，还没有得到很好的探索。在这项工作中，我们提出了自动樱桃拾取器（Auto Cherry-Picker，ACP），这是一个新颖的框架，可生成高质量的多模态训练实例，以增强感知和多模态训练。从一个简单的自然语言概念列表开始，我们促使大型语言模型（LLM）生成详细的描述并设计合理的布局。接下来，我们使用现成的文本到图像模型生成多幅图像。

2024-07-04 13:39:54 1114

原创 Information extraction(keywords extraction,关键词抽取)—术语抽取语料库，原文阅读：CoastTerm: a Corpus

气候变化对沿海地区（尤其是活跃但脆弱的地区）的影响日益加剧，这就要求各利益相关方和各学科通力合作，共同制定有效的环境保护政策。我们为自动术语提取（ATE）和自动分类（ATC）任务引入了一个新的专业语料库，该语料库由 410 篇有关沿海地区的科学摘要中的 2491 个句子组成。

2024-07-04 13:39:38 666

原创 Information extraction (关键词抽取)—提取关键词以改进文档检索，细节理解和原文阅读：Keyword Extraction for Improved Document

最近的研究表明，基于用户和计算机之间的互动来澄清和改进查询的混合式会话搜索具有巨大的优势。不过，将用户从对话中提供的额外信息纳入系统也带来了一些挑战。事实上，进一步的交互可能会使系统感到困惑，因为用户可能会使用与信息需求无关的词语，但这些词语对于多轮对话中正确造句至关重要。为此，我们在本文中收集了两个会话关键词提取数据集，并提出了一种端到端文档检索管道，将它们结合在一起。

2024-07-03 12:29:07 846

原创 Information extraction(keywords extraction,关键词抽取)—对关键词提取进行验证，细节理解和原文阅读：Automated Annotation of

先进的分子生物学技术和设施每天都会产生大量宝贵的数据；然而，这些数据往往缺乏研究人员有效查找和搜索所需的基本元数据。元数据的缺乏给这些数据集的利用带来了巨大挑战。基于机器学习的元数据提取技术已成为一种潜在的可行方法，可自动为科学数据集标注有效搜索所需的元数据。文本标注通常由人工完成，在验证机器提取的元数据方面起着至关重要的作用。然而，人工标注既费时又不一定可行；因此，有必要开发自动文本标注技术，以加快科学创新的进程。

2024-07-03 12:28:58 1088

原创 AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.06.20-2024.06.25

视频瞬间检索（VMR）旨在根据自然语言查询，在未经剪辑的长视频中定位特定的时间片段。现有方法往往存在训练注释不足的问题，即句子通常只与前景中一小部分突出的视频内容相匹配，而措辞的多样性有限。这种固有模态的不平衡使得相当一部分视觉信息无法与文本对齐。这就将跨模态对齐知识限制在了有限的文本语料库范围内，从而导致视觉-文本建模效果不理想，通用性差。

2024-07-02 13:44:41 762

原创 AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.20-2024.06.25

近年来，大型语言模型（LLM）在解析文本数据和生成代码方面表现出了卓越的能力。然而，由于网络表格中经常出现的结构差异和表格单元值的不一致性，它们在涉及表格数据的任务中，尤其是那些需要符号推理的任务中的表现面临挑战。在本文中，我们介绍了 NormTab，这是一个新颖的框架，旨在通过规范化网络表格来提高 LLM 的符号推理性能。我们将表格规范化作为一个独立的一次性预处理步骤进行研究，利用 LLM 支持表格数据的符号推理。

2024-07-02 13:44:26 708

原创 Information extraction NLU—mPMR：多语言预训练机器阅读理解式框架，细节理解和原文阅读：mPMR: A Multilingual Pre-trained Machie

我们提出了多语言预训练机器阅读（mPMR），这是一种用于多语言机器阅读理解（MRC）式预训练的新方法。mPMR旨在指导多语言预训练语言模型（mPLMs）执行自然语言理解（NLU），包括多语言序列分类和跨度提取。为了在只有源语言微调数据的情况下实现跨语言泛化，现有的 mPLM 只能将 NLU 能力从源语言转移到目标语言。相比之下，mPMR 允许从 MRC 式预训练到下游任务直接继承多语言 NLU 能力。mPMR 还为跨语言跨度提取和序列分类提供了统一的求解器，从而可以提取理由来解释句对分类过程。

2024-07-01 13:34:53 1391

原创 AI推介-信息抽取（information extraction,NER）论文速览（arXiv方向）：2023.08.01-2024.10.15

几个世纪以来，新材料的发现推动了人类的进步。材料的性能是其组成、结构和特性的函数，而这些又进一步取决于其加工和测试条件。深度学习和自然语言处理领域的最新发展，使得从同行评议出版物、书籍和专利等已出版文献中大规模提取信息成为可能。然而，这些信息以表格、文本和图像等多种格式传播，报告风格几乎没有统一性，这给机器学习带来了一些挑战。在此，我们讨论、量化并记录了从材料科学文献中进行自动信息提取（IE）以创建大型材料科学知识库所面临的挑战。具体来说，我们重点关注从文本和表格中进行信息提取，并通过实例概述了几项挑战。

2024-07-01 13:34:44 1053

原创 AI推介-信息抽取（information extraction,NER）论文速览（arXiv方向）：2023.10.15-2023.11.15

命名实体识别（NER）在各种自然语言处理（NLP）应用中至关重要。传统的 NER 模型虽然有效，但仅限于一组预定义的实体类型。相比之下，大型语言模型（LLM）可以通过自然语言指令提取任意实体，具有更大的灵活性。然而，它们的规模和成本，尤其是通过像 ChatGPT 这样的应用程序接口进行访问时的规模和成本，使它们在资源有限的情况下变得不切实际。在本文中，我们介绍了一种经过训练的紧凑型 NER 模型，可以识别任何类型的实体。

2024-06-28 20:50:19 1042

原创 AI推介-信息抽取（information extraction,NER）论文速览（arXiv方向）：2023.11.15-2023.12.31

信息提取（IE）旨在从简单的自然语言文本中提取结构性知识（如实体、关系和事件）。最近，生成式大语言模型（LLMs）在文本理解和生成方面表现出了非凡的能力，可以在各种领域和任务中通用。因此，人们提出了许多利用 LLM 能力的方法，并基于生成范式为 IE 任务提供可行的解决方案。为了全面系统地回顾和探讨 LLM 在 IE 任务方面所做的努力，我们在本研究中调查了该领域的最新进展。首先，我们根据不同的 IE 子任务和学习范式对这些工作进行了分类，从而对其进行了广泛的概述；

2024-06-28 20:50:03 890

原创 AI推介-信息抽取（information extraction,IE）论文速览（arXiv方向）：2024.04.15-2024.06.01

在快速发展的医疗保健及其他领域，将生成式人工智能集成到电子健康记录（EHR）中代表了一项关键的进步，解决了当前信息提取技术中的一个关键缺口。本文介绍了 GAMedX，这是一种命名实体识别（NER）方法，利用大语言模型（LLMs）从患者在医院就诊的各个阶段产生的医疗叙述和非结构化文本中有效地提取实体。通过应对处理非结构化医疗文本的重大挑战，GAMedX 利用生成式人工智能和大型语言模型的功能改进了数据提取。

2024-06-27 10:11:25 1059

原创 AI推介-信息抽取（information extraction,NER）论文速览（arXiv方向）：2024.02.15-2024.04.15

近年来，在命名实体识别（NER）任务中，微调生成模型已被证明比以前基于标记或跨度的模型更强大。研究还发现，与实体相关的信息（如实体类型）能促使模型更好地实现 NER。然而，要事先确定给定句子中确实存在的实体类型并不容易，而且输入过多的潜在实体类型难免会分散模型的注意力。为了发挥实体类型在促进 NER 任务方面的优势，本文提出了一种新颖的 NER 框架，即基于生成模型的 ToNER。在 ToNER 中，我们首先提出了一个类型匹配模型来识别句子中最有可能出现的实体类型。

2024-06-27 10:11:07 686

原创 AI推介-信息抽取（information extraction，NER）论文速览（arXiv方向）：2024.01.01-2024.02.15

预训练的大型语言模型为许多应用带来了革命性的变化，但仍然面临着与文化偏见有关的挑战，以及缺乏对指导跨文化交流和互动至关重要的文化常识性知识。认识到现有方法在捕捉全球丰富多样的文化方面存在不足，本文介绍了一种大规模多元文化知识获取的新方法。具体来说，我们的方法从信息密集的维基百科文化主题文档到广泛的链接页面网络进行战略性导航。

2024-06-27 10:10:55 714

原创 AI推介-信息抽取（information extraction,NER）论文速览（arXiv方向）：2024.06.01-2024.06.20

标题:ABEX：通过扩展抽象描述为低资源 NLU 扩充数据摘要我们介绍的 ABEX 是一种用于低资源自然语言理解（NLU）任务的新颖而有效的生成数据增强方法。ABEX 基于 ABstract-and-EXpand 方法，这是一种生成输入文档的多种形式的新模式–我们首先将文档转换为简洁的抽象描述，然后在扩展抽象描述的基础上生成新文档。为了学习扩展抽象描述的任务，我们首先在一个包含抽象文档对的大规模合成数据集上训练 BART。

2024-06-26 12:41:14 607

原创 information extraction—RexUIE通用信息提取，基于显式模式指示器的递归方法，细节理解与原文阅读：RexUIE: A Recursive Method

通用信息提取（UIE）是一个备受关注的领域，因为不同的目标、异构结构和特定需求的模式都带来了挑战。然而，以前的工作只是通过统一少数任务（如命名实体识别（NER）和关系提取（RE））取得了有限的成功，任务还不足以成为真正的通用信息提取模型，尤其是在提取其他通用模式（如四元和五元）时。此外，这些模型使用的是隐式结构模式指示器，这可能会导致类型之间的链接不正确，从而阻碍模型在低资源场景中的泛化和性能。在本文中，我们用一种正式的表述方式重新定义了真实的 UIE，它几乎涵盖了所有的提取模式。

2024-06-26 12:40:41 1133

原创 AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.06.10-2024.06.15

在电子商务平台上改善用户体验和提供个性化搜索结果在很大程度上依赖于对购买意向的理解。然而，现有的获取大规模购买意向的方法依赖于提炼大型语言模型，并通过人工注释进行验证。这种方法往往会生成以产品为中心的购买意向，忽略了产品图片中宝贵的视觉信息，而且在可扩展性方面成本较高。为了解决这些问题，我们引入了 MIND，这是一个多模态框架，允许大型视觉语言模型（LVLM）从多模态产品元数据中推断购买意图，并优先考虑以人为中心的购买意图。

2024-06-26 12:40:21 821

原创 AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.10-2024.06.15

多语言大型语言模型（LLM）在自然语言处理（NLP）研究人员和从业人员中大受欢迎。这些模型在庞大的数据集上训练有素，能够熟练使用各种语言，并在众多下游任务中表现出高效性。本文介绍了多语种 LLM 的发展前景，并对其技术方面进行了介绍性概述。它解释了底层架构、目标函数、预训练数据源和标记化方法。这项工作探索了不同模型类型的独特功能：纯编码器模型（mBERT、XLM-R）、纯解码器模型（XGLM、PALM、BLOOM、GPT-3）和编码器-解码器模型（mT5、mBART）。

2024-06-26 12:40:04 759

原创 AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.06.15-2024.06.20

大型视觉语言模型（LVLM）近来极大地推动了图像标题和许多图像理解任务（如视觉问题解答）的技术发展。然而，LVLMs 经常会产生幻觉，生成的标题中提到的概念在图像中找不到。这些幻觉削弱了 LVLM 的可信度，可以说是 LVLM 普及应用的主要障碍之一。最近的研究表明，增加接地目标–那些明确地将图像区域或对象与文本跨度对齐的目标–可以减少 LVLM 幻觉的数量。

2024-06-25 11:21:15 912

原创 AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.15-2024.06.20

在模型生成的合成数据上进行训练是对 LLM 进行微调的一种很有前途的方法，但目前仍不清楚这种方法是有帮助还是有害。在本文中，我们通过实证研究探讨了数学推理中的这一问题，并随后从概念上理解了我们的观察结果。首先，我们发现，虽然在有能力的模型生成的合成正确或正向问题-解决方案对上对模型进行微调的典型方法能带来适度的性能提升，但从微调学习器本身采样更多正确的解决方案，然后在这些自生成的数据上进行微调，能使相同合成问题的效率提高。

2024-06-25 11:21:05 873

原创 information extraction—GliNER 多任务（通用信息提取的轻量级模型），细节理解与原文阅读：GliNER multi-task: Generalist Lightweight

信息提取任务需要准确、高效和可泛化的模型。经典的有监督深度学习方法可以实现所需的性能，但它们需要大型数据集，而且适应不同任务的能力有限。另一方面，大型语言模型（LLM）具有良好的泛化能力，这意味着它们可以根据用户要求适应许多不同的任务。但是，大型语言模型的计算成本很高，而且往往无法生成结构化的输出结果。在本文中，我们将介绍一种新型的 GLiNER 模型，它可以用于各种信息提取任务，同时又是一种小型编码器模型。

2024-06-25 11:20:52 1137

原创 information extraction—SeqGPT（用于开放域序列理解的大型语言模型），细节理解与原文阅读：SeqGPT: An Out-of-the-box Large Language

大型语言模型（LLM）在开放域 NLP 任务中表现出了令人印象深刻的能力。然而，对于输出和输入格式总是受到限制的自然语言理解（NLU）任务来说，大型语言模型有时过于自由。它们在 NLU 任务中的表现与提示或演示有很大关系，而且在执行几项有代表性的 NLU 任务（如事件提取和实体键入）时表现不佳。为此，我们提出了 SeqGPT，这是一个开源自回归模型，专门针对开放域自然语言理解进行了增强。我们用两个原子任务来表达所有的 NLU 任务，

2024-06-25 11:20:37 1387

原创 LLM—使用多个LLM代理进行文献审查，细节理解与原文阅读：SYSTEM FOR SYSTEMATIC LITERATURE REVIEW USING MULTIPLE AI AGENTS

系统文献综述（SLR）已成为循证研究的基础，使研究人员能够根据特定的研究问题对现有研究进行识别、分类和合并。进行系统文献综述在很大程度上需要人工操作。过去几年中，研究人员在 SLR 流程的某些阶段实现自动化方面取得了重大进展，旨在减少开展高质量 SLR 所需的精力和时间。然而，目前仍缺乏基于人工智能代理的模型来自动完成整个 SLR 流程。为此，我们引入了一种新颖的多人工智能代理模型，旨在实现 SLR 过程的完全自动化。通过利用大型语言模型（LLM）的功能，我们提出的模型简化了审查流程，提高了效率和准确性。

2024-06-21 13:30:39 829

原创 AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.05-2024.06.10

我们介绍的 LlamaGen 是一个新的图像生成模型系列，它将大型语言模型的原始 "下一个标记预测 "范式应用于视觉生成领域。这是对香草自回归模型（如 Llama）在视觉信号上没有归纳偏差的情况下能否在适当扩展的情况下实现最先进的图像生成性能的肯定回答。我们重新研究了图像标记化器的设计空间、图像生成模型的可扩展性能及其训练数据质量。这一探索的成果包括(1) 在 ImageNet 基准上，图像标记器的下采样率为 16，重构质量为 0.94 rFID，编码本使用率为 97%。

2024-06-20 12:36:21 1225

原创 AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.01-2024.06.05

多模态大语言模型（MLLM）由训练有素的 LLM 启动，首先将图像与文本对齐，然后对多模态混合输入进行微调。然而，MLLM 会灾难性地遗忘纯文本指令，而这些指令不包括图像，可以在初始 LLM 中解决。在本文中，我们介绍了 Wings，一种在纯文本对话和多模态理解中都表现出色的新型 MLLM。通过分析多模态指令中的 MLLM 注意力，我们发现纯文本遗忘与从图像前文本到图像后文本的注意力转移有关。由此，我们构建了额外的模块，作为增强学习器来补偿注意力的转移。

2024-06-20 12:35:11 775

空空如也

空空如也