Ly大可爱-CSDN博客

原创我们可以为图学习任务软提示LLM吗（WWW2024）

LLM部分：对于每个节点 𝑣𝑖，给定其关联的文本属性 𝑇𝑖，使用LLM的冻结分词器对 𝑇𝑖 进行分词：𝑇tokens = Tokenizer(𝑇𝑖 )。随后，使用GNN计算每个子图 𝐺𝑠𝑖 的节点嵌入 𝑋𝑖：𝑋𝑖 = GNN(𝐺𝑠𝑖 )，每个嵌入 𝑋𝑖 捕捉了相应子图的结构信息，提供了与 𝑣𝑖 相关的拓扑特征的丰富表示。因此，为了进一步探究LLMs理解图信息的潜力，作者引入了GraphPrompter，这是一个通过软提示将图信息与LLMs对齐的新型框架。

2024-04-11 16:08:39 288

原创 InsCL：一种数据高效的连续学习范式，用于使用指令微调大型语言模型（NAACL2024）

指令微调有效地优化了大型语言模型（LLMs）用于下游任务。由于在实际应用中环境的变化，LLMs需要在不遗忘的情况下进行连续的任务特定适应。考虑到巨大的计算成本，基于重播的连续学习（CL）方法是解决LLMs遗忘问题的最简单和最广泛使用的方法。然而，传统的基于重播的方法未充分利用指令来定制重播策略。

2024-04-09 17:18:54 902

原创评论家：大型语言模型可以通过工具交互式批评进行自我修正（ICLR2024）

大语言模型有时会显示不一致性和问题行为，例如产生幻觉事实、生成有缺陷的代码或创建令人反感和有毒的内容。与这些模型不同，人类通常利用外部工具来交叉检查和改进他们的初始内容，比如使用搜索引擎进行事实检查，或者使用代码解释器进行调试。作者受到了这一观察的启发写了这一文章。

2024-03-21 23:46:21 555

原创从错误中进行上下文学习

在上下文学习中，也称为少样本提示（ICL），一直是调整LLM适应下游任务的标准方法，通过从少量输入-输出示例中学习。然而，所有基于ICL的方法都只从正确的输入-输出对中学习。

2024-03-19 23:43:54 237

原创即时对齐：将聊天机器人行为调整到已建立的规范上

无论是通过SFT还是RLHF对大模型进行对齐，都是繁琐且耗费成本的，更重要的是，要对齐的某些人类价值观（例如社会规范）往往随着时间和地点的不同而变化，并且可以是错综复杂的，这使得使用现有对齐方法（如SFT）将它们内化到LLMs参数中变得具有挑战性。

2024-03-15 18:07:06 287

原创解锁基于LLMS的咒语：通过上下文学习重新思考对齐

最近的一项研究，LIMA，表明仅使用1K个示例进行SFT也可以实现显著的对齐性能，这表明对齐微调的效果可能是“表面的”。（知识和推理能力来源于预训练，而不是必须通过对齐微调获得的。）这引发了对对齐调整如何确切地转变基础LLM的问题。作者通过检查基础LLMs及其对齐的对应版本之间的token分布变化（例如，Llama-2和Llama2-chat），来分析对齐微调的效果。结果显示，基础LLMs及其对齐微调版本在大多数token位置的解码上表现几乎相同（即，它们共享排名靠前的token）。

2024-03-14 21:36:28 778

原创 Composing Parameter-Efficient Modules withArithmetic Operations（(NeurIPS 2023）

参数高效微调（PEFT）方法——在保持大多数预训练参数冻结的同时仅调整少量参数，由于其竞争性能和减少的内存和存储成本而成为微调预训练语言模型（PLM）的标准方法（Houlsby等，2019；当应用于各种数据集和应用程序时，PEFT产生了许多参数高效模块（PEMs），每个模块与不同的模型能力相关联。这个方法不需要额外的训练，并且实现了高度灵活的模块组合将不同的算术运算应用于组合参数高效模块，包括（1）分布泛化，（2）多任务，（3）取消学习和（4）领域转移。此外，还将我们的方法扩展到了Alpaca-LoRA。

2024-03-11 18:24:34 253

原创大语言模型的知识融合（ICLR2024）

虽然从头开始训练大型语言模型（LLMs）可以生成具有独特功能和优势的模型，但这种方法成本高昂，而且可能导致功能冗余。

2024-03-07 00:23:14 564

原创自我对比：通过不一致的解决视角更好地进行反思

LLM 在自我评价时往往过于自信或随意性较大，提供的反馈固执或不一致，从而导致反思效果不佳。为了解决这个问题，作者提倡 "自我对比"：它可以根据要求探索不同的解决角度，对比差异，并将这些差异总结为一个检查表，用于重新检查和消除差异。作者的方法能让 LLM 从不同的角度来缓解顽固的偏见。

2024-03-05 21:13:56 818

原创语言模型是超级马里奥：从同源模型中吸收能力是免费午餐（阿里巴巴）

给定一组 K 个任务 {t1, t2, - - , tK } 和 K 个相应的 SFT 模型（参数为 θt1 SFT, θt2 SFT, - - , θtK SFT），模型合并的目的是将 K 个模型的参数融合为一个能同时处理 K 个任务的单一模型。

2024-02-29 17:21:25 971

原创 Tuning Language Models by Proxy

调整大语言模型已经变得越来越耗资源，或者在模型权重是私有的情况下是不可能的。作者引入了代理微调，这是一种轻量级的解码时算法，它在黑盒大语言模型之上运行，以达到直接微调模型的结果，但只访问其在输出词汇上的预测。

2024-02-28 00:06:33 467

原创 YAYI-UIE: 一个用于通用信息提取的聊天增强的指令微调框架

最近的研究提出了基于大型语言模型的方法，以统一地建模不同的信息提取任务。然而，这些现有方法在处理英语以外的中文语言的信息提取能力方面存在不足。

2024-01-31 15:21:05 626

原创通过与chatGPT交流实现零样本事件抽取

近来的大规模语言模型（例如Chat GPT）在零样本设置下取得了很好的表现，这启发作者探索基于提示的方法来解决零样本IE任务。

2024-01-31 12:55:56 548

原创对齐大型语言模型与人类偏好：通过表示工程实现

强化学习表现出相当复杂度、对超参数的敏感性、在训练过程中的不稳定性，并需要在奖励模型和价值网络中进行额外的训练，导致了较大的计算成本。为了解决RL方法带来的上述挑战，提出了几种计算上轻量级的替代方案，在这些替代方案中，两个突出的范例包括对比学习和Hindsight指令重新标记（HIR），然而，无奖励微调容易受到训练集中包含的偏好注释响应对的嘈杂数据或不正确标签的影响。

2024-01-23 00:24:55 1066

原创大模型增强大模型：通过融合扩展能力（Google DeepMind2024）

给定一个锚定模型 mB 和一个增强模型 mA，CALM的目标是将这两个模型（mA⊕B）组合起来，以实现作为两个单独模型能力的组合的新能力。具有以下假设：i）我们可以访问 mB 和 mA 的权重，运行前向和反向传播，并访问它们的中间表示；ii）不允许更改两个模型的权重；iii）我们无法访问基础模型的训练数据、超参数和训练状态；iv）我们提供了一些来自目标组合领域的示例。

2024-01-19 18:45:23 1042

原创通过指令反向翻译进行自我对齐

对齐大型语言模型以执行指导性任务通常需要在大量人工标注的指令或偏好信息上进行微调，然而，使用此类高质量数据对指令遵循任务进行标注是难以扩展的。

2024-01-17 22:42:23 448

原创 Making Large Language Models Perform Better in Knowledge Graph Completion

关于LLM-based KGC的研究有限，并且缺乏对LLM推理能力的有效利用，这忽视了KGs中重要的结构信息，阻碍了LLMs获取准确的事实知识。

2024-01-16 16:42:56 443

原创基于生成模板的动态前缀微调事件抽取（ACL2022）

提出了一种基于生成模板的动态前缀的事件提取，记作GTEE- D YNPREF。使用预训练的编码-解码器语言模型BART，按一种类型提取事件记录进行条件生成。对于每个事件类型，我们首先初始化一个特定于类型的前缀，它由一个可调向量序列组成，作为transformer 的历史值。特定于类型的前缀为单一类型提供了可调的事件类型信息。然后，我们将上下文信息与所有特定于类型的前缀集成起来，以学习特定于上下文的前缀，并动态地组合所有可能的事件类型信息。

2024-01-16 16:42:15 846 1

原创多语言生成式语言模型用于零样本跨语言事件论证提取（ACL2022）

经过预训练的生成式语言模型更好地捕捉实体之间的结构和依赖关系，因为模板提供了额外的声明性信息。先前工作中模板的设计是依赖于语言的，这使得很难将其扩展到零样本跨语言转移设置。

2024-01-12 19:28:18 605 1

原创多语言历史报纸广告事件抽取（ACL2023）

首先，获取大规模的、有注释的历史数据集是困难的，因为只有领域专家才能可靠地为它们打标签。其次，大多数现成的NLP模型是在现代语言文本上训练的，这使得它们在应用于历史语料库时效果显著降低。这对于研究较少的任务以及非英语语言尤为棘手。

2024-01-12 01:01:35 458 1

原创用判断对齐大语言模型

目前的从反馈中学习方法仅仅使用判断来促使LLMs产生更好的响应，然后将其作为新的示范用于监督训练。这种对判断的间接利用受到无法从错误中学习的限制，这是从反馈中学习的核心精神，并受到LLMs的改进能力的制约。

2024-01-06 23:25:55 582 1

原创将事件抽取看作机器阅读理解（EMNLP2020）

第二个优势也为零样本EE打开了一扇门:对于不可见的事件类型，我们可以列出定义其模式的问题，并使用MRC模型来检索作为EE结果的答案，而不是预先为它们获取训练数据。与以往使用模板生成问题的工作相比，本文的方法可以生成既与主题相关又与上下文相关的问题，从而更好地指导MRC模型进行问题回3）本文的方法在处理低数据资源和零样本场景时也表现了有好的结果。1）通过将EE作为MRC，我们可以利用MRC的最新进展(例如，BERT)来增强EE任务，这可能会极大地加强模型中的推理过程。涉及到意义一般的角色，例如，

2024-01-03 08:52:54 424 1

原创通过回答自然语言问题进行事件抽取（EMNLP2020）

以往的事件抽取方法都基于神经网络模型抽取的密集特征和预训练语言模型的上下文表示。但是，它们（1）严重依赖实体识别进行事件论元抽取，特别是通常需要采用多步骤方法来进行事件论元抽取。（2）忽略了不同论元角色间的语义相似性。

2024-01-03 00:38:58 390 1

原创大型语言模型是具有人类水平的提示工程师（ICLR2023）

这是因为指令通常在段落的开头，而“前向”模型只从左到右生成文本，这要求指令在提示的末尾进行预测。为了解决这个问题，我们考虑“反向”模式生成，它使用具有填充功能的LLM，例如T5，GLM和InsertGPT，来推断缺失的指令。例如，在本文的TruthfulQA实验中，作者从原始数据集中使用人工设计的指令开始，并要求“反向”模型提出初始指令样本，以适应缺失的上下文。2）虽然LLMs可以执行广泛范围的自然语言程序，但这些程序的处理方式对人类来说可能并不直观，指令的质量只能在执行这些指令时在下游任务上进行衡量。

2023-12-30 10:00:11 861 1

原创诚实性对齐

一个诚实的模型应坦率回答它知道的问题，并谦逊地承认它不知道的问题，如图1所示。PS：诚实要求模型陈述其所相信的内容，而一个相邻的概念，真实性，要求其陈述客观真实的内容。这种区别使得评估诚实度更加复杂。1）响应生成：给定输入 x 和第 t 次对齐中的大型语言模型 Mt，响应 y 的生成过程可以描述为：yt=Mt(x).ps:请注意，在这个上下文中，“迭代”并不是指在单个训练会话中的不同训练时期，而是指完成模型的一个对齐训练周期，即模型的一个版本。

2023-12-28 10:46:07 1021 2

原创提示的艺术：基于类型特定提示的事件检测（ACL2023）

1）监督事件检测：遵循传统的监督事件检测设置，其中训练、验证和评估数据集涵盖相同的事件类型集。目标是学习一个模型 f，以识别和分类目标事件类型的事件提及。

2023-12-27 00:05:51 1050 1

原创用于事件论元抽取的上下文软提示（ACL2023）

那么，EAE模型对于Di中的触发词ek的软提示将是一个大小为Ms × d的矩阵Psoft，其中Ms是一个超参数，d是核心模型BART中隐藏向量的维数，从而允许Psoft集成到BART的计算中。然后，图G和文档和事件类型的表示D0u和t0v通过图注意力网络，通过G中的连接聚合表示，生成富含信息的Du和tv的表示DLu和tLv。构建文档集D和事件类型T之间的事件类型提及图G，以促进表示聚合。通过对事件触发词ek的标记的表示进行平均池化，计算Du ∈ D的表示D0u，以保留表示中的专注于事件的上下文。

2023-12-26 19:19:36 1047 1

原创通过问题生成与回答进行事件抽取（ACL2023）

为了训练QG模型，作者为ACE ontology中的每个角色设计了多个动态模板，每个模板都包含了其他论元角色的不同组合。其中，QG用于生成一个基于目标论元和角色的上下文感知问题，QA用于回答上下文问题要提取的事件论元。2、如果一句话中包含多个相同的实体的提及（包括拼写相同指代不同），QGA-EE模型总是将提及第一次出现在句子中的位置作为所提取目标的偏移量。2、对于基于QA的事件抽取，一个包含更丰富的上下文信息的问题，如其他事件论元，可以产生更好的结果。a、由于QG模型产生了错误的问题。

2023-12-19 17:15:49 1093 1

原创 RAIN: 您的语言模型可以在无需微调的情况下进行自我对齐

Rain的大致框架：总体而言，RAIN在由token集（每个树节点应该都是一个Token集合，其中，一个节点Xi:j有四个属性标志：嵌入e(Xi:j;X1:i−1)和值v(Xi:j;其中s(Y )是用于更新Y∗ a:b的分数，e表示语义嵌入，sim(·, ·)表示向量之间的余弦相似性，γ是不大于1的常数。因此，经过多次搜索迭代后，使用根节点的子节点的归一化访问计数作为下一个token集的概率。PS:在前向过程中，在选择子节点时，如果节点的嵌入方差明显较低且子节点的值都较低，则引入一个额外的子节点是有益的。

2023-12-18 19:06:05 906 1

原创黑盒提示优化：在不进行模型训练的情况下对齐大型语言模型

此外，无论是在小型开源模型（如llama2-7b-chat和vicuna-7b）还是强大的大规模模型（如gpt-4和claude-2）上，都取得了一致的增益，突显了BPO对于各种模型的稳健泛化能力。此外，具有BPO的SFT模型在性能上优于PPO和DPO对齐的模型，突显了BPO的优势。可访问性：大多数性能最佳的LLMs，如GPT-4（OpenAI，2023）和Claude2（Anthropic，2023a），都是封闭的，只能通过API访问，这使得这些基于训练的方法不适用于组织外的用户来增强对齐。

2023-12-16 01:05:06 987 1

原创文档级少样本事件论元抽取（ACL2023）

1、论元提取定义：给定文档D = {w1，...，w|D|}及其对应的事件类型e，其中|D|是单词的总数，事件论元提取旨在根据事件论元类型Re在文档D中检测所有可能的连续跨度{wstart，wend}的边界和类型。2、文档级少样本论元提取定义：给定事件实例e，其关联的论元类型集Re，支持集S和查询集Q，少样本任务T定义如下：T = {S, Q}其中（bi，ti）表示支持集S和查询集Q中文档Di中第i个事件论元的边界和类型。

2023-12-14 22:44:07 985 1

原创当意识到事件共现时，EAE模型能否学的更好？（ACL2023）

其中x是文本（句子或者文档），N是目标事件数目，Ti是第i个事件的触发器，ei是第i个事件的类型，Rei是和事件类型ei相关联的论元角色集合，Ai是第i个事件的论元集合，每个a(r)∈Ai是x中表示角色r的文本跨度。这一公式在同一上下文中出现的所有事件，提供了对问题更加全面的看法。

2023-12-13 23:06:14 455 1

原创基于深度学习的事件抽取综述（TNNLS2022）

本文通过回顾最新的方法，特别关注基于深度学习模型的通用领域事件抽取，填补了研究空白。1、根据任务定义对当前通用领域事件抽取研究进行了新的文献分类。2、总结了事件抽取方法的范例和模型，并详细讨论了每种方法。3、总结了支持预测和评估指标测试的基准。4、提供了不同方法之间的综合比较。5、最后，作者通过总结未来研究方向来结束。

2023-12-03 02:05:07 1357 1

原创 TOXIGEN: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection

1、概况：1、概况：作者开发了一个基于演示的提示框架和一个对抗性分类器循环解码方法，使用大规模预训练语言模型GPT-3生成微妙有毒和良性文本TOXIGEN，它是一个包含274,000个关于13个少数群体的有毒和良性声明的新的大规模机器生成数据集。2、写作动机：检测有关少数群体的隐含毒性（例如，刻板印象、微侮辱）仍然是自然语言处理系统的一个难以实现的目标。一个关键挑战是，与显式毒性相比，隐含毒性不以亵渎或脏话为标志，有时在情感上是积极的，并且通常更难以检测或大规模收集。

2023-12-01 19:49:04 430 1

原创 AART: AI-Assisted Red-Teaming with Diverse Data Generation for New LLM-powered Applications

作者提出了一种新颖的方法，用于自动生成对抗性评估数据集，以测试LLM在新的下游应用中生成的安全性。称之为AART AI辅助red team - 这是对当前手动red team工作的自动替代。

2023-12-01 10:33:15 350 1

原创 Safety Assessment of Chinese Large Language Models

为了进一步促进中文LLMs的安全部署，作者开发了一个中文LLM安全评估基准。作者的基准从两个角度探讨了LLMs的综合安全性能：8种典型的安全场景和6种更具挑战性的指令攻击类型。在这个基准的基础上，作者进行了15个LLM的安全评估，并分析了包括OpenAI GPT系列和其他知名的中文LLM在内的一些有趣发现。

2023-12-01 00:46:50 1095 1

原创 Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned

文中提到了可用的red team数据集。还提到了前人的工作中的数据集：BAD数据集、RealToxicity Prompt数据集。作者他们提出的数据集更大。作者发现RLHFLM随着规模的扩大变得更难进行red team测试PlainLM、promptedLM、RS(拒绝抽样的)LM在规模上呈现平稳趋势。论文用到的方法：作者开发了一个界面，指导红队成员与AI助手（应该是2中提到的4种驱动的）进行开放性对话。（每次尝试都有两次机会）作者使用这些对话作为数据集，训练一个无害性偏好的模型，以模型（2中提到

2023-11-30 20:51:28 444 1

weixin_45785795的博客