大模型
文章平均质量分 88
AI知识图谱大本营
知识图谱AI大本营 是一个追踪、解读、讨论和报道大模型、知识图谱、NLP、深度学习、机器学习等AI前沿成果的学术平台,致力于让人工智能领域的国内外优秀科研工作者们得到交流学习的机会。
展开
-
ChatGLM-Math:强化数学能力
大型语言模型(LLM)在文本摘要、问答和角色扮演对话等语言任务上表现出色,在数学推理等复杂问题上也具有应用潜力。但目前提高 LLM 数学问题解决能力的方法,往往会导致其他方面能力的下降。例如RLHF的方法,虽然可以提高文本生成的质量,但却会忽略解决数学问题所需要的准确性和逻辑连贯性,而 SFT 微调,则可能降低大模型本身的语言多样性。针对这一问题,我们提出了一种的迭代训练方法,通过自我反馈的机制,可以使 LLM 的语言能力和数学能力得到同步提升。原创 2024-05-08 20:23:09 · 515 阅读 · 0 评论 -
如何处理多模态数据噪声不均衡动态?天大等最新《低质量数据的多模态融合》综述
一些最近的研究实证和理论上表明,传统的多模态融合可能在野外的低质量多模态数据上失败,例如不平衡【7】【8】【9】【10】、噪声【11】或甚至损坏【12】的多模态数据。针对这一问题,旨在探索具有部分缺失模态的不完整多模态数据的信息的不完整多模态学习出现,并在近年来获得了越来越多的研究关注【52】。在以下部分中,我们通过最近的进展和多模态融合面临的技术挑战详细介绍了这一领域:在噪声多模态数据上的学习(第2节)、缺失模态插补(第3节)、平衡多模态融合(第4节)和动态多模态融合(第5节)。原创 2024-05-07 20:01:35 · 866 阅读 · 0 评论 -
cTBLS:使用对话表格增强大型语言模型
3.提出证据证明,使用编码器语言模型排序的知识源增强最先进的 LLM 解码器,可在自动(ROUGE-精确度)和人工(连贯性、流畅性和信息量)评估中为基于知识的响应生成带来更好的结果,同时降低了对这些模型的 API 调用次数。粗系统状态跟踪会对表格中的单元格进行排序,而细系统状态跟踪则会识别与回答查询最相关的单元格中的细粒度信息。提示包括对话历史、排序的知识源和要回答的查询。单元编码器嵌入所有单元和相关的超链接信息,而问题编码器则生成对话历史的嵌入,其中包括当前回合的查询以及之前的查询和回复。原创 2024-04-25 20:05:23 · 983 阅读 · 0 评论 -
自适应剪枝让多模态大模型加速2-3倍,哈工大联合度小满推出SmartTrim
基于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输入序列和较多的参数,导致其相应的计算开销地提升,阻碍了在实际环境中进一步部署。与前人方法相比,SmartTrim 不需要额外的预训练,而且还通过 token 和 head 两个方面提供了更细粒度地控制模型的计算开销,以更好地探索效率与性能之间的权衡,下面的帕累托图显示我们的方法在 1.5x 的加速比下甚至相比原始模型性能有所提升,而在高加速比下的相比其他加速方法具有显著优势。原创 2024-04-25 20:01:18 · 776 阅读 · 0 评论 -
大型语言模型高效推理综述
众多开源的LLMs已经出现,包括GPT系列(GPT-1 [1],GPT-2 [2],和GPT-3 [3]),OPT [4],LLaMA系列(LLaMA [5],LLaMA 2 [5],百川2 [6],Vicuna [7],长聊 [8]),BLOOM [9],FALCON [10],GLM [11],和Mistral [12],这些模型被用于学术研究和商业目的。目前,已经进行了几项综述 [17],[18],[19],[20],[21],[22],主要关注LLMs效率的不同方面,但仍提供了进一步改进的机会。原创 2024-04-24 20:58:30 · 1390 阅读 · 0 评论 -
LoRA: 大模型的低秩适配
随着我们预训练更大的模型,全量微调,即重新训练所有模型参数,变得不太可行。我们提出了低秩适应(Low-Rank Adaptation),简称LoRA,它冻结了预训练模型的权重,并将可训练的秩分解矩阵注入Transformer架构的每一层,大大减少了用于下游任务的可训练参数数量。神经网络有很多计算矩阵乘法的稠密层,这些层中的矩阵都是满秩的,但是在适应特定任务时,预训练语言模型表现出有更小的“本质秩”(instrisic rank),也就是即使将这些矩阵投影到更小的空间中,模型依然可以有效学习。原创 2024-04-24 20:52:37 · 605 阅读 · 0 评论 -
Meta提出全新文档级嵌入框架,利用LLM来增强信息检索能力
近年来,基于嵌入式检索(embedding-based search)或密集检索(dense retrieval)相比传统的稀疏检索(sparse retrieval)或基于词袋(bag of words)的方法,已经展示出了更先进的结果。原创 2024-04-22 20:15:29 · 796 阅读 · 0 评论 -
使用大模型来实现医疗领域的隐私信息保护
传统隐私保护技术主要包括联邦学习、差分隐私、同态加密等,这些技术在大模型背景下的应用挑战不断加剧:(1)联邦学习应用于大模型中时更注重使用多个小模型来训练性能更强的大模型,对隐私的关注有所减少;作者首先对数据建立基线,提取关键隐私指标(常见症状、患者情绪或医疗查询的趋势),用LLM掩盖敏感信息,确保仅更改数据的个人身份或敏感部分,数据的整体结构和本质保持不变,为实现在对话中保持历史背景(指向同一含义的不同token),方案中使用外部存储,将已识别的PII映射到其匿名对应项。图1 生成的对话数据。原创 2024-04-16 23:07:09 · 840 阅读 · 0 评论 -
普林斯顿伯克利最新「扩散模型」综述:应用、引导生成、统计率和优化
扩散模型是一种强大且通用的生成性人工智能技术,在计算机视觉、音频、强化学习和计算生物学中取得了巨大的成功。在这些应用中,扩散模型提供了灵活的高维数据建模,并作为采样器在主动引导下生成具有任务所需属性的新样本。尽管在实践中取得了显著的成功,但扩散模型的理论研究非常有限,这可能会减缓原则上的方法论创新,进一步利用和改进扩散模型。在本文中,我们回顾了扩散模型的新兴应用,理解其在各种控制下的样本生成。接下来,我们概述了扩散模型的现有理论,包括其统计特性和采样能力。我们采取渐进式的程序,从无条件扩散模型开始,并连接到原创 2024-04-15 19:06:17 · 1402 阅读 · 0 评论 -
大模型LLM论文整理
Gemini:一族功能强大的多模态模论文名称:Gemini: A Family of Highly Capable Multimodal Models论文地址:https://arxiv.org/pdf/2312.11805会议:论文方法:该论文介绍了一种新的多模态模型系列,Gemini,在图像、音频、视频和文本理解方面具有非凡的能力。Gemini系列包括Ultra、Pro和Nano三种规模,适用于从复杂的推理任务到设备上的内存受限用例。论文实验结果:在广泛的基准测试中,该论文最先进的Gemini Ultr原创 2024-03-31 22:17:32 · 977 阅读 · 0 评论 -
国内复现Sora并开源:成本降低46%,序列扩充近百万!
Colossal-AI非常善于大模型的优化,例如,预训练一个大模型需要100块GPU,通过Colossal-AI的优化方案可以降低至50块同时保持性能。以在单台H800 SXM 8*80GB GPU上使用DiT-XL/2模型的性能测试为例,在600K的序列长度时,Open-Sora的方案比基线方案有40%以上的性能提升和成本降低。,未来会持续迭代、创新Open-Sora,希望借助开源的力量可以打造媲美Sora的产品,帮助影视、游戏开发、广告营销等领域实现降本增效。支持多种并行训练优化。原创 2024-03-30 14:14:55 · 949 阅读 · 0 评论 -
具备实时数据更新能力的大语言模型——Larimar
Larimar主要设计了一个外部记忆模块,专门储存独立的实时数据,并将这些记忆有效地注入到大语言模型中,使得Larimar无需重新预训练就能在内容生成过程中精准使用新的知识数据。研究人员表示,Larimar是一种创新技术架构,可以有效解决大语言模型数据更新不及时、消除数据中存在的非法、偏见、错误等数据,同时可以很好保护那些敏感的数据防止外漏。海马体对短期记忆转化为长期记忆至关重要,特别是在形成新的记忆和学习新信息的过程中,帮助将经验和信息从短期记忆库存转移到大脑的其他部分以形成长期记忆。原创 2024-03-30 14:12:52 · 920 阅读 · 0 评论 -
深入了解 大语言模型(LLM)微调方法
2021年微软提出的 LORA,斯坦福提出的 Prefix-Tuning,谷歌提出的 Prompt Tuning,2022年清华提出的 P-tuning v2、2023年华盛顿大学提出的QLoRA、2024年英伟达提出DoRA等基本上都是属于该范畴)。需要注意的是,与预训练一样,全微调需要足够的内存和计算预算来存储和处理训练过程中的所有梯度、优化器和其他更新组件。其中,大模型微调技术在此过程中起到了非常关键的作用,它提升了模型的生成效率和适应性,使其能够在多样化的应用场景中发挥更大的价值。原创 2024-03-13 13:07:28 · 2216 阅读 · 0 评论 -
增强PLMs可塑性!MetaAI | 提出主动遗忘机制,加快模型收敛,准确率高出21.2%!
预训练语言模型(Pretrained Language Models, PLMs)在自然语言处理(Natural Language Processing, NLP)领域的应用上存在一定的局限性。具体来说,预训练语言模型的核心是通过汲取大型数据集来获取知识,并在预训练期间将这些知识存储在参数中,然后通过微调(fine-tuning)或提示(prompting)将这些知识应用于各种下游任务,如语义分析、问答等。尽管 PLM 取得了成功,但仍然存在许多缺点。特别是「在适应新语言」原创 2024-03-13 13:06:23 · 927 阅读 · 0 评论 -
ELF-DISCOVER:大型语言模型自我构建推理结构
我们引入了SELF-DISCOVER,这是一个通用框架,用于让LLMs自我发现任务内在的推理结构,以解决对典型提示方法具有挑战性的复杂推理问题。该框架的核心是一个自我发现过程,在这个过程中,LLMs选择多个原子推理模块,比如批判性思维和逐步思维,并将它们组合成一个明确的推理结构,供LLMs在解码过程中遵循。原创 2024-03-11 11:23:02 · 1184 阅读 · 0 评论 -
2024 最新综述 | 当知识图谱遇上多模态学习
例如,像猫和狗这样的一般概念在大脑中表现为通用的、平均的视觉动物图像,而特定的限定词,如“阿拉斯加雪橇犬”,提供了清晰度,类似于MMKG中的基于路径的图像检索。如果我们只知道独角兽是有角的马,这个特定的图像在脑海中就是我们记住的那样,而不是有角的海豹或狮子。这种混合方法的优势是双重的:它扩大了图像数量的覆盖范围(第一种范式),还融入了第二种范式特有的广泛知识规模,这可以促进大规模、三元组级别的多模态信息生成,为未来在多模态实体对齐和MMKG驱动的应用(如MLLM预训练和VQA)提供新的机遇。原创 2024-02-27 19:34:19 · 2405 阅读 · 0 评论 -
图解GPT2
从存储空间来看,我们的输入法只需要几十MB的空间,但是GPT-2最小的模型就需要500MB来存储它的参数,而最大的GPT-2模型是它的13倍,需要6.5GB的存储空间来存储其参数。在《Sample Efficient Text Summarization Using a Single Pre-Trained Transformer》,只有解码器的transformer结构首先在语言模型上进行预训练,然后微调做摘要任务,结果证明,在有限的数据设置中,它比预先训练的编码器-解码器变压器取得更好的结果。原创 2024-02-06 17:16:05 · 932 阅读 · 0 评论 -
华为、清华等开源超高清、精准文生图模型,0.5秒极速生成!
桌子上透明罐子里壮观的微小世界,大会堂内部,精心设计,雕刻建筑,解剖,象征,几何和参数化细节,精确的平面线细节,图案,黑暗幻想和难以表达的神秘情绪,技术设计,复杂的超细节,风格化和未来主义和仿生细节,建筑概念,低对比度细节,电影照明,8K,虚幻,逼真,超现实。美丽的女孩,雀斑,笑容灿烂,蓝色的眼睛,姜黄色的短发,深色的妆容,穿着花蓝色背心,柔和的光线,深灰色的背景,写实风格。而LCM通过预测增强的PF-ODE方法,将生成过程简化为几个微小步骤,以帮助模型用最快的速度生成高质量的图像。原创 2024-02-06 17:14:41 · 602 阅读 · 0 评论 -
第一个多模大模型!1080Ti轻松运行
Vary-toy的模型结构和训练流程如上图所示,大体上继承了Vary,使用Vary-tiny+结构,pretrain出一个更好的视觉词表,然后将训好的视觉词表merge到最终结构进行multi-task training/SFT。众所周知一个好的数据配比对于产生一个能力全面的VLM是很重要的。因此在pretrain阶段,我们使用了5种任务类型的数据构建对话,数据配比和示例prompt如下;而在SFT阶段,我们只使用了LLaVA-80K数据。原创 2024-02-03 10:29:11 · 1000 阅读 · 0 评论 -
HiFT全参数微调新范式---逐层微调
以65B模型为例,单精度仅模型参数需求内存约为242G,半精度的内存需求约为121G,混合精度下仅模型参数需求的内存为242+121=363G,只有当混合精度降低的动态内存超过121G时候,混合精度的优势才能体现出来,但是大多数情况下,设备的限制,无法使用大的batch size. 根据我们的实验结果看,当微调3B(GPT-Neo)左右的模型时候,在小的batch下(我们设置的batch size 为8,句子长度为512),混合精度已经没有内存优势。可训练参数量的减少,将直接会降低梯度参数的内存使用。原创 2024-02-03 10:26:24 · 1091 阅读 · 0 评论 -
大模型时序应用——基于对比学习的时序数据embedding
Text embedding space of LLM (TEST)总共分为两步:(1)将TS token化,并训练编码器一个encoder,用对比学习表征TS tokens;(2)创建prompts,使LLM对表征更开放,并实现TS任务。原创 2024-01-29 20:26:12 · 1508 阅读 · 0 评论 -
LMC:通过大模型合作与互相评估来进行无需训练的开放集识别
在这个工作中我们首先观察到,尤其从去年开始各式各样的大模型已经出现在我们的日常生活中,这些大模型往往具有丰富的知识,并具有不同的能力:比如ChatGPT具有丰富的常识;我们提出的LMC框架可以有效地避免开放集图片被误认为属于训练集,同时,我们也在现有常用的数据集与评估指标上,以无需训练的方式达到了比之前需要训练的方式更好的结果。1)我们提出的 LMC 是一个新颖的框架,它可以通过协作不同的现成预训练大模型的方式,以互补的方式利用它们的知识,以免训练的方式处理开放集物体识别任务。第一步用模型来提供反馈;原创 2024-01-29 20:23:49 · 932 阅读 · 0 评论 -
大模型:合成数据、安全挑战与知识注入
根据"Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training"这篇论文,即便LLM经过了广泛的安全调教,被提前训练进模型中的后门攻击仍然能留存下来,只是等待被特定的指令触发后就能做出恶意行为,例如生成一段黑客攻击代码。"Textbooks Are All You Need"的研究证实,知识丰富的LLM可以通过在更小、经过筛选的数据集上进行训练来实现,例如教科书。原创 2024-01-29 20:20:47 · 1349 阅读 · 0 评论 -
最骚NLP论文:欺骗大模型却能大幅提升效果的骚操作
为了评估∅-shot提示的性能,主实验使用的LLM模型分别是PaLM 2,PaLM 2 for Chat,GPT-3.5 Turbo和GPT-4 Turbo,扩展分析使用的LLM模型是Llama 2 7B和Llama 2 7B Chat。也就是说,∅CoT提示有可能在更强的模型中突破用于减少幻觉的措施,特别是在需要复杂推理的任务中。在大模型的提示工程中,少样本提示,思维链提示(CoT)都是行之有效的方法,通过为大模型提供几个样例,为模型提供更多更相关的上下文,让模型回答时有所参照,可以提高模型性能。原创 2024-01-29 16:48:26 · 911 阅读 · 0 评论 -
大模型时代下的文本水印综述
当前的研究工作已经为各种 LLM 类型开发了水印算法,包括嵌入式(输入是文本,输出是该文本的相应嵌入)、生成式(目前最常用的 LLM,其输入和输出都是文本)和分类式(输入是文本,输出是特定的类别)的 LLM。为增强公众信任,需要确保水印技术的透明度和可靠性。本文介绍首个大模型时代下的文本水印综述,由清华、港中文、港科广、UIC、北邮联合发布,全面阐述了大模型时代下文本水印技术的算法类别与设计、评估角度与指标、实际应用场景,同时深入探讨了相关研究当前面临的挑战以及未来发展的方向,探索文本水印领域的前沿趋势。原创 2024-01-29 16:43:59 · 1356 阅读 · 0 评论 -
腾讯多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法
在腾讯 2024 数字科技前沿应用趋势中,强调了“通用人工智能渐行渐近,大模型走向多模态,AI智能体(Agent)有望成为下一代平台当下多模态大模型不仅仅是学界新宠,也是未来行业发展进步的一大方向,站在这篇综述的基础之上,期待我们可以更快更好的理解未来多模态大模型的发展,赶上这波通用人工智能的新浪潮!原创 2024-01-29 16:38:37 · 3559 阅读 · 0 评论 -
伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!
RaLMSpec通过引入推测性检索和批量验证,显著提高了迭代式检索增强语言模型的服务效率。实验结果表明,RaLMSpec能够在保持模型输出质量的同时,实现对不同检索器(包括精确密集检索器、近似密集检索器和稀疏检索器)的显著加速。特别是在使用精确密集检索器时,RaLMSpec+PSA(结合预取、最优推测步长调度器和异步验证)能够与基线相比,在不同的语言模型和数据集上实现高达2.39倍的加速比。原创 2024-01-29 16:36:33 · 1272 阅读 · 0 评论 -
EMNLP‘23:大模型时代的数据标注—FreeAL
获取高质量的标记数据以用于模型训练对于各种自然语言处理任务来说往往耗时且劳动密集。尽管提出了许多解决方案,如小型语言模型(SLMs)的主动学习和大型语言模型(LLMs)时代流行的上下文学习,它们在一定程度上缓解了标注负担,但它们的性能仍然取决于人工干预。在LLMs时代如何降低注释成本仍然是一个未被充分探讨的问题。为了弥合这一差距,我们对传统主动学习进行了革新,并提出了一种创新的协同学习框架FreeAL,以交互式地从LLMs中提炼和过滤任务特定知识。原创 2024-01-29 12:34:04 · 994 阅读 · 0 评论 -
【无标题】
使用编码器/解码器架构 [1] 的想法为生成建模找到了新的相关性,随着变分自编码器(VAEs)[67] 和生成对抗网络(GANs)[42] 的出现,以及后来的扩散模型 [134]。随后进行了更多扩展基本方法的工作。特别是,第2.1节涵盖了从文本生成图像,第2.2节讨论了标准方法的迭代扩展,第2.3节聚焦于基于Transformer的变种,第2.4节描述了自监督方法,第2.5节强调了从文本输入生成视频的可能性,第2.6节处理了根据描述编辑图像的任务,第2.7节考虑了图方法,而第2.8节回顾了剩余的特殊方法。原创 2024-01-28 13:03:54 · 804 阅读 · 0 评论 -
QA-GNN: 使用语言模型和知识图谱的推理问答
使用预训练语言模型(LMs)和知识图谱(KGs)的知识回答问题的问题涉及两个挑战:在给定的问答上下文(问题和答案选择)中,方法需要(i)从大型知识图谱中识别相关的知识,并且(ii)在问答上下文和知识图谱上进行联合推理。在这项工作中,我们提出了一个新的模型,QA-GNN,通过两个关键创新解决了上述挑战:(i)相关性评分,我们使用LMs来估计相对于给定的问答上下文,KG节点的重要性,以及(ii)联合推理,我们将问答上下文和知识图谱连接起来形成一个联合图,并通过图神经网络相互更新它们的表示。原创 2024-01-28 00:32:39 · 1115 阅读 · 0 评论 -
Title: 提升大型语言模型在知识图谱完成中的性能
本文探讨了如何将有用的知识图谱(KG)结构信息融入大型语言模型(LLM),以实现LLM中的结构感知推理。研究发现,目前基于LLM的知识图谱补全(KGC)研究有限,它们往往忽视了KG中的重要结构信息。为了解决这个问题,本文首先将LLM转换为结构感知setting,然后提出了一种知识前缀适配器(KoPA)。下面的图就是本文KoPA模型框架:一图胜千言,咱们一起来看看。KoPA是一个两阶段的基于LLM的KGC框架。首先对给定的KG中的实体和关系进行结构嵌入预训练(上面的支路)。原创 2024-01-27 16:22:07 · 1264 阅读 · 0 评论 -
LLM推理的吞吐、时延及成本空间
没有分页注意力的KV缓存是矩形的,需要分配一个大矩形内存,其中一个维度是批大小,即模型一次可以处理的最大序列数,另一个维度是,允许用户使用的最大序列长度。我认为,让模型掌握多语能力存在一种权衡,例如,如果模型在法语方面取得了进步,就会略微损失其他语言能力,但这种损失并不明显,是可以接受的,因为整体而言,在其他语言上的性能提升可能更为显著。就计算速度而言,量化后的速度为原来的两倍,但我们发现,对于Mistral模型规模以及其他模型,很难达到这个速度,如果以纯浮点运算量衡量,1.5倍的速度更为合理。原创 2024-01-25 10:31:43 · 1317 阅读 · 0 评论 -
大模型可视化
通过上图可知,nano-GPT是一种Transformer架构,Transformer是一种Encoder-Decoder架构,但GPT仅使用了Decoder部分,在Decoder中,每个Token对应的输出只能参考当前输入Token之前的Token,所以Decoder通常用于文本生成,也就是通过自回归方式预测下一个单词。有只使用Decoder的,当然就有只使用Encoder的,Bert就是典型代表,在Encoder中,每个Token对应的输出是借鉴了所有的输入,所以Encoder更擅长文本理解。原创 2024-01-25 10:24:17 · 810 阅读 · 0 评论 -
中文数据让LLM变笨?
这里的结果,就让我比较迷惑了,如果是同样的网络结构,一个简中版,一个英文版,这样的对比,我是认可的,但两个架构的模型,大小,数据,配比,训练方式都不完全一样,性能的差异,直接归因到中文数据上,我是不太认同的。233,和论文作者沟通了一下,发现我确实忽略了论文最大的一个贡献点:代码模型比普通llm在数据生成任务中效果要好很多,甚至于比论文中没提到的3.5和4.0效果都好,这个发现,对社区的帮助还是很大的。但OpenAI的苹果哥也表示同样的观点,所以还是值得大家进一步做探究的,期待更加严格的对比实验。原创 2024-01-23 22:35:06 · 901 阅读 · 0 评论 -
大模型+自动驾驶
值得鼓舞的是,最近的进展,特别是在扩散模型和NeRF方面,已经产生了模糊了现实与机器生成界限的图像,为解决数据稀缺提供了有希望的技术支持。这些方法被归类为五个主要类型,包括基于对比的、基于重构的、基于蒸馏的、基于渲染的和基于世界模型的。虽然当前缺乏为自动驾驶量身定制的视觉基础模型(Vision Foundation Model)构成了挑战,但我们可以分析现有基础模型的应用,例如来自其他领域的视觉基础模型、多模态基础模型和大型语言模型(Large Language Models),以增强我们的理解。原创 2024-01-23 22:13:39 · 2001 阅读 · 1 评论 -
时间序列大模型:TimeGPT
基础模型在时间序列预测任务中的潜力仍然未被充分探索,但有迹象表明可以在不降低性能的情况下将预训练模型转移到不同任务上,且在时间序列预测任务中存在数据和模型规模的扩展律。TimeGPT 是一种由 Nixtla 开发的专门用于预测任务的生成式预训练 Transformer 模型,具有自我关注机制,采用历史值窗口生成预测,添加局部位置编码,由多层编码器-解码器结构组成,每个结构都具有残差连接和层归一化。在处理新时间序列推理问题时,我们采用滚动预测的方法来估计模型预测特定目标时间序列的误差,以确保预测的准确性。原创 2024-01-23 22:06:24 · 1923 阅读 · 0 评论 -
大模型的高效训练和部署技术卷出新高度
01 大模型训练的挑战1. 大模型发展现状及问题上图中展示了大模型的发展历程,其中纵坐标是 AI 模型的参数量。在过去几年间,AI 大模型的参数量飞速增长,大约每 18 个月时间就会增长 40 倍。例如 2016 年,世界最好的大模型 ResNet-50,参数量约为 2000 万;而到 2020 年的 GPT-3 模型,参数量已达到 1750 亿;到今天,根据 OpenAI 透露的消息,MOE 混合专家系统这种架构的大模型参数量大约 1.7 万亿;2021 年初 Google 的 Switch Transf原创 2024-01-22 20:22:04 · 1068 阅读 · 0 评论 -
LLM包含的知识
LLM微调最费机器,所以也是知识点最多的地方,比如详解各种PEFT方法、LoRA、QLoRA(两种量化、Page Optimizer等)、RLHF(强化学习基础、RW、PPO和PPO-max)等,以及Llama-Factory实战、LLaMA2-QLoRA实战和RLHF实战来巩固所学。会按照历史梳理LM,详解BERT、GPT系列等各种预备核心知识点,并带着进行GPT预训练实战、位置编码(长文本问题)实战等。大语言模型的“大”,就离不开分布式。目前应用最火的就是Agent、langchain、RAG了,原创 2024-01-22 13:02:23 · 387 阅读 · 0 评论 -
Retrieval-Augmented Generation for Large Language Models: A Survey
09.结论本文的总结如图7所示,突显了RAG在增强LLM能力方面的重大进步,这是通过将语言模型中的参数化知识与外部知识库中广泛的非参数化数据整合实现的。我们的调查展示了RAG技术的演变及其对知识密集型任务的影响。我们的分析勾勒出RAG框架内的三种发展范式:初级RAG、高级RAG、模块化RAG,每一种都比上一种有所进步。高级RAG范式通过纳入复杂的架构元素,如查询重写、块重新排序和提示摘要,超越了初级RAG。这些创新带来了更为细致和模块化的架构,增强了LLM的性能和可解释性。原创 2024-01-22 01:32:33 · 1569 阅读 · 0 评论 -
GPT-4 的决策在股市中进行量化投资
渐进新闻摘要器负责新闻获取、压缩和制作股票最具影响力新闻的渐进性摘要。如图 2 所示,获取与特定股票对应的每日新闻。▲图2 渐进新闻摘要器首先,对每日新闻进行预处理,剔除了与公司无关的文本,并确保其以适当的格式输入系统。接着,通过 API 访问 GPT-4,系统有序地提供提示,以生成每日新闻的简明摘要,并将其集中储存。原创 2024-01-22 01:13:40 · 1600 阅读 · 0 评论