Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备 大模型智能|分享来源 | 新智元编辑 | 桃子开源,就要开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。01预训练是指,使用数万亿个token数据,从头开始训练LLM的过程,通常使用自监督算法进行训练。最常见的情况是,训练通过自回归预测下一个token(也称为因果语言建模)。
字节内部热捧“7种大模型微调的方法笔记”,太完整了 随着 ChatGPT 的爆火,很多机构都开源了自己的大模型,比如清华的 ChatGLM-6B/ChatGLM-10B/ChatGLM-130B,HuggingFace 的 BLOOM-176B。当然还有很多没有开源的,比如 OpenAI 的 ChatGPT/GPT-4,百度的文心一言,谷歌的 PLAM-540B,华为的盘古大模型,阿里的通义千问,等等。
让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述 论文首先以最近大热的 LLaMA 模型作为代表,分析并阐述了大语言模型(LLM)和其他基于 Transformer 的模型的架构和计算流程,并定义了所需的符号表示,以便于在后文分析各类 PEFT 技术。此外,作者还概述了 PEFT 算法的分类方法。作者根据不同的操作将 PEFT 算法划分为加性微调、选择性微调、重参数化微调和混合微调。图三展示了 PEFT 算法的分类及各分类下包含的具体算法名称。各分类的具体定义将在后文详细讲解。
MoE+Attention:北大推出Transformer 注意力机制MoH 导读北大在《MoH: Multi-Head Attention as Mixture-of-Head Attention》论文种提出Mixture-of-Head Attention (MoH) 新型Transformer 大模型注意力机制,将多头注意力与混合专家结构 (MoE) 相结合,使每个token 能够自适应地选择最相关注意力头,从而在不增加参数数量情况下提高推理效率和模型性能,并在ViT、DiT和LLMs 等不同大模型架构上均取得了显著效果。
DeepSeek V3 671B 大模型5 大亮点总结 导读昨天DeepSeek 发布了新一代大模型DeepSeek-V3,拥有671B 参数的混合专家(MoE)大语言模型,推理时激活37B 亿参数,在多项评估中超越了其他开源模型,并接近领先的闭源模型,且训练过程稳定高效。
深入Vector Quantization:揭秘表征坍塌原因&解法 导读新加坡国立大学在论文《Representation Collapsing Problems in Vector Quantization》系统性地探讨了生成模型中矢量量化 (VQ) 中的表征坍塌问题,确定了两种类型坍塌:1)Token 坍塌:过多tokens 集中于少数Embedding;2)Embedding 坍塌:Embedding 空间坍塌到有限的表征集,并通过实验揭示了随机初始化和有限的编码器容量是导致这些坍塌的原因,提出了相应解决方案。核心内容总结。
处女座 (Virgo):基于文本指令微调的多模态慢思考推理系统 近年来,随着深度学习技术的飞速发展,人工智能 (AI) 在诸多领域取得了突破性进展。然而,传统的深度学习模型在处理需要复杂推理的任务时仍然面临挑战。例如,在面对数学题、逻辑谜题或科学问题时,简单地依靠模式识别和函数拟合难以获得令人满意的结果。为了解决这个问题,研究人员开始探索将深度学习与符号推理相结合,从而赋予 AI 系统更强的推理能力,即慢思考推理。慢思考推理强调对问题进行深入分析和逐步求解,而非仅仅依赖直觉或快速联想。这种方法更接近人类的认知过程,也更适用于需要逻辑推理、知识应用和问题解决的复杂场景。
Qwen for Tugraph自然语言至图查询语言翻译大模型微调最佳实践 在图数据库的应用场景中,自然语言至图查询语言的高效转换一直是行业中的重要挑战。本次实践基于阿里云 Qwen 大模型,围绕 TuGraph 图数据库的需求,探索并验证了一套高效的大模型微调方案,显著提升了模型生成 Cypher 查询语句的能力。通过数据清洗、两阶段微调方法以及两模型推理框架等一系列创新策略,我们成功解决了图查询语言翻译任务中的核心问题。本文从背景与目标、数据准备与清洗、微调框架设计、Prompt设计与优化、模型推理、最佳实践效果以及前景展望等六个部分。文章来源。
2024大模型大浪淘沙,谁是真正的实力者? 科技巨头们从不缺少资金,但真正领先的自研技术如同厚重绵延的长城,绝不是一天能建成的。未来AI应用的大爆发,更需要强大的技术实力探路铺路。而随着西方国家对中国高新技术的“围追堵截”,注定中国大模型产业不能再走“市场换技术”的老路。弯道超车的办法,唯有自力更生。从这个角度来说,百度用超过10年的科研深耕、技术积累,为中国的大模型企业闯出了一条新路——依靠完全独立自研,也能向世界一流水平看齐。
写给小白的大模型入门科普 大模型,英文名叫Large Model,大型模型。早期的时候,也叫Foundation Model,基础模型。大模型是一个简称。完整的叫法,应该是“人工智能预训练大模型”。预训练,是一项技术,我们后面再解释。我们现在口头上常说的大模型,实际上特指大模型的其中一类,也是用得最多的一类——语言大模型(Large Language Model,也叫大语言模型,简称LLM)。除了语言大模型之外,还有视觉大模型、多模态大模型等。现在,包括所有类别在内的大模型合集,被称为广义的大模型。
七款国产AI大模型:Kimi,智谱清言,通义千问,文心一言,豆包,天工AI,讯飞,各自的优缺点是什么? Kimi模型,以其在自然语言处理方面的卓越性能而著称,特别是在情感分析和文本分类任务上表现出色。这得益于其深度学习架构中特殊的注意力机制,能够有效捕捉文本中的关键信息。然而,Kimi在处理长文本时的性能略有下降,因为它更擅长处理。
6个大模型的核心技术! 大家好,我是花哥。本文我们谈下火爆的大模型背后,有哪些的核心技术!一、TransformerTransformer 是大模型的底层模型。在深度学习的早期阶段,循环神经网络(RNN)是处理序列数据的常用方法。尽管RNN及其变体在某些任务上表现良好,但它们在处理长序列时容易遇到梯度消失和模型退化问题。为了解决这些问题,Transformer模型被提出。
值得开发者好好看一看的AI大模型入门教程(内含300道AI面试真题) 坚持到了这儿,恭喜你,表示你有做AI大模型工程师的潜力。其实我想说的上面的内容只是冰山一角,刚开始大家不需要多么精通了解这些内容。主要是不断练习,让自己跳出「舒适区」,进入「学习区」,但是又不进入「恐慌区」,不断给自己「喂招」。记住,学习是一个持续的过程。大模型技术日新月异,每天都有新的研究成果和技术突破。要保持对知识的渴望,不断学习最新的技术和算法。同时,实践是检验学习成果的最佳方式。通过实际项目实践,你将能够将理论知识转化为实际能力,不断提升自己的技术实力。最后,不要忘记与同行交流和学习。
专题解读 知识蒸馏再升级:用大语言模型赋能图神经网络 图分类任务中,学习信号稀疏,因为标签是图级别的。MLP作为学生模型,虽然推理速度较快,但在表达图结构时通常不如GNN强大。为了应对这些问题,MuGSI框架提出了多粒度结构信息蒸馏,结合了图级、子图级和节点级的蒸馏信息,确保学生模型能够充分学习教师模型的多层次结构信息。MuGSI的关键组成部分图1:MuGSI框架的整体结构图,展示了从教师模型(GNN)到学生模型(MLP)蒸馏过程中的多粒度结构信息。图级蒸馏(Graph-Level Distillation)
专题解读 大语言模型上下文窗口扩展方法 YaRN和SelfExtend分别在微调和推理阶段提供了有效的上下文窗口扩展方案,前者通过优化位置嵌入插值和动态缩放,后者通过双层注意力机制扩展了模型的上下文处理能力。两者在不同应用场景下都表现出色,为大语言模型的长文本处理提供了新的技术路径。
一文读懂Transformer:从原理到实践,揭开大模型的核心奥秘 Transformer是一座桥梁,从传统的序列模型迈向并行、高效的注意力机制,为大型预训练模型的诞生铺平道路。在Transformer的支持下,大模型在语言、图像和多模态任务上不断突破,令AI从「模仿工具」进化为具备语义理解与创造力的智能体。理解Transformer,你将更深刻地领会ChatGPT、Bard、Midjourney等应用背后的原理:它们的神奇源于对语言和数据模式的深度捕捉,以及在广阔数据中历练而来的智慧。在这场AI技术迭代中,Transformer的影响才刚刚开始。