yxiaoyu__-CSDN博客

原创神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

【代码】神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

2024-08-19 15:59:50 427

原创 LLM预训练和后训练新范式

大型语言模型（LLM）的发展已经取得了长足的进步，从早期的GPT模型到我们今天拥有的复杂的开放权重LLM。最初，LLM的训练过程仅集中于预训练，但后来扩展到包括预训练和后训练。后训练通常包括监督指令微调和对齐，这些是由ChatGPT普及的。

2024-08-19 13:46:41 1226

原创 IntactKV：保持关键词元无损的大语言模型量化方法

我们发现，模型量化会不可避免地导致关键词元表征受损，进而严重影响模型精度，因此如果能保证关键词元的表征，也就是其KV cache无损，就能有效降低量化误差。为此，我们提出使用IntactKV—先使用全精度模型生成关键词元的无损KV cache并将其缓存下来（i.e., IntactKV），量化模型在推理时就能直接使用无损的关键词元表征，从而有效提升量化模型精度。

2024-08-16 14:53:22 847

原创 5 个遥遥领先的大模型 RAG 工具

想象一下拥有一种超能力，让你能够对任何问题或提示生成类似人类的回答，同时还能够利用庞大的外部知识库确保准确性和相关性。这不是科幻小说，这就是检索增强生成（RAG）的力量。在本文中，我们将介绍五大遥遥领先的 RAG 工具或库：LangChain、LlamaIndex、Haystack、RAGatouille 和 EmbedChain。

2024-08-15 20:00:00 1288

其实不然，artificial的意思就是“人工的、人造的”，和natural（天然的）是反义词。AI特别擅长对海量数据进行处理，一方面通过海量数据进行学习和训练，另一方面，基于新的海量数据，完成人工无法完成的工作。行业大模型，顾名思义，训练数据来自特定行业，应用于专门的领域（例如金融、医疗、法律、工业）。所以，只能在发展AI的过程中，一点点去探索、思考和解决。想要让计算机实现像人一样的智能，不能采用简单的规则驱动，而是应该像教孩童一样，不断输入数据和答案，让他自行总结特征，形成自己的判断规则。

2024-08-15 12:30:00 1144

原创如何从零设计大模型基础设施

机柜级设计主要操心的是电源问题和机柜空间布置，可能需要机房管理的专业工程师和服务器存储网络的硬件工程师帮助你核对设备的电源规格，功率大小等电气参数，也需要核对设备的实际物理外形规格，包括几 U 高度，设备的深度和线缆长度等，所有这些和打算部署的机柜实际情况的匹配度都可能成为制约因素。如何设计管理大集群本就是一个很难的课题，尤其集群规模扩大到一定程度后，必须考虑节点数量带来的故障概率，所以如何设计故障域隔离，实现高可靠机制，组建多重高性能网络等，都是必须要考虑的因素。

2024-08-15 08:00:00 565

原创简短而精辟：用什么样的约束思路能提高 (LLM) 成绩？

如果我们选择的 k 值太低（超过该字数，即使答案是正确的，也会被视为错误），即使使用受约束的 CoT，我们也会得到较低的结果（这在一定程度上是因为模型没有达到所需的长度）。此外，模型越大，生成相同响应所需的时间就越长（70B 参数的模型生成相同数量的 token 所需的时间与 7B 参数的模型相比更长）事实上，与这些模型的交互是通过使用提示进行的，因此，已经开发出了一些技术来改进 LLM 的这些能力。值得注意的是，长度约束增加的模型在要生成的输出长度方面具有更大的自由度（并使用这种自由度）。

2024-08-14 12:00:00 865

原创 RAG技术要点及英智未来的应用实践

LLM的工作原理是基于预训练的历史数据进行推理生成文本，所以LLM在生成回答的时候可能会引入了过期的、不可预测的或者错误的信息，导致大语言模型（LLM）在生成回答时可能产生的不准确或具误导性的输出，这种导致LLM生成毫无意义的或者错误的内容，称为AI幻觉

2024-08-14 09:30:00 904

原创现在转大模型还来得及吗？

随着人工智能技术的飞速发展，尤其是大模型如GPT-4等的崛起，不少人对是否现在转战大模型领域心存疑虑。然而，从技术、应用和市场等多个角度来看，现在转大模型领域不仅来得及，而且可能是个绝佳的时机。首先，大模型技术正处于快速发展阶段，其潜力和应用前景不可估量。尽管已有如GPT-4这样的强大模型，但未来必然会有更多更先进的模型问世。因此，现在入局大模型，意味着有机会参与到这一科技前沿的发展中，洞察行业新动向，获得独特的发展机会。其次，大模型的应用领域正不断扩展。

2024-08-13 20:07:16 914

原创大模型入门指南：基本技术原理与应用

大模型通过深度神经网络、激活函数、损失函数、优化算法、正则化和模型结构等技术原理，从大量数据中学习到复杂的特征和表示。结合预训练与微调、模型压缩与加速、解释性与可解释性、隐私与安全等技术，我们可以更好地利用大模型解决实际问题，开发高性能的应用。在未来，随着深度学习技术的不断发展，我们有理由相信大模型将在各个领域取得更多的突破。对于普通用户的我们来说，更多还是要学习如何使用大模型的各种应用，提升我们的生产力和工作效率。那么，我们该如何学习大模型？作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。

2024-08-13 16:05:44 597

原创检索增强生成 Retrieval-Augmented Generation

RAG 可以理解为一个拿着参考资料的人和你对话，侧重于信息检索。微调之后的 llm 则像是一个领域内的人和你沟通，说话风格，表达方式会更贴近领域内的专业人士，一个是形似，一个是神似。如果 llm 的参数量足够大，能力足够强，也是可以模拟一些领域内的风格去回答问题。

2024-08-13 11:30:00 407

原创如何训练大模型

目标：梳理完整的LLM训练流程1 模型预训练（Pretrain）1.1 Tokenizer Training1.2 Language Model PreTraining1.3 数据集清理1.4 模型效果评测2 指令微调（Instruction Tuning）2.1 Self Instruction开源Instruction Tuning数据集

2024-08-13 08:00:00 906

原创大模型产品经理高频面试题大揭秘‼️

大模型”在现代AI领域的概念是指一种拥有。

2024-08-12 18:44:11 1143

原创大语言模型LLM原理篇

所有喂给大模型的数据，都是需要先进行词向量化的，计算机只能通过数字计算来实现推理或思考；大模型本质上是一个维度非常巨大的矩阵；模型训练和微调本质上是调整模型矩阵的值；大模型回答用户问题，实质上是先将用户输入向量化之后，再与模型矩阵进行运算得到值最优的向量值，再将该向量值转为用户可以理解的信息返回给用户。

2024-08-12 11:30:00 437

原创 LLM大语言模型算法特训

LLM（Large Language Model）大语言模型算法特训是一个深度学习领域的高级培训项目，专门设计用于训练和优化大规模语言模型的开发者和研究人员。本文将详细探讨LLM算法的基本原理、训练技术、应用领域以及参与者可以预期的学习收获和挑战。

2024-08-12 08:00:00 1288

原创 Graph RAG: 知识图谱结合 LLM 的检索增强

本文为大家揭示 NebulaGraph 率先提出的 Graph RAG 方法，这种结合知识图谱、图数据库作为大模型结合私有知识系统的最新技术栈，是 LLM+ 系列的第三篇，加上之前的图上下文学习、Text2Cypher 这两篇文章，目前 NebulaGraph + LLM 相关的文章一共有 3 篇。

2024-08-11 07:15:00 335

原创大型语言模型 (LLM)全解读

大型语言模型是一种深度学习算法，可以执行各种自然语言处理 (NLP) 任务。大型语言模型底层使用多个转换器模型底层转换器是一组神经网络。大型语言模型是使用海量数据集进行训练的超大型深度学习模型。这也是它们能够识别、翻译、预测或生成文本或其他内容的强大基础所在。因此大型语言模型也称为神经网络 (NN)，是受人类大脑启发而开发出的计算系统。这些神经网络利用分层的节点网络工作，就像神经元一样。这些神经网络由具有自注意力功能的编码器和解码器组成。

2024-08-10 18:00:00 1280

原创对语言大模型的现状总结与趋势

本文是对《对语言大模型的若干观察和思考》等网文总结。

2024-08-10 11:00:00 1911

原创多模态大语言模型（MMLLM）的现状、发展和潜力

随着ChatGPT流行，大模型技术正逐渐成为AI领域的热点。许多行业大佬纷纷投身于这一赛道，展示了大模型的独特魅力和广阔前景。，前美团联合创始人，发起“AI英雄帖”。，出门问问创始人，打造中国版OpenA。和，前亚马逊员工，师徒俩携手大模型创业。，前京东AI部门负责人，强调大模型并非大公司专属。，前搜狗CEO，认为OpenAI的成功是技术理想主义的胜利。，快手前AI核心成员，投身于大模型赛道。，阿里巴巴VP，专注构建大模型基础设施，已完成首轮融资。

2024-08-10 08:15:00 1506

原创 2024最新最全【大模型学习路线规划】零基础入门到精通！

数学基础：学习线性代数、微积分、概率论与数理统计等基础知识。这些数学基础对于理解大模型的原理和算法至关重要。编程语言：熟练掌握Python编程，这是大模型开发的首选语言。同时，了解常用的深度学习框架，如TensorFlow和PyTorch。深度学习基础：学习深度学习的基本原理和常用算法，如神经网络、卷积神经网络、循环神经网络等。Transformer模型：深入理解Transformer的原理、结构及其变种。

2024-08-09 16:30:00 2367

原创国产视频生成大模型大爆发！三分钟AI短剧批量上线

Logenic AI联合创始人李博杰告诉《IT时报》记者，视频的本质可以看成是多张图片的连续排布放映，在文生图大模型中，最被人们熟知的技术是扩散模型，它可以根据输入的文字描述，获取数据的内在结构和分布规律，从而生成单张图片。李博杰分析，其中可能用到了文生视频的核心模型——ControlNet。也正是因为“锁定”，视频人物难以实现大幅度动作，陈晓达经过实测后告诉记者，每生成一帧画面都是一次“开盲盒”的过程，无法确保生成内容符合标准，因此只能花费大量时间不断生成，从中挑选出可用画面拼凑成一部短剧，

2024-08-09 12:15:00 2859

原创探索大模型应用：构建基于检索的RAG实战指南

在AI技术的浪潮中，大模型以其强大的问题回答能力，正逐渐渗透到各行各业，成为推动行业发展的新引擎。然而，大模型并非万能，它在实时性和私有领域知识覆盖上存在局限。为了克服这些限制，本文将带你深入了解如何利用检索增强生成模型（RAG）来扩展大模型的能力，并通过一个实战案例，展示如何构建一个基于RAG的AI知识库。

2024-08-09 08:15:00 813

原创一篇文章让你明白打工人如何利用大模型提高工作效率

随着人工智能（AI）和大模型（如GPT4、BERT等）技术的快速发展，普通职场打工人也可以利用这些强大的工具来提升工作效率，简化日常任务，甚至创新工作方式。本文将详细介绍打工人如何利用大模型提高工作效率，涵盖文本处理、数据分析、自动化任务和决策支持等方面。1. 文档撰写与校对大模型如GPT4具有强大的自然语言生成能力，可以帮助打工人快速撰写各类文档，包括报告、邮件、会议记录等。只需提供关键词或大纲，GPT4就能生成高质量的文本。此外，大模型还可以用于文档校对，自动检查语法错误、拼写错误和格式问题。

2024-08-08 17:00:00 2207

原创大模型幻觉问题，该怎么解？

Agent自动调用API查询相关的数据指标，并通过可信对齐的大模型生成可靠答案，提供给企业的风控人员，帮助防范产业链上下游协作风险。我们相信在不久的未来，大模型将加速进化为各行各业的知识专家，为人类提供更多更可靠的服务。**这样一来，大模型就像有了一本专业知识手册，**在生成答案时，会将检索到的内容和自身的知识参数相结合，这种从检索到生成的模式显著提高了LLM的真实性和可靠性。但问题是，如果知识库的内容和模型自身的知识冲突了，模型该听谁的？，良好的性能将有利于语言模型在严谨行业的应用落地。

2024-08-08 09:00:00 770

原创作为一个普通人，如何真正入局AI？

今年招聘市场确实是好点了，我发现群友都在讨论，得赶快学点 AI 大模型。他们有的是想正式转到一些新兴的 AI 行业，需要系统的学习训练。更多的是想跟已有的技能结合，辅助编程提效，或上手实操应用，增加自己的职场竞争力。这也可以理解，ChatGPT 推出仅一年半的时间，就将生成式 AI 推向主流。从谷歌到亚马逊，从百度到阿里，几乎所有科技巨头都在布局 AI，也直接影响到了招聘市场，大模型相关的岗位数量多了不少，年薪甚至达到 80W-90W。

2024-08-07 18:15:00 5132

原创大模型: 模型大了难在哪里？

大模型，顾名思义主打的就是“大”。数据规模大，通过大量的数据提高模型的泛化能力和性能。大规模并行计算能力，随着计算硬件的不断进步，如GPU和TPU的普及，大规模并行计算能力的提升使得训练和推理大模型成为可能。更“大”模型复杂性：大模型具备更深层次、更复杂的网络结构，可以捕捉更丰富的特征和关系，提高了模型的表达能力。大模型主要分为两类：一个是稀疏大模型，另一个是稠密大模型。稀疏大模型：稀疏大模型是指模型中存在大量稀疏参数的情况，一般是搜索、推荐、广告类任务。

2024-08-07 12:45:00 918

原创当大模型深入行业，场景是落地关键 | ToB产业观察

郭威告诉钛媒体APP。对此，郭威告诉钛媒体APP，英特尔相信，随着AI大模型技术逐步深入行业，模型将会逐渐从通用大模型变成行业专用型的大模型，“在这个过程中，模型的大小肯定会产生变化，”郭威指出，“与此同时，行业模型将结合更多的行业专有的知识，更聚焦某一个或几个特定的场景。谈及中国大模型在行业侧落地的趋势与前景时，郭威告诉钛媒体APP，今年以来，已经有越来越多的行业用户落地了不少行业大模型，“去年可能更多的是讲故事的多一些，今年我们看到的行业上落地的案例越来越多，而且都是能切实解决行业痛点的场景。

2024-08-07 09:00:00 943

原创大模型面经之Agent介绍

Agent（智能体）概念最早由人工智能领域的研究者提出，旨在模拟人类的智能行为。最初的Agent系统主要集中在解决特定问题或领域，如专家系统、规则引擎等。20世纪80年代末和90年代初，随着计算机和网络技术的发展，Agent开始融入到各种应用中，如搜索引擎、个人助理等。强化学习等技术的兴起（2014年起，深度强化学习出现）使得Agent能够通过与环境的交互来学习和优化其行为。

2024-08-06 20:40:09 1304

原创重构大模型磁力，要在豆包身上找答案

当这个大模型最终以“豆包大模型”的名称正式发布走向市场，所需面对的最大挑战就是如何建立AI与用户之间的磁力，打通大模型的商业化落地空间。这种特殊的发展方式，让大模型短期内走到了“两多一快”的境地：市场上的大模型应用多，单一大模型应用提供的AIGC能力多，从技术走向商用的时间快。它表面是一款类GPT的应用，背后实际是一整个豆包模型家族，而与底层大模型同名的豆包APP，则是字节通过模型升级产品体验，与C端用户重新建立磁力的通道。除了大众用户与企业用户之外，大模型落地的很大一部分动力，来自全行业模式的驱动。

2024-08-06 16:35:12 656

原创 2024年深度解读：中国主流AI大模型的架构设计与实际应用全景

在2022年4月，腾讯首次公开介绍了其混元AI大模型，这一模型集中了腾讯在预训练技术方面的研发实力，通过一个统一的平台实现了技术的复用和业务的成本降低，从而更好地支持各种场景和应用。目前，通义大模型系列已经在超过200个场景中提供服务，并且实现了2%～10%的应用效果提升，这充分证明了阿里巴巴在大模型应用方面的实力。通过与深圳燃气、吉利、泰康保险、TCL、上海辞书出版社等各领域的企业紧密合作，百度文心发布了覆盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等多个领域的行业大模型。

2024-08-05 17:31:29 2056

原创太卷了‼️靠大模型面试总结才拿下offer

成功求职并不是一件难事，关键在于你是否做好了充分的准备。通过学习和掌握AI技术的相关知识和技能，了解面试中可能出现的问题和技巧，你就能够在面试中展现出自己的专业素养和实力，赢得面试官的青睐和认可。因此，让我们一起努力，用知识和技能武装自己，迎接AI时代的挑战和机遇吧！

2024-08-05 14:52:45 923

原创中国大模型行研能力市场探析

基于数字行研解决方案的研究和实践基础，沙利文联合头豹研究院依托百人分析师团队对12个大模型进行行研辅助能力的综合评估，旨在全面了解并系统梳理中国大模型参与者在行研领域的应用表现。本次大模型行研能力测试覆盖1,800+题目，由20人资深研究分析师团队经过严格的双盲评测流程，围绕研究报告撰写能力，模型基础能力以及行业综合理解能力进行综合评测。宏观分析下，依托于算法、算力和算据的三大支柱，中国的大模型企业主要采纳两种主要策略来塑造其行业竞争壁垒：首先是市场导向型策略，其次是技术深化型策略。

2024-08-05 10:38:45 465

原创大概是最全的开源大模型LLM盘点了吧！

LLM(Large Language Model, 大型语言模型)是指那些规模庞大、参数数量众多的深度神经网络模型，用于理解和生成自然语言文本。在自然语言处理（NLP）领域有着广泛的应用，因其强大的语言理解和生成能力，能够处理各种复杂的文本任务，包括但不限于翻译、问答、文本摘要、对话、文本分类、情感分析、代码生成、创作辅助等。LLM主要基于Transformer架构，该架构由Vaswani等人在2017年的论文《Attention is All You Need》中提出。

2024-08-04 10:30:00 1157

原创选择你的道路：LLM 时代指南

年初 ChatGPT 刚开始火的时候，最开心和最伤心的都莫过于 NLP 人，开心的是，等这么多年，NLP 领域的大杀器终于来了；伤心的是，之前做的东西还有价值吗，感觉都要没价值了，而且大模型时代看上去高昂的入场券，很令人绝望。

2024-08-03 10:30:00 1101

原创 AI大模型标注：你看不上的数据标注正在成为高薪工作

大模型的出现激发出了不少新兴岗位，也让越来越多岗位备受人关注。数据标注这个岗位就是其中之一。想了解更多有关数据标注、大模型标注的同学，或许可以看看这篇文章。2022年底，ChatGPT引爆大语言模型，全球科技巨头纷纷入局，后来各家不仅限于自然语言技术，更是将文生图、文生音频、文生视频、图生视频等多模态技术“玩”出了新高度，近期大模型生成的兵马俑，还跳起了“科目三”的热舞。

2024-08-02 23:00:00 1744 2

原创推动未来的引擎：人工智能大模型的现状与发展

随着人工智能技术的迅速发展，人工智能大模型作为其中的重要组成部分，正逐渐成为推动科技进步的重要引擎。无论是在自然语言处理、计算机视觉，还是智能推荐等领域，大模型都展现出强大的数据处理和模式识别能力。今天，让我们一起探索人工智能大模型的现状、关键技术岗位以及未来发展趋势，帮助大家更好地了解这一领域的最新动态。

2024-08-02 18:31:45 1585

原创 2024年大模型4大趋势，这家国产大模型快人一步！

业界共识认为，智能体展现出的多模态、多语言、可自我进化的特征，是大模型下一阶段发展方向，智能体的“思考”更像人脑，生成的内容也更贴近人类思考的结果，其外在体现就是生成质量更高，用户体验更友好。在“中国最大AI开发者社区”飞桨星河社区里，近日全新上线了大模型工具中心，集合了百度人工智能多年来的建设成果，包括飞桨产业级模型库、百度大脑AI能力、文心一言工具等，同时支持生态工具接入，并提供可视化的交互界面、灵活的参数配置、实时呈现预览效果。有幸的是，这个5000天后的AI世界，将由你我一砖一瓦共同创造与见证。

2024-08-02 10:12:33 790

空空如也

空空如也