自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(969)
  • 收藏
  • 关注

原创 面试阿里大模型算法工程师,太离谱了。。。

在自我介绍环节,我清晰地阐述了个人基本信息、教育背景、工作经历和技能特长,展示了自信和沟通能力。

2024-08-24 11:09:52 639

原创 优化|大语言模型中的优化问题(LoRA相关算法)

在大语言模型中,参数矩阵的维度往往可以达到百亿甚至千亿,如果从头开始训练将会特别的消耗时间和资源。因此往往大家都会预先训练好一组初始参数,然后针对不同的任务进行微调,即。对于微调量,通常假设是一个低秩矩阵,即,,,,实际结果中也往往能得到很好的效果[2],如图1所示。因此我们针对特定任务只需要重新训练矩阵即可,它们的维度也远远小于原矩阵的维度。初始化时设置是随机生成的矩阵(高斯分布均值为0, 标准差为),为零矩阵可以保证初始微调量为0。而在推理过程中,推理输出也可以表示成图1:LoRA算法原理图[1]

2024-08-24 11:08:26 495

原创 大模型训练算法和在网计算,这一篇就够了

高性能计算HPC、人工智能AI技术的发展,带来了不断激增的计算量,必须通过大规模集群算力才能充分发挥优势,例如,ChatGPT模型参数总量已经达到千亿级别,高性能计算也已经迈向百亿亿级计算时代。所谓的大规模训练就是使用大规模的数据或大规模参数量的模型来做训练。相对于单卡训练,大规模的分布式训练常在训练数据量较大或模型参数规模太大导致单卡不可训练的场景下使用。如当训练数据量较大时,单卡训练耗时过长,需要分布式训练技术提高训练效率;

2024-08-24 10:50:43 792

原创 小白怎样理解AI大模型与传统算法?

传统算法:定义:传统算法是基于预定义的规则和逻辑来执行任务的算法,通常用于解决逻辑清晰、可以明确定义的问题。特点:确定性输出、固定规则、问题解决范围有限(如搜索、排序、数值计算等)、不涉及学习过程。AI大模型:定义:AI大模型是指具有大量参数和复杂结构的人工智能模型,通常基于深度学习技术构建。特点:参数规模庞大(数亿至数千亿个参数)、结构复杂(多层感知机、卷积层、自注意力机制等)、需要大量计算资源和数据进行训练。

2024-08-24 10:44:05 563

原创 【LLM & RAG & text2sql】大模型在知识图谱问答上的核心算法详细思路及实践

本文介绍了一个融合RAG(Retrieval-Augmented Generation)思路的KBQA(Knowledge-Based Question Answering)系统的核心算法及实现步骤。KBQA系统的目标是通过自然语言处理技术,从知识图谱中提取和生成精确的答案。mention识别、实体链接及排序、属性选择及排序、文本拼接以及最终的Text2SQL生成。通过这些步骤,系统能够准确识别用户提出的问题中的关键实体和属性,并生成相应的查询语句,从而从知识图谱或数据库中检索所需的信息。

2024-08-23 11:20:14 798

原创 一觉醒来,OpenAI又上新功能了:不花一分钱!GPT-4o微调限时免费开放

也就是说,开发人员现在可以使用自定义数据集微调GPT-4o,从而构建自己的应用程序。要知道,OpenAI在公告中透露了:GPT-4o微调训练成本为(意味着每天都能节省25美元)收到邮件的开发者们激动地奔走相告,这么大的羊毛一定要赶快薅。使用方法也很简单,直接访问微调仪表盘,点击”create”,然后从基本模型下拉列表中选择。对了,OpenAI还提到,只需训练数据集中的就可以产生良好效果。

2024-08-23 11:16:55 215

原创 一份 RAG 技术的全面指南:15 种高级 RAG 技术 ——从预检索到生成

检索增强生成(RAG)是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型(LLM)用海量数据进行训练,使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在 LLM 本就强大的功能基础上,RAG 将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法,让它在各种情境下都能保持相关性、准确性和实用性。

2024-08-22 10:34:19 1033

原创 世界上最简单最暴力的 RAG 系统

要搞一个 RAG 系统,hmmm,大模型,向量模型,向量存储这三个是标配,接着呢,为了让效果变得更好, 就要继续加啊加,再来个 rerank 模型,提高下精度,向量存储不够,再加个全文检索,做混合多路召回。瞬间把系统复杂度拉满,然后又要开始做资源隔离,做运维了,保证多系统协同工作,高可用 balabala…光把系统搞复杂怎么行?应用也要搞复杂!效果还不高,引入llama_index,这玩意提供了上百种存储,召回策略,搞 oneapi, 这玩意封装了无数个大模型接口。

2024-08-22 10:32:45 538

原创 LangChain Prompt Engineering和LLMs:如何让语言模型更好地理解和生成文本

在机器学习中,我们一直依赖不同的模型来完成不同的任务。随着多模态和大型语言模型(LLM)的引入,这种情况发生了变化。过去,我们需要为分类、命名实体识别(NER)、问答(QA)等任务使用不同的模型。随着和迁移学习的引入,只需在网络的末尾(或者头部)添加几个较小的层,并进行微调,就可以将语言模型适应于不同的任务。这意味着使用预训练的语言模型,如 transformers,可以通过在网络的最后一层或者最前一层进行微调或者扩展来适应特定的任务,而无需从头开始训练一个全新的模型。这种方法可以提高模型的效率和灵活性。

2024-08-21 10:27:16 899

原创 大型语言模型(LLMs)的技术革新:问答对生成与优化实践

在人工智能领域,大型语言模型(LLMs)正以其强大的自然语言处理能力,为各行各业带来革命性的变化。这些模型,如GPT-3、GPT-4以及Llama 2,不仅在文本生成、翻译、摘要等领域展现出卓越的性能,还在问答系统中扮演着至关重要的角色。问答对(Question-Answer pairs, Q&A)的生成是LLMs应用的核心,它直接影响到模型的交互性和实用性,为用户提供准确、相关且及时的信息反馈。随着LLMs技术的不断进步,我们见证了它们在理解复杂语境、生成连贯回答以及处理多样化问题方面的能力显著提升。

2024-08-21 10:09:46 1132

原创 简单易懂的LLM三角原则,让你轻松开发大模型应用

LLM三角原则提供了一个基础框架,帮助我们在开发产品时发挥LLMs的功能。这个框架基于三个主要的元素:模型、工程集成、上下文数据,以及一套详细的操作步骤(SOP)。

2024-08-20 10:28:41 664

原创 10倍加速LLM计算效率:消失的矩阵乘

(类似的表格将在会接下来的技术解析中持续出现。特别感Andrew Gillies、Rich Falk-Wallace和Ricky Li,他们的阅读建议和讨论是这一部分的重要灵感来源。我对于无矩阵乘法语言模型的发展持乐观态度,因为Scalable MatMul-free Language Modeling(https://arxiv.org/abs/2406.02528)这篇论文给出的结果非常出色。例如,无矩阵乘法语言模型的计算效率非常高。

2024-08-20 10:24:18 529

原创 Transformer的细节到底是怎么样的?Transformer 18问!

有两点原因:第一,Transformer是既MLP、RNN、CNN之后的第四大特征提取器,也被称为第四大基础模型;最近爆火的chatGPT,其最底层原理也是Transformer,Transformer的重要性可见一斑。第二,希望通过问问题这种方式,更好的帮助大家理解Transformer的内容和原理。

2024-08-19 10:13:56 575

原创 实现自己的简单Transformer模型

自然语言处理(NLP)是计算机科学和人工智能领域的一个重要分支,旨在让计算机理解和生成人类自然语言。在过去的几年中,深度学习技术在NLP领域取得了显著的进展,尤其是在自然语言翻译、文本摘要、情感分析等任务上。Transformer模型是OpenAI在2017年发表的一篇论文中提出的,它是一种基于自注意力机制的神经网络架构。自注意力机制允许模型在不同时间步骤上同时处理输入序列中的所有元素,从而有效地捕捉序列之间的长距离依赖关系。

2024-08-19 10:08:40 596

原创 多模态大模型的实现原理,以及技术难点

多模态大模型是目前大模型厂商主要的研究方向,其实现过程困难且复杂;虽然具有很多优势,但同样也具有很多的问题。比如对计算资源的需求要远大于单模型的需求,其次多模态数据的对齐与标注同样是一个难题,最后就是跨模态的理解与生成,仍然是一个研究热点。​。

2024-08-17 10:30:00 775

原创 前沿研究:多模态大模型复杂驾驶场景理解能力及未来改进空间

随着本文对Dolphins的探索接近尾声,这款旨在提升自动驾驶车辆(AVs)的新型视觉语言模型展示了其在复杂驾驶场景中进行整体理解和类人推理的显著能力,标志着自动驾驶技术领域的一大进步。通过利用多模态输入和创新的 Grounded Chain of Thought, GCoT 过程,Dolphins展现了其作为对话式驾驶助手的高超能力,能够以更高的解释能力和快速适应能力应对广泛的自动驾驶任务。尽管本文已经取得了显著进展,但未来仍面临诸多挑战。

2024-08-16 10:17:03 282

原创 腾讯优图开源多模态大模型VITA : GPT-4o的简易平替!

LLM指令微调、多模态对齐和多模态指令微调。

2024-08-16 10:14:55 672

原创 搭建一个适合企业和个人私有化部署使用的WIKI知识库管理系统

zyplayer-doc是一款适合企业和个人使用的WIKI知识库管理工具,提供在线化的知识库管理功能,专为私有化部署而设计,最大程度上保证企业或个人的数据安全,可以完全以内网的方式来部署使用它。您也可以将其作为企业产品的说明文档来使用,支持一键将整个空间的内容开放到互联网,提供有不同风格的开放文档页样式可供选择,以及适配了在手机端、小程序中文档的展示,省去为产品的说明文档而定制开发系统的成本。

2024-08-15 10:30:01 619

原创 10分钟私有化部署大模型到本地

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。如果你有很强的GPU,完全可以拉取更大的模型部署,效果更好。对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。至此,你的电脑里已经有了一个本地大模型了,你也可以拉取其它更大的模型来提升模型效果。

2024-08-15 10:28:17 887

原创 【AI Agent教程】各种Agent开发框架都是如何实现ReAct思想的?深入源码学习一下

在AI Agent中,ReAct(Reasoning and Acting)是一种设计思想,它强调在执行任务时结合推理(Reasoning)和行动(Acting)两个方面。\1.理解上下文:Agent首先需要理解它所处的环境和任务的上下文,这可能包括理解自然语言的指令、感知环境状态或识别问题的本质。\2.推理:基于理解的上下文,Agent进行逻辑推理,以确定最佳的行动方案。这可能包括规划、决策制定、问题解决或预测可能的结果。\3.规划。

2024-08-14 10:04:26 784

原创 Llama3 中文通用Agent微调模型来啦!(附手把手微调实战教程)

Llama3模型在4月18日公布后,国内开发者对Llama3模型进行了很多训练和适配,除了中文纯文本模型外,多模态版本也陆续在发布中。考虑到国内用户对Agent场景的需求,魔搭社区LLM&AIGC模型微调推理框架SWIFT基于Llama3-8b-instruct原始版本训练了。

2024-08-14 09:55:12 1109

原创 北大团队研发Agent框架,挑战真实编程场景,重塑大模型代码生成能力

自 GPT-3 问世以来,大模型技术蓬勃发展,表现出强大的文本生成能力。在软件工程领域,大模型也同样影响着自动化代码生成这一终极课题。为了提升大模型在真实编程场景下的能力,北京大学教授和教授团队提出了一种基于 Agent 的项目级别代码生成框架。该方法允许大模型调用多种精心设计的辅助工具,通过大模型和各种工具的交互,自主完成项目级别代码生成的全流程。

2024-08-14 09:50:36 245

原创 本地大模型部署和基于RAG方案的私有知识库搭建

以上就是本地大模型部署和基于RAG方案的私有知识库搭建的基本操作。除此之外,还有更多丰富有趣的功能等待探索。如今大模型遍布各行各业、各个领域,基于RAG方案的私有知识库技术也逐渐发展,成为提升个人工作效率与创造潜能的新风尚。本地部署模型意味着用户能在自己的设备上享受即时响应的智能辅助,无需依赖云端,既保护了个人数据隐私,又确保了操作的低延迟与高可靠性。结合RAG方案的私有知识库,则让每位用户能够构建专属自己的知识宇宙。

2024-08-13 10:29:48 1166

原创 人人都可以创建个人知识库 | 从0到1,手把手教你基于 FastGPT 搭建本地私有化知识库!

知识库搭建完成之后就可以转到工作台栏进行应用的创建了,一共是提供了四种类型的应用可供我们选择,只需根据自己的需要选择合适的应用即可,图欧君在这里选择了简易应用做个示范。接下来,右键点击页面,选择 “保存为”,将其保存到您的计算机上。作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。通过对比不难看出,FastGPT这波回答的还是不错的,将原本的内容进行梳理整合之后重新输出,能够更加直观地找到解决问题的答案。

2024-08-13 10:27:21 1003

原创 实战1年半,我总结的大模型在企业落地的三个策略

关于大模型产品在省侧落地应用和AI人才发展的意见和建议,作者共以下三个建议,主要是在做大模型过程中的一些反思。以下为作者原文去年以来我们做了不少大模型,例如ChatBI,ChatOA等,但都不能算成功。然而,在个别场景中,如公文核稿方面,还是取得了一定进展,这主要得益于业务部门的主动推动。目前,靠IT部门独立去推动大模型研发、建设和应用,难度还是很大的,而且不少工作非IT所长。

2024-08-12 10:34:37 559

原创 工业机器人如何利用大模型提升故障检测效率

在高度自动化的生产线上,工业机器人的稳定运行是保证生产效率的关键。然而,由于工业机器人应用场景的多样性和复杂性,故障检测面临着诸多挑战。首先,工业机器人系统复杂度高,涉及多个子系统和零部件,故障类型多样,对检测系统的准确性要求极高。其次,工业生产对实时性要求高,故障检测需要迅速响应,以减少停机时间。最后,由于机器人操作人员的技术水平参差不齐,故障检测系统需要具备良好的易用性,便于操作和维护。针对这些挑战,

2024-08-12 10:30:47 737

原创 【AI大模型实践教程】如何利用大模型简化开发过程提高开发效率?

史蒂夫・乔布斯曾经把计算机称作 “心灵之自行车”。不过,人们对他这个比喻的背景知之甚少,他是在谈及地球上所有物种移动效率的时候提到的。由 DALL·E 3 生成的图片,提示 “将计算机想象成心灵的自行车”秃鹫赢了,位居榜首,超过了其他所有物种。人类排在榜单大约三分之一的位置…… 但是,一旦人类骑上自行车,就能远远超越秃鹫,登顶榜首。这让我深受启发,人类是工具制造者,我们可以制造出将这些固有能力放大到惊人程度的工具。对我来说,计算机一直是思维的自行车,它让我们远远超越了固有的能力。

2024-08-12 10:28:41 1179

原创 如何构建Embedding?如何构建一个智能文档查询助手?

OpenAI的文本嵌入度量了文本字符串之间的相关性。嵌入通常用于以下方面:•搜索(结果按与查询字符串的相关性进行排序)•聚类(根据相似性将文本字符串分组)•推荐(推荐与文本字符串相关的项目)•异常检测(识别与相关性较低的异常值)•多样性测量(分析相似性分布)•分类(根据最相似的标签对文本字符串进行分类)嵌入是一个浮点数(列表)的向量。两个向量之间的距离度量了它们的相关性。小的距离表示高相关性,而大的距离表示低相关性。访问我们的定价页面[3]了解嵌入的定价信息。

2024-08-11 09:45:00 722

原创 使用基于Embedding的搜索来实现问答

导入必要的库;选择Embedding搜索和问答的模型。

2024-08-10 10:19:29 969

原创 开发RAG应用,你必须知道的7个Embedding模型

在自然语言处理(NLP)领域,Embedding模型是将文本数据转化为数值向量的核心技术,从而让计算机能够便捷地衡量文本间的语义关联,这种表示法已成为多种基础NLP任务的核心,如文本相似度判定、语义搜索、信息检索、文本重新排序、聚类以及作为下游任务的特征输入。

2024-08-10 10:12:35 932

原创 在微调时保存 embeddings 演变过程,并以动画演示

在机器学习领域,视觉变换器(Vision Transformers,ViT)是一种用于图像分类的模型类型。与传统的卷积神经网络不同,ViT使用了最初设计用于自然语言处理任务的变换器架构来处理图像。对这些模型进行微调以获得最佳性能可能是一个复杂的过程。在先前的一篇文章中,我使用动画来演示在微调过程中embedding发生的变化。这是通过对embedding执行主成分分析(PCA)来实现的。这些embedding是从微调的各个阶段生成的模型和它们对应的检查点中获取的。

2024-08-10 10:10:34 1092

原创 【Llama3:8b】手把手教你如何在本地部署 自己的 AI 大模型 (◍•ᴗ•◍)

我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。方案二:手动安装,自由灵活。

2024-08-09 09:50:56 1093

原创 GPT大模型不再遥不可及:本地化部署让每个人都能拥有自己的大模型

RWKV是一个开源且允许商用的大语言模型,灵活性很高且极具发展潜力。这个工具旨在降低大语言模型的使用门槛,做到人人可用,工具提供了全自动化的依赖和模型管理,你只需要直接点击运行,跟随引导,即可完成本地大语言模型的部署,工具本身体积极小,只需要一个exe即可完成一键部署。此外,本工具提供了与OpenAI API完全兼容的接口,这意味着你可以把任意ChatGPT客户端用作RWKV的客户端,实现能力拓展,而不局限于聊天。2.2。

2024-08-09 09:49:02 927

原创 燃爆了!吴恩达+OpenAI合作出了大模型课程!重磅推出《LLM CookBook》中文版,值得一看!

吴恩达老师与OpenAI合作推出的大模型系列教程,从开发者在大型模型时代的必备技能出发,深入浅出地介绍了这些教程非常适合开发者学习,以便开始基于LLM实际构建应用程序。Datawhale将该系列课程翻译为中文,并复现了范例代码,其中一个视频还增加了中文字幕,以支持国内中文学习者直接使用,帮助他们更好地学习LLM开发。

2024-08-09 09:44:26 214

原创 LangChain 0.1 和 0.2 Model区别

LangChain 0.1 和 0.2 模块中的 LLM、Chat 和 Embedding 类有一些重要的变化。__call__generateinvokegenerateBaseLLMstreamChatModel__call__generateChatModelinvokegeneratestreamEmbeddingsEmbeddingsinvoke__call__BaseLLM这些变化反映了 LangChain 框架的不断演进,旨在提供更一致、更易用、功能更强大的 API。

2024-08-08 10:05:09 549

原创 Langchain里的提示词模版几个常见类

我们来介绍一下LangChain 0.2版本中的这些提示词模板类,并给出它们的使用方法和示例。我们将使用Ollama中的Qwen2模型作为示例。PromptTemplate是最基本的提示词模板,用于创建包含变量的模板字符串。PartialPromptTemplate允许你部分填充模板,留下一些变量供后续填充。注意:LangChain 0.2版本中,可能已经被移除或者重命名了。我们可以使用的partial方法来实现部分填充模板的功能。

2024-08-08 10:04:15 518

原创 去年爆火的人大大模型综述,如今出书了(附PDF)

LLMBox 是一个全面的代码工具库,专门用于开发和实现大语言模型,其基于统一化的训练流程和全面的模型评估框架。LLMBox 旨在成为训练和利用大语言模型的一站式解决方案,其内部集成了大量实用的功能,实现了训练和利用阶段高度的灵活性和效率。\3. 在 2023 年 12 月底,为更好地提供大模型技术的中文参考资料,团队启动了中文书的编写工作,并且于 2024 年 4 月 15 日左右完成初稿。希望通过阅读本书,大家能够深入了解大模型技术的现状和未来趋势,为自己的研究和实践提供指导和启发。

2024-08-08 10:02:33 862

原创 熬了一晚上,我从零实现了 Transformer 模型,把代码讲给你听

自从彻底搞懂机制之后,笔者对模型的理解直接从地下一层上升到大气层,瞬间打通任督二脉。夜夜入睡之前,那句柔情百转的"Attention is all you need"时常在耳畔环绕,情到深处不禁拍床叫好。于是在肾上腺素的驱使下,笔者熬了一个晚上,终于实现了模型。对于机制一知半解的读者,强烈推荐我的上一篇文章,没有繁复的公式,将的本质思想讲给你听。关于的理论讲解,请参考这篇文章。

2024-08-07 10:52:44 792

原创 Transformer 的最简洁 pytorch 实现,附代码

本文是参考了如下代码后对Transformer进行的尽量简洁实现,适合初学者把握模型核心要点完整代码已发布在github上(包含jupyter实现、.py实现、本文绘制的图还有训练好的模型等),欢迎star:https://github.com/BoXiaolei/MyTransformer_pytorch。

2024-08-07 09:30:00 1186

原创 LLM 技术教程—— 大语言模型在 NLP 任务中的应用

了解如何使用大型语言模型执行各种自然语言处理任务,例如文本分类、情感分析、机器翻译等欢迎参加这个关于自然语言处理(NLP)任务中使用大语言模型的教程。大语言模型是一种人工神经网络,它能够学习并生成自然语言文本。这类模型包含了成百上千万或甚至数十亿的参数,这些参数是通过在大量文本数据上进行训练得到的,这些文本数据包括书籍、文章、网页内容、社交媒体帖子等。大语言模型能够把握自然语言的统计规律和语义关系,利用这些信息生成连贯流畅的文本。

2024-08-06 10:08:30 1053

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除