自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(912)
  • 收藏
  • 关注

原创 【AI_agent】从零写一个agent框架(三)实现几个示例中的service:llm,tool等

上一篇文章里我们实现了一个基本的运行时,能够将service按照plan执行起来,本文我们尝试实现一些基本节点,最终运行一个最简单的agent。代码仓库。

2024-07-26 10:31:03 705

原创 【AI_agent】从零写一个agent框架(二)如何让一个workflow/agent跑起来,runtime模块设计

上篇文章我们大致演示了一下ai_agent的食用方法。这里我们做一下核心模块runtime的设计和实现。一个agent也好,workflow也好,他们单个实现起来并不复杂,困难的是如何将他们有机的组合起来,能够按照一定的逻辑流转起来。并且能够层层嵌套,能力无限。现实中应用肯定不局限于这几种情况,但通过一定的流程编辑基本都可以解决,只是复杂性会比较高。

2024-07-26 10:28:08 201

原创 【AI_agent】从零写一个agent框架(一)打造最强开放agent编辑框架,拳打dify,脚踩coze

之前我们讲过了想将LLM能力在具体的应用中实践,最好的方法是做成一个agent。本系列我们就从零写一个agent框架,方便我们构造和运行agent。

2024-07-26 10:27:02 578

原创 让AI给你写代码—— 应用Agent,理解Agent,走进现实世界

下一步的改进,应该是要解决几个问题,1 能否实现,先测试后存盘,即依据测试正确结果保存代码 2 进一步,输入现有的代码,在此基础上按新的需求进行修改,再测试,再存盘 3 更进一步,如何利用现有代码资产实现需求,如果现有代码不能满足需求,再生成新的代码 …该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。天道酬勤,你越努力,就会成为越优秀的自己。

2024-07-25 10:50:46 554

原创 终于搞懂Agent、RAG、LangChain的关系了!

我们经常能听到某个大模型应用了 Agent技术、RAG技术、LangChain技术,它们似乎都和知识库、检索有关,那么这三者具体指什么,相互有什么关系呢,今天来介绍一下Agent指的是具有一定智能和自主行为能力的实体,它可以做出规划、调用工具、执行动作。它利用内置的大语言模型来做出规划,决定执行哪些步骤,每个步骤需要调用哪些工具(如 RAG),之后调用相应的工具,最终完成任务。RAG用于提升大模型回答问题的准确性。

2024-07-25 10:27:43 628

原创 聊一聊国内大模型公司,大模型面试心得、经验、感受(附答案)

这段时间面试了很多家,也学到了超级多东西。楼主这边背景是做基座预训练算法端为主的,对框架端和RL的内容有一定了解(面试能凑合),对于后端的知识比如ML compiler,kernel,cuda相关的了解就比较浅了(问到觉大概率挂)。硬件几乎不太懂。感觉一圈聊下来几点感悟:大模型这方向真的卷,面试时好多新模型,新paper疯狂出,东西出的比我读的快。Research岗位对工程也有要求,工程端也需要了解模型。感觉比较硬核的岗位,尤其初创公司都是对好几个点都有要求的(应用,模型,框架,底层后端,硬件)。

2024-07-24 10:26:09 798

原创 为什么有这么多人都想转AI产品经理?产品经理升职加薪指南(高年薪)

AI大模型,又称大规模预训练模型,是指那些具有超大规模参数量和复杂结构的人工智能模型。这些模型通常包含数百万至数百亿个参数,通过深度学习技术,特别是 Transformer 等先进架构,在大规模数据集上进行训练。它们可以从数据中学习并提取复杂的模式和规律,展现出了卓越的泛化能力,即在未见过的任务或数据上也能有良好的表现。AI大模型的兴起标志着人工智能进入了一个新的发展阶段,它不仅推动了基础研究的进步,也在加速产业智能化升级,为各行业带来了革新性的应用和服务。

2024-07-24 10:16:23 1003

原创 从零开始打造更强的私有GPT大模型- RAG教程

众所周知,大模型基于海量的数据来训练,它具备非常强大的智能,能够回答各种问题。但是我们在使用过程中发现,通用大模型在某些专业领域能力还不够强,很多领域相关问题很难回答得上来。通常,预训练(pre-train)的大模型只懂得它训练时用的数据,对于训练集之外的新信息(比如网络搜索新数据或特定行业的知识)就不太清楚。那么怎么构建一个私有的GPT大模型呢?方法有很多种,包括 1. 重新训练私有领域数据的大模型,2. 基于已有大模型做专有数据的微调(FineTuning) 3. 通过RAG技术,优化大模型基础能力。

2024-07-23 10:16:52 922

原创 “具身智能小镇”来了!机器人逛超市买菜满街跑,AI充当NPC,来自上海AI Lab

超逼真的机器人小镇来了!在这里,机器人可以像人一样在超市里购物:买菜回家做饭:在办公室里接咖啡(旁边还有人类同事):不只有人形机器人,机器狗、臂式机器人也在这个“城市”里穿梭自如。(中文名:桃源)。在这里,由多达个交互式、带精细注释的场景自由组合成逼真城市环境。包含室内室外,餐厅、超市、办公室、家庭等不同场景类别。,可以在这个世界里和机器人对话交互。这样一来,各种机器人能在虚拟小镇里完成各种行为模拟,也就是最近流行的Sim2Real路线,能大幅降低具身智能现实世界数据收集难度和成本。

2024-07-23 10:08:32 561

原创 让大模型性能超群的18种指令调优方法【附模型源码】

一种针对大型语言模型(LLMs)的训练方法,。该方法的核心目标是使LLM具备遵循自然语言指令并完成现实世界任务的能力。它弥补了LLM的下一个单词预测目标与用户让LLM遵循人类指令的目标之间的差距,约束了模型的输出,使其符合预期的响应特征或领域知识。随着计算机技术的发展,指令调优在一些需要执行特定任务的场景上,如机器翻译、问答系统等,都有着广泛的应用前景。为帮助大家理解并掌握IT,学姐这次整理了,包含两个方向。

2024-07-22 10:34:29 926

原创 【大模型教程】用大模型做数据分析,可视化,仅需一键

最近在外面冲浪看到@eviljer分享了一步到位做数据分析的玩法。我复刻后试了一下,确实很爽只需要塞进去 excel,告诉它分析哪些指标,自动生成代码,自动执行,输出可视化图表。原文使用 DeepSeek 官方 API,我冲了 1 元钱,跑一次只需要花费 1 分钱如果一分钱都不想花呢?我注册了 siliconflow,免费赠送 14 元(即约 2000 万 Qwen1.5-14B 模型 tokens,或 500 张图片),够用1400次起步了!它不但完美支持OpenAI API。

2024-07-22 10:17:50 907

原创 如何优雅地训练大型模型?

本文介绍了从速度和内存去优化模型训练的几种方式,实践中各种都是可以混合起来的,比如混合精度+数据并行、数据并行+模型并行、数据并行+梯度检查点等。DeepSpeed里基本涵盖了本文所讲的策略,用pytorch的同学可以安排起来了~最后,在介绍各种策略的时候,由于篇幅原因也有省略一些假设和最终效果,感兴趣的同学们可以深入研读参考资料里的内容~如果路过的大佬们发现哪里有错误烦请指出~​。

2024-07-21 09:00:00 832

原创 一文详解大语言模型的流行架构与训练技术

这篇博客全面介绍了大型语言模型(LLMs)的构建流程,从流行架构的选择到实际建模的每个关键步骤。文章首先探讨了LLMs的模型架构,然后详细阐述了数据准备过程,包括数据的收集、清洗和去重,接着是关于如何进行有效标记化的讨论。在模型构建方面,博客详细解释了采用自监督学习方法的预训练过程,以及对模型进行指令微调和对齐的重要性。每个环节都被细致地讲解,使读者能够深入理解LLMs的构建和优化过程。这篇博客为那些对LLMs工作方式感兴趣的读者提供了一个指导。

2024-07-20 10:00:00 695

原创 陈丹琦团队揭Transformer内部原理:另辟蹊径,从构建初代聊天机器人入手

好家伙!为了揭秘Transformer内部工作原理,陈丹琦团队直接——ELIZA。ELIZA编写于,主要用于心理治疗,在当时似乎已经能“听懂”人说话。比如下面这个例子:可以看出,ELIZA的对话方式“有点狡猾”,像极了看似认真实则敷衍的好闺蜜好兄弟~由于表现出了早期语言模型行为,且,团队通过成功“复现”ELIZA揭开了Transformer的神秘面纱。更多详情接下来一睹为快。

2024-07-19 11:15:00 518

原创 三分钟让你快速拥有专属AI大模型

软件介绍Ollama 是一款为本地环境设计的轻量级、可扩展框架,专门用于构建和运行大型语言模型(LLMs)。它不仅仅是一个运行时环境,而是一个完整的生态系统,涵盖了模型创建、运行和管理的各个环节。Ollama 的推出,开启了在本地机器上部署和操作复杂 AI 模型的新篇章。软件安装进入ollama官网(公众号发送102获取),然后点击Download按钮之后根据自己的电脑系统选择相应的版本下载完成后打开OllamaSetup.exe,点击Install开始安装,稍等片刻即可安装完成。

2024-07-19 10:55:33 993

原创 独家 | 开始使用LangChain:帮助你构建LLM驱动应用的新手教程

自从ChatGPT发布以来,大型语言模型 (LLMs) 已经获得了很大的普及。尽管你可能没有足够的资金和计算资源在你的地下室从头开始训练一个LLM,但你仍然可以使用预先训练的LLMs来构建一些很酷的东西,例如:凭借其怪异的api和快速的工程设计,LLMs正在改变我们构建人工智能产品的方式。这就是为什么新的开发工具在 “LLMOpS” 一词下随处可见,其中一个新工具是LangChain(https://github.com/hwchase17/langchain)。什么是LangChain?LangChain

2024-07-19 10:54:44 918

原创 chatGPT的Embedding最佳实践:创建自己的知识库,实现类似AI客服功能

随着OpenAI将切换到这个版本,也就是token价格和之前一样,但是长度成了16K,足足是之前的四倍,那么embedding这种方式才有可能派上用场。之前的4k,还不够塞牙缝!当然如果你是很差钱,直接使用(也就是) 这个模型更爽,长度可达128K,尽管返回最长是4096,对于大部分场景已经足够。

2024-07-19 10:45:00 821

原创 手摸手教你训练嵌入式模型(embedding)

同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。直接到文生图,点击“显示/隐藏模型"的按钮,在嵌入式模型中找到我们的”negan_first“模型,直接点击,然后加上对应的提示词,就可以生成图片了。分数阈值如果开的越低,那么保留的图片原始细节越多,反之这个参数开的越高,过滤掉的标签越高训练的模型保持的细节也就越少。

2024-07-19 09:30:00 458

原创 宝箱配钥匙:走进吴恩达系列的prompt!

最近关注到的吴恩达系列让我受益匪浅,学到了里面的,讲解如何有效地构造和优化问题(prompts)以引导大型语言模型(LLMs)产生高质量、目标导向的响应。在这里梳理思路,展示出prompt的魅力。

2024-07-18 10:42:21 373

原创 如何让“ChatGPT自己写出好的Prompt的“脚本在这里!

如何让ChatGPT自动确认扮演角色并自动生成出优秀的Prompt呢?本片通过一个优秀的脚本, 作为系统消息. 解决了这个问题.自动匹配角色主动询问信息自动生成Prompt生成结果怎么样, 是不是有些心动了?心动了, 可以一键三连后, 去试试这个脚本吧, 有什么反馈, 评论区告诉我哦.

2024-07-18 10:39:36 1141

原创 我用下来最舒服的国内LLM,配置微信机器人方法手把手教学!

QwenMax是我一直推崇的国内LLM,今天介绍下它怎么在Cow(Chatgpt-on-wechat)项目中配置。接下来,我们去寻找以上所需要的Key,Qwen强的LLM都是1,000,000 tokens限时免费使用额度,有效期 30 天,且应用只支持Qwen_Max,今儿我就告大家这个Key怎么获取。想当初,我在使用的时候,不夸张,找了整整2天2夜。确实很绕,估计大家自己都找不着。需要结合灵积和百炼两个业务系统寻找所需要的配置。已和阿里人员进行了反馈,希望能尽快调整。

2024-07-17 10:27:29 283

原创 使用LLM开展自动化程序修复

因此,

2024-07-17 10:26:54 960

原创 LLM 的幻觉到底是什么,如何解决?

LLM 时常会出现一些神奇的现象 ——幻觉 Hallucination,在 AI 领域,幻觉是指模型生成的信息可能不真实或不准确,这是一个常见的问题,而 Truthfulness 指的是模型输出的真实性或者叫可靠性,显然如果模型输出的真实性越高,那么出现幻觉的概率就是越低的。下面展示了 LLM 常见的几个衡量指标,今天我们主要来关注一下可靠性中的幻觉• 可靠性• Misinformation 错误信息• Hallucination 幻觉• Inconsistency 矛盾。

2024-07-16 11:00:03 1080

原创 万字长文解读LLM幻觉:从理解到克服

人会有幻觉,大型语言模型也会有幻觉。近日,OpenAI 安全系统团队负责人 Lilian Weng 更新了博客,介绍了近年来在理解、检测和克服 LLM 幻觉方面的诸多研究成果。Lilian Weng,中文名翁丽莲,是 OpenAI 安全系统团队负责人。她 2018 年加入 OpenAI,参与了 GPT-4 项目的预训练、强化学习 & 对齐、模型安全等方面的工作。她的博客深入、细致,具有前瞻性,被很多 AI 研究者视为重要的参考资料(其他博客见文末扩展阅读)。

2024-07-16 10:56:43 360

原创 下一位投资顾问未必是人类:大模型在金融投资领域的应用

通用领域的大型语言模型(LLM)如GPT系列、Llama系列和BERT,在许多自然语言处理任务中表现优异,这激发了针对金融领域的专用LLM的开发。这些专门模型通过大量金融数据的训练,提升了它们在理解和生成金融相关内容方面的能力。在金融LLM中,

2024-07-15 11:40:42 765

原创 【大模型技术教程】零基础,零成本,部署一个属于你的大模型

看了那么多chatGPT的文章,作为一名不精通算法的开发,也对大模型心痒痒。但想要部署自己的大模型,且不说没有算法相关的经验了,光是大模型占用的算力资源,手头的个人电脑其实也很难独立部署。就算使用算法压缩后的大模型,部署在个人电脑上,还要忍受极端缓慢的计算速度以及与chatGPT相差甚远的模型效果。有什么办法能够部署属于我们自己的大模型呢?有编程基础:作为一个合格的程序员,这应该是必备素质。

2024-07-15 11:32:19 947

原创 《面向普通人的prompt操作手册》-高级篇

Zero-Shot Prompting 是一种自然语言处理技术,可以让计算机模型根据提示或指令进行任务处理。各位常用的 文心一言 就用到这个技术。传统的自然语言处理技术通常需要在大量标注数据上进行有监督的训练,以便模型可以对特定任务或领域进行准确的预测或生成输出。相比之下,Zero-Shot Prompting 的方法更为灵活和通用,因为它不需要针对每个新任务或领域都进行专门的训练。相反,它通过使用预先训练的语言模型和一些示例或提示,来帮助模型进行推理和生成输出。

2024-07-13 10:43:27 756

原创 《面向普通人的prompt操作手册》-基础篇

解释这个词之前,首先需要解释 prompt 这个词。简单的理解它是给 AI 模型的指令。它可以是一个问题、一段文字描述,甚至可以是带有一堆参数的文字描述。AI 模型会基于 prompt 所提供的信息,生成对应的文本,亦或者图片。比如我在文心一言里输入 ,这个问题就是Prompt。而 Prompt Engineering (中文意思为提示工程,后缩写为 PE)则是:

2024-07-13 10:41:48 691

原创 大模型应用商业化落地关键:给企业带来真实的业务价值

2024 年被很多人称为大模型应用的元年,毫无疑问,大模型已经成为共识,下一步更急迫的问题也摆在了大家的面前——大模型到底能够用在哪?有哪些场景能落地?怎么做才能创造真正的价值?在刚刚过去的 AICon 全球人工智能开发与应用大会上,InfoQ 采访了在大模型应用领域的领跑企业数势科技创始人兼 CEO 黎科峰博士,交流大模型商业化落地的可行性路径,为行业提供启发。1大模型在 ToB 领域蕴藏巨大机遇,企业出海或将成为落地加速器当前,许多传统企业对于如何将大模型技术整合到现有业务中感到迷茫。

2024-07-12 11:21:19 761

原创 大模型权威测试被曝翻车!更偏袒GPT-4等闭源模型,连提示词都区别对待

大模型权威测试,翻车了?!HuggingFace都在用的,被扒出评测方法更偏向闭源模型,被网友直接在GitHub Issue提出质疑。此前早已经被各家大模型刷爆了,谁考都是高分,。号称更强大、更具挑战线性多任务语言基准MMLU-Pro,成了业界对大模型性能的重要参考。但结果没想到的是,现在有人扒出其在等方面设置不公平,存在一些令人震惊的差异。随便对系统提示词做了个小修改,直接将开源阵营的Llama-3-8b-q8的性能提高了10分?!emmm……就问大模型跑分到底还能不能信了?

2024-07-12 11:20:05 650

原创 重磅:2024大模型典型示范应用案例集,精选99个,纵览最新最全产业应用实践!(附PDF)

本文汇总了2024年大模型技术在不同行业中的应用案例,展示了大模型技术如何赋能行业创新和智能化转型。摘要大模型技术概述:介绍了大模型技术的概念及其在各行业中的应用潜力。行业赋能:案例集覆盖了医疗、金融、教育、政务等多个行业,展示了大模型技术如何助力行业提升效率和创新能力。智能应用:包括AI智能采编系统、智算操作系统、云端联动的大模型等,突出了大模型技术在智能应用中的实际效果。生态服务:探讨了大模型技术在构建行业生态、提供服务创新方面的应用。技术创新与应用。

2024-07-12 11:16:56 500

原创 RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架

在需要大量事实知识的文本生成任务中,RAG成为了常用的LLM部署技巧。但佐治亚理工学院和英伟达最近发表的一篇论文提出——RAG可以不止停留在用于推理的pipeline中,类似的思路完全可以移植到微调阶段,于是有了这个名为RankRAG的框架。论文地址:https://arxiv.org/abs/2407.02485他们的思路可以概括为:用微调拓展模型的能力,把原来RAG需要额外模型的检索、排名任务全丢回给LLM自己。

2024-07-11 10:34:28 369

原创 大模型LangChain的框架基础和使用示例

提供了大量预置。

2024-07-11 10:29:39 886

原创 使用检索增强生成 + LangChain 实现代码生成

作者结合了预训练的参数(在seq2seq模型上预训练的隐式知识库)和非参数内存(维基百科的密集向量索引)进行语言生成。这种密集的向量(嵌入)通过神经检索器访问,为经过训练的 seq2seq 神经网络提供补充信息。这个想法很简单:对预训练模型进行反向传播,以学习有关其自身知识库的权重。如果经过微调,则针对特定领域知识对其进行了培训。RAG 通过检索到这个预训练/微调模型来提供额外的信息,作为嵌入(文档的)集合,从中根据用户提示检索前 K 个最佳选项,作为 LLM 回答提示的上下文。

2024-07-11 10:27:53 1086

原创 langchain入门(一分钟搞定对话机器人)

随着aigc的火热,各大厂商开始提供他们自己的api服务,诸如openai、google、等,还有的直接开源出自己的模型,放到Huggingface提供使用,而LangChain就是一个基于语言模型开发应用程序的框架,它可以很方便的去调用不同公司的api,以及huggingface的资源,为人们提供统一的开发标准,降低开发难度。

2024-07-11 10:23:43 422

原创 如何部署私有化大模型+知识库+问答+客服

随着各个大模型厂商的逐步发力,市场上的优秀模型越来越多。Dify基于这些大模型可以简易地创建可持续运营的原生 AI 应用,融合了 Backend as Service 和 LLMOps 的理念,涵盖了构建生成式 AI 原生应用所需的核心技术栈,包括一个内置 RAG 引擎,平台不仅支持十几种大模型的接入,同时提供多种类型应用的可视化编排能力,开箱即用只需十分钟即可轻松在本地服务器上部署。Features。

2024-07-10 11:55:32 680

原创 私有化部署ChatGPT:潜力与挑战

在2023年初的AI大爆发时期,ChatGPT的广泛应用极大地降低了人们使用AI的门槛。AI的民主化浪潮正在全球范围内兴起,使得普通人与经验丰富的专业人员在知识上的差距被大大缩小。在这场浪潮中,微软投资的OpenAI占据了先机,而其他国内外厂商也在紧随其后,你追我赶,频繁发布重量级AI产品。这个时刻被许多人形象地称为AI的"iPhone时刻",有人甚至认为,此轮技术更新带来的影响将超越当年Windows的发布。

2024-07-10 11:52:48 1351

原创 产品经理:私有化部署,是什么?

产品经理的工作分为前端、B端产品经理。前端产品经理以客户端、小程序、H5、PC等产品形态,以用户操作、用户体验为导向做产品设计。而B端产品经理做的90%工作,都会以一个产品形态:SaaS的方式呈现服务。市面上你看到的数据分析工具、推送、云服务集成工具,都是SaaS服务。SaaS服务即为软件即服务,产品上用户只需要一个手机号、邮箱、微信就可以注册一个B端产品的ID,使用软件服务,无需要管其他事情。后台产品经理除了SaaS自身的业务,还要考虑B端产品的商业化策略,而对私有化部署、和公有云的优劣势的熟悉层度就非常

2024-07-10 10:39:33 776

原创 吴恩达LangChain教程:Embedding与文档解析

想要依据Embedding实现文本检索,需要引入如下的依赖。其中,RetrievalQA的作用是对一些文档进行检索,CSVLoader将用于加载一些我们与LLM结合的以CSV格式存在的专有数据,DocArrayInMemorySearch是一种向量存储,也是一种内存中的向量存储,不需要连接到任何外部数据库。案例中提供了一个户外服装数据的CSV,使用CSVLoader实现数据加载。然后引入VectorstoreIndexCreator实现简单的创建向量存储的能力。创建代码如下:

2024-07-09 10:43:22 1191

原创 一文讲解大模型的 Embedding 模型该如何进行微调?

本文重点介绍了如何使用 Sentence Transformers 对开源的Embedding模型进行微调,并验证Embedding模型微调后的效果。Sentence Transformers 是一个宝库,它介绍了关于Embedding模型方方面面的内容,是了解、深入Embedding模型必不可少的工具。后续笔者将会介绍Embedding模型量化、俄罗斯套娃嵌入模型(Matryoshka Representation Learning, MRL)等相关方面的内容。

2024-07-09 10:38:10 646

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除