LLM-Large Language Models
文章平均质量分 89
AI架构师易筋
工作10+年,AI方向架构师,曾经任职阿里巴巴,世界500强HSBC。擅长大模型LLM原理、架构、深度学习、Transformer、算法、数据结构、设计模式。易筋乃阿里巴巴花名。
展开
-
翻译: 详细图解Transformer多头自注意力机制 Attention Is All You Need
它们是用于计算和思考注意力的抽象概念。一旦你继续阅读下面的注意力是如何计算的,你就会知道几乎所有你需要知道的关于每个向量所扮演的角色。计算self-attention的第二步是计算一个分数。假设我们正在计算本例中第一个单词“Thinking”的自注意力。我们需要根据这个词对输入句子的每个词进行评分。当我们在某个位置对单词进行编码时,分数决定了对输入句子其他部分的关注程度。分数是通过查询向量与我们正在评分的各个单词的关键向量的点积来计算的。因此,如果我们正在处理位置#1中单词的自注意力,第一个分数将是q。原创 2022-09-02 07:35:34 · 55097 阅读 · 8 评论 -
翻译: 可视化深度学习反向传播原理二
顺便一提 这有一点点像描述生物中 神经元的网络如何学习的一个理论 “赫布理论” 总结起来就是“一同激活的神经元关联在一起”这里 权重的最大增长 即连接变得更强的部分 就会发生在已经最活跃的神经元 和想要更多激发的神经元之间 可以说 看见一个“2”时激发的神经元 会和“想到一个2”时激发的神经元联系地更紧密这里解释一下 我个人对人工神经网络是否真的在 模仿生物学上大脑的工作 没有什么发言权 “一同激活的神经元关联在一起”这句话是要打星号注释的 但作为一个粗略的对照 我觉得还是挺有意思的。原创 2024-08-04 18:16:40 · 566 阅读 · 0 评论 -
翻译: 可视化深度学习反向传播原理一
本期我们来讲反向传播 也就是神经网络学习的核心算法 稍微回顾一下我们之前讲到哪里之后首先我要撇开公式不提 直观地过一遍 这个算法到底在做什么然后如果你们有人想认真看里头的数学 下一期影片我会解释这一切背后的微积分 如果你看了前两期影片 或者你已经有足够背景知识 直接空降来这一期影片的话 你一定知道神经网络是什么 以及它如何前馈信息的这里我们考虑的经典例子就是手写数字识别 数字的像素值被输入到网络第一层的784个神经元里。原创 2024-08-04 17:53:41 · 1082 阅读 · 0 评论 -
翻译: 梯度下降 深度学习神经网络如何学习二
这个平均成本就是我们对该神经网络 表现好坏的衡量值 记住这个神经网络本质上是一个函数 它将784个像素值数字作为输入 10个数字作为输出 从某种意义上来说 是通过这些权重和偏差来参数化 然而成本函数的复杂性表现在 最重要的是它将一万三千左右的权重和偏差值作为输入 并输出一个数字来反应这些权重和偏差质量的好坏原创 2024-08-03 23:57:03 · 772 阅读 · 0 评论 -
翻译: 梯度下降 深度学习神经网络如何学习一
如果你站在神经网络的角度,你会发现整个宇宙只有 小网格中心不变的数字及其成本函数 并且完全有信心做出自己的判断 所以,如果这个图像就是第二层真的在做的事情 你会很好奇,为什么我会介绍神经网络可能提取一些片段和形状 也就是说,根本不是它最终要做的事情 是的,这不意味着它是我们的最终目标,而是起点 坦率的讲,这是一个老的技术了 是80年代和90年代研究的东西 但在你理解当代的一些变体之前,你确实有必要先理解它 很显然,它可以解决一些有趣的问题。或许,只是,你知道的…原创 2024-08-03 23:54:51 · 989 阅读 · 0 评论 -
翻译: 可视化深度学习神经网络三
13,000 个可以调整的参数来让网络可以呈现不同的结果 所以当我们谈到学习的时候 就是在说如何让电脑去找到一大堆正确的参数 让它解决问题 有一个仔细想想会很吓人的情况想象一下如果你需要手动调整这些权重和偏置 设定这些数字来让第二层识别一条边然后让第三层识别图案我个人认为这样想象会比把它整个当成一个黑盒子更好 因为当网络的输出和你的认知有所差异时 如果你能足够了解权重与偏置的关系 就更容易该怎么改变结构来修正。原创 2024-07-30 00:30:55 · 958 阅读 · 0 评论 -
翻译: 可视化深度学习神经网络二
并甚至在图像识别之外做各种各样智能的东西也许你也想分解成一些抽象的层 例如句子的分析涉及到把原始的语音提出一些独特的声音构成一些音节再构成词再构成词组以及更为抽象的思想等。但回到这些实际是怎样工作的把你自己现在就放到这个的情景怎样来设计 如何在让这层中的激励函数可以决定下一层的激励函数呢?这目标是有一些机能它想起来可以集中到一个特定的样本来把一些像素结合成 边或者把边结合成式样或者式样成为数字在这个特别的例子里面 我们希望第二层的这一个神经元 可以正确的识别出这个图像里有没有一条边。原创 2024-07-30 00:24:15 · 472 阅读 · 0 评论 -
翻译: 可视化深度学习神经网络一
这是一个随意书写的28*28像素、分辨率很低的数字 3 但你的大脑一看见就能轻松辨识出来 ,我想要你好好欣赏这点 人脑能够毫无障碍地辨识是非常厉害的我的意思是,这个、这个、还有这个,都能被识别为 3 即使前后图像的图形组成有很大差异 当你看到这张 3 在眼中所激发的感光细胞 跟当你看到这张 3 所激发的感光细胞是非常不同的 但在你惊人聪明的视觉皮层的处理下 能将这两个3视为同一个概念,同时将其他图像视为不同的概念要是我要你:「嘿!原创 2024-07-29 23:41:07 · 1509 阅读 · 0 评论 -
翻译: Gen AI生成式人工智能学习资源路线图一
本文档旨在作为学习现代人工智能系统背后的关键概念的手册。考虑到人工智能最近的发展速度,确实没有一个好的教科书式的资源来快速了解 LLMs 或其他生成模型的最新和最伟大的创新,但互联网上有大量关于这些主题的优秀解释资源(博客文章、视频等)。我的目标是将这些资源中的“最好的”组织成教科书式的演示文稿,它可以作为满足个人人工智能相关学习目标的先决条件的路线图。我希望这将是一份“活文件”,随着新的创新和范式不可避免地出现而进行更新,并且理想情况下也是一份可以从社区投入和贡献中受益的文件。原创 2024-06-12 22:22:15 · 2797 阅读 · 0 评论 -
本地部署Llama3 8b用Ollama和open-webui
设置模型 Settings > Models > Pull a model from Ollama.com。, 由于笔记本GPU的限制只能部署8b 的 llama3, 4.7GB。问题: 鸡兔同笼,鸡有100只,鸡足比兔足多80只,鸡兔分别有多少只?自由女神像每天一动不动,她真的自由么?下载完成后,选择 llama3:8b。笔者笔记本有GPU所以用下面的命令。需要安装Docker。原创 2024-05-07 03:08:38 · 2658 阅读 · 0 评论 -
在Codelab对llama3做Lora Fine tune微调
高效微调大模型的工具,通过Unsloth微调Llama3, Mistral, Gemma 速度提升2-5倍,内存减少70%!复制数据集的名字 pinzhenchen/alpaca-cleaned-zh。保存model到google drive 和 HuggingFace。TextStreamer 流式一个字一个字地打印结果。搜索数据集 alpaca-cleaned-zh。创建一个jupyter notebook。用fineTune 过的model,做问答。定义training 方法。开始FineTune。原创 2024-05-07 02:38:46 · 812 阅读 · 0 评论 -
翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习六
在本章的最后一课,我想更详细地讨论softmax函数,因为当我们探索注意力机制时,它会重新成为焦点。如果你想要一串数字成为概率分布,例如预测可能出现的下一个词的概率,那么这些数字中的每一个都必须在0和1之间,并且加起来等于1。然而,如果你正在练习深度学习,而且你做的每一步可能看起来都像是矩阵和向量的乘法,那么你得到的结果可能不满足这个条件。这些值可能是负数或者远大于1,加起来几乎肯定不等于1。原创 2024-05-02 00:45:00 · 713 阅读 · 0 评论 -
翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习五
这个过程涉及两个不同的步骤。首先,使用另一个矩阵,将上下文中的最后一个向量映射到一个包含50k个值的列表,每个值对应于词汇表中的一个token。然后,使用一个函数将这些值转换为概率分布。这个函数称为softmax,我们稍后会更多地讨论它。但在此之前,你可能会觉得仅根据最后一个嵌入进行预测有点奇怪,因为最后一层中有数千个其他向量,每个向量都具有丰富的上下文含义。这是因为在训练过程中,证明如果我们使用最后一层的每个向量来预测之后可能发生的情况,这是一种更有效的方法。原创 2024-05-02 00:15:00 · 813 阅读 · 0 评论 -
翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习四
同样,词的嵌入方式是通过数据学习的。这个嵌入矩阵揭示了每个词的变化过程,它是我们模型中的第一批权重,根据GPT-3,其词汇量具体为50,257 tokens,但请注意,它实际上并不指单词本身,而是指tokens。嵌入维度为12,288。将两者相乘,我们得到大约6.17亿个权重。我们将这个数字添加到我们的累计计数中,最终,我们应该得到1750亿个权重。当你谈论transformers时,你会想到这些嵌入在空间中的向量不仅代表单个单词。它们还携带有关单词位置的信息,我们将在后面更详细地解释。原创 2024-05-01 17:58:53 · 724 阅读 · 1 评论 -
翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习三
例如,GPT-3中的1750亿个权重被组织成大约28000个不同的矩阵。这些矩阵然后被分为8个不同的类别,你和我要做的就是一个一个地理解每一个类别,了解每种类型的功能。接下来的过程将非常有趣,我们将查看GPT-3的具体数据,以弄清楚1750亿是如何分配的。尽管现在有更大更好的模型可用,但GPT-3模型仍然具有独特的魅力,作为第一个吸引全球关注的大型语言模型,其影响不限于机器学习社区。事实上,对于更现代的模型,公司往往对具体数据保持更严格的保密。原创 2024-05-01 16:56:22 · 1365 阅读 · 2 评论 -
翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习二
在本章中,我们将深入探讨网络的开始和结束阶段发生的情况,我将花大量时间回顾一些重要的背景知识,这些知识是熟悉Transformer的机器学习工程师的基础知识。如果你已经熟悉背景知识,迫不及待地想了解更多,你可以跳到下一节,重点将放在Transformer的核心部分——注意力模块上。之后,我将更详细地介绍多层感知器模块、训练过程以及之前省略的一些其他细节。对于背景信息,这些视频是对我们深度学习课程系列的补充,你不一定要按顺序观看,原创 2024-04-30 00:26:29 · 982 阅读 · 0 评论 -
翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习一
Generative Pre-trained Transformer (生成式预训练Transformer)GPT 是 Generative Pre-trained Transformer 的缩写。前面的词比较直白,它们是指能生成新文本的机器人。"Pre-trained"指的是模型已经经历了从大量数据中学习的过程,暗示着模型在特定任务上还有进一步训练和微调的潜力。然而,最后一个词才是真正重要的部分。原创 2024-04-30 00:17:16 · 1802 阅读 · 1 评论 -
LangChain 83 LangGraph 从入门到精通五
这个接口和 StateGraph 一样,唯一的区别是它不会随着时间更新状态对象,而是依赖于在每一步传递完整的状态。这意味着从一个节点返回的任何东西都是下一个节点的输入。原创 2024-02-05 23:55:55 · 1252 阅读 · 0 评论 -
LangChain 82 LangGraph 从入门到精通四
在构建图表时,您需要传入一个状态模式。然后,每个节点都会返回操作以更新该状态。这些操作可以是在状态上设置特定属性(例如,覆盖现有值),也可以是向现有属性添加内容。是设置还是添加是通过注释您用于构建图表的状态对象来表示的。原创 2024-02-05 23:48:27 · 2481 阅读 · 0 评论 -
LangChain 81 LangGraph 从入门到精通三
这个代理执行器将消息列表作为输入,并输出消息列表。所有代理状态都表示为消息列表。这特别使用OpenAI函数调用。这是推荐的代理执行器,适用于支持函数调用的新型基于聊天的模型。我们还有很多示例,突出显示如何稍微修改基本的聊天代理执行器。所有这些都是构建的,因此建议您首先从那里开始。原创 2024-02-04 08:13:06 · 1246 阅读 · 0 评论 -
LangChain 80 LangGraph 从入门到精通二
LangGraph支持几种不同类型的流媒体。使用LangGraph的好处之一是很容易将每个节点产生的输出作为流媒体进行传输。也可以在每个节点生成LLM令牌时访问这些LLM令牌。在这种情况下,只有"agent"节点会生成LLM令牌。为了使其正常工作,您必须使用一个支持流式传输的LLM,并在构建LLM时设置它原创 2024-02-04 07:57:24 · 1317 阅读 · 0 评论 -
LangChain 79 LangGraph 从入门到精通一
Langgraph中的主要图形类型是。该图形是由一个状态对象参数化的,它将该对象传递给每个节点。然后,每个节点返回操作以更新该状态。这些操作可以是在状态上设置特定属性(例如,覆盖现有值)或者添加到现有属性。是设置还是添加由您构建图形时注释的状态对象来表示。对于此示例,我们要跟踪的状态只是一个消息列表。我们希望每个节点只是向该列表添加消息。因此,我们将使用一个TypedDict,其中只有一个key(messages),并对其进行注释,以便messages属性始终被添加到其中。原创 2024-02-03 23:47:04 · 3464 阅读 · 0 评论 -
LangChain 78 LangSmith 从入门到精通三
恭喜!您已成功跟踪和评估使用LangSmith的Agent!这是一个快速入门指南,但使用LangSmith有许多其他方法可以加快开发流程并产生更好的结果。有关如何充分利用LangSmith的更多信息,请查看LangSmith文档,并请通过support@langchain.dev发送问题、功能请求或反馈。原创 2024-02-03 23:27:58 · 922 阅读 · 0 评论 -
LangChain 77 LangSmith 从入门到精通二
除了记录运行情况外,LangSmith还允许您测试和评估LLM应用程序。在本节中,您将利用LangSmith创建一个基准数据集,并在代理上运行AI辅助评估器。原创 2024-02-02 23:57:28 · 1786 阅读 · 0 评论 -
LangChain 76 LangSmith 从入门到精通一
LangChain使得原型化LLM应用程序和代理变得容易。然而,将LLM应用程序交付到生产环境可能会出乎意料地困难。您将不得不对提示、链条和其他组件进行迭代,以构建高质量的产品。LangSmith使得调试、测试和持续改进LLM应用程序变得容易。这在什么时候可能会派上用场?原创 2024-02-02 23:47:44 · 1467 阅读 · 0 评论 -
如何使用 Mermaid、GitHub 和 VSCode 用代码创建关系图三
在本文中,我们只是触及了 Mermaid 中渲染图的表面。这些图表是高度可定制的,还允许您创建非常复杂的图表。Mermaid 支持本教程中未提及的更多类型的图表。要了解有关Mermaid的更多信息,请查看他们的官方文档。动手玩 Live demo。原创 2024-02-01 20:41:29 · 1275 阅读 · 0 评论 -
如何使用 Mermaid、GitHub 和 VSCode 用代码创建关系图二
Mermaid 是一个基于 JavaScript 的工具,可将 Markdown 样式的文本转换为动态图表,让您可以毫不费力地创建和修改它们。Mermaid 使使用简单的文本和代码轻松生成图表和视觉效果变得容易。它遵循一个简单的语法:让我们一一探讨它们。原创 2024-02-01 09:07:03 · 1364 阅读 · 0 评论 -
如何使用 Mermaid、GitHub 和 VSCode 用代码创建关系图一
图表是技术文档的重要组成部分。在本文中,我们将探讨如何使用代码生成图表并在 Markdown 中利用它们。下面是代码生成的图表的示例:无需工具,无需将形状拖动、对齐和对齐到位置。只是编码。有趣吧?原创 2024-01-31 23:56:22 · 2314 阅读 · 0 评论 -
GPT-4 Vision 应用场景总结和展望 升级Streamlit
OpenAI Vision API 还开辟了新的可能性和创造性的组合。请查看来自 Streamlit 社区的一些创作。原创 2024-01-31 03:00:00 · 810 阅读 · 0 评论 -
GPT-4 Vision根据应用程序截图生成博客和Readme 升级Streamlit八
在几秒钟内,只需检查应用程序的 UI,ChatGPT Vision 就为我的 CodeLlama Playground 应用程序生成了一个即用型README。它准确地列出了其功能,提供了本地和通过云的 Streamlit 安装说明,并提供了启动应用程序的快速入门指南。分析我上传的图像,其中显示了我的 CodeLlama Playground 应用程序。只需提供您的应用程序的快照,ChatGPT Vision 就会生成量身定制的描述性内容,您可以在文档、自述文件、社交帖子或其他任何您需要的地方使用这些内容。原创 2024-01-30 21:37:51 · 1288 阅读 · 0 评论 -
GPT-4 Vision调试任何应用,即使缺少文本日志 升级Streamlit七
作为 Streamlit 的开发倡导者,我花了很大一部分时间在论坛上,帮助我们的社区用户调试他们的 Streamlit 应用程序。我们可能只能从 Streamlit 前端获得错误标注的屏幕截图,如下所示:这可能会使调试问题变得困难,因为我们无权访问完整的日志跟踪。不要害怕!ChatGPT Vision 仍然可以通过从屏幕截图中提取相关信息来提供有用的调试提示来帮助您。使用以下提示prompt粘贴上面的图像:给我关于错误的线索。原创 2024-01-30 20:46:11 · 1423 阅读 · 0 评论 -
翻译: GPT-4 Vision征服LLM幻觉hallucinations 升级Streamlit六
RAG 是一种通过整合外部数据来改进聊天机器人的技术,确保更相关和最新的响应。有趣的事实:与通过 Code Interpreter 上传 PDF 相比,使用 Vision 上传文档屏幕截图会带来更好的聊天对话。的 Streamlit 应用程序。为每个标题添加一个简短的幽默数据科学双关语。为每个标题添加相应的表情符号。这可能是由于训练数据中的偏差、提示不明确或 GPT-4 可能不包含最新数据这一事实。使用新的divider参数构建一个具有不同颜色的各种。例如,GPT-4 不知道 Streamlit 的新。原创 2024-01-29 23:53:32 · 1578 阅读 · 0 评论 -
翻译: GPT-4 Vision通过量身定制的推荐来增强应用的用户体验 升级Streamlit五
GPT-4 Vision 还可以帮助您改善应用程序的用户体验并简化多页面应用程序的设计过程。将的屏幕截图粘贴 到 ChatGPT 中。原创 2024-01-29 08:43:29 · 2850 阅读 · 0 评论 -
翻译: GPT-4 Vision从图像转换为完全可编辑的表格 升级Streamlit四
当您需要从不可复制或不可下载的表中提取数据时,ChatGPT Vision 也非常有用。在此示例中,我们将要求 Vision 使用使此表格数据图像完全可编辑。将的这张图片粘贴 到 ChatGPT 中:包括以下提示prompt:在 Streamlit 中对此表进行编码。我们希望表格数据可以通过 Streamlit 的数据编辑器完全编辑。将代码粘贴到编辑器中并查看结果:GPT-4 Vision 碾压了它!该表功能齐全,标题正确,每一行都完美复制,数据完全可编辑。原创 2024-01-28 16:21:14 · 1509 阅读 · 1 评论 -
翻译: GPT-4 Vision静态图表转换为动态数据可视化 升级Streamlit 三
ChatGPT Vision 不仅可以将涂鸦变成功能齐全的 Streamlit 应用程序,还可以将任何静态视觉转换为美观、交互式、动态的数据可视化。粘贴中的屏幕截图:包括以下提示词prompt:翻译如下:在 Streamlit 中创建夜莺/玫瑰图表。该图表应该是一个动态的 ECharts 图表,通过 streamlit-echarts 库。每个部分都应该是可切换的。图表的配色方案应与图像中的配色方案相匹配。将代码复制到编辑器中,瞧!原创 2024-01-28 16:00:10 · 1404 阅读 · 0 评论 -
翻译: GPT-4 with Vision 升级 Streamlit 应用程序的 7 种方式二
通过简单地上传一个模型,Vision 生成了一个功能齐全的 Streamlit 原型:一个带有徽标占位符、导航链接、复选框、组合框、一些文本、图表和下载按钮的应用程序。此模型由一个双面板 UI 组成。左侧面板包括一个徽标、三个导航链接、两个复选框和一个下拉列表。从此模型创建 Streamlit 应用程序。您将使用 Echarts 库。最好指定要使用的数据可视化效果。由于我的绘画技巧堪比追逐激光笔的猫,我将使用。每个数据可视化库都必须通过以下方式安装。到您的虚拟环境中即可工作。来实现手绘模型的感觉。原创 2024-01-27 23:52:58 · 791 阅读 · 1 评论 -
翻译: GPT-4 with Vision 升级 Streamlit 应用程序的 7 种方式一
随着 OpenAI 在多模态方面的最新进展,想象一下将这种能力与视觉理解相结合。在本文中,我将带您了解 8 个实际用例,这些用例举例说明了将 GPT-4 与 Vision 结合使用的新可能性!原创 2024-01-27 23:47:20 · 891 阅读 · 0 评论 -
翻译: 使用 GPT-4 自动诊断Streamlit性能问题
Web 应用程序需要足够快。快速的网络应用程序可以让用户满意并回访更多。加速 Streamlit 应用程序的最佳方法之一是利用缓存方法。简而言之,这些方法通过消除冗余的重新计算来优化性能。Streamlit 提供和如果您将此代码粘贴到 ChatGPT 并请求性能改进 — GPT-4 可以在几秒钟内识别需要改进的领域!prompt:请一步一步分析下面代码的性能问题,并提供解决方案。原创 2024-01-26 23:35:41 · 1440 阅读 · 0 评论 -
翻译: 使用 GPT-4 将Jupyter Notebook 转换为Streamlit
如果从头开始创建 Streamlit 应用程序很有趣,那么将 Jupyter 笔记本转换为 Streamlit 应用程序就更有趣了!下面是一个 Jupyter 笔记本。我要求 GPT-4 将其转换为 Streamlit 应用程序。prompt请把下面的jupyter notebook代码转换为 Streamlit应用程序这个Streamlit应用程序将显示一个随机生成的数据直方图。用户可以使用滑块与应用程序进行交互,以调整直方图中的箱子数量。根据用户的输入,直方图会自动更新。原创 2024-01-26 23:06:09 · 793 阅读 · 0 评论 -
翻译: 使用 GPT-4 将您的 Streamlit 应用程序提升到一个新的水平一
帮助您更快地设计、调试和优化 Streamlit 应用的专业技巧设计和扩展 Streamlit 应用程序可能是一项艰巨的任务!作为开发人员,我们经常面临一些挑战,例如设计良好的 UI、快速调试我们的应用程序以及快速制作它们。如果有一个工具可以加快速度呢?这个工具有一个名字,叫做GPT-4!无论您是经验丰富的 Streamlit 开发人员还是刚刚起步,本指南都将帮助您利用 GPT-4 更快地构建更好的应用程序。原创 2024-01-25 23:37:57 · 1203 阅读 · 0 评论