默认分类
文章平均质量分 94
绝不原创的飞龙
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
构建多功能生成式 AI 驱动的聊天机器人
BART 推理组件的创建将与 Llama7B Chat 组件非常相似。这里的主要区别是我们将使用不同的容器,因此模型数据的打包和image_uri将会有所不同。在这种情况下,我们使用 HuggingFace PyTorch 图像,并指定我们正在解决的 HuggingFace 模型 ID 和 NLP 任务。我们再次将创建的 SageMaker 模型对象传递给推理组件,并指定模型所需的硬件。},},推理组件(作者截图)原创 2025-11-15 00:29:50 · 285 阅读 · 0 评论 -
使用 LangChain 代理构建数学应用
原文:towardsdatascience.com/building-a-math-application-with-langchain-agents-23919d09a4d3在这个教程中,我将演示如何使用代理创建一个自定义的数学应用,利用 OpenAI 的 GPT3.5 模型。对于应用前端,我将使用,这是一个易于使用的开源 Python 框架。这个生成式数学应用,我们可以称之为“数学天才”,旨在帮助用户解决数学或推理/逻辑问题。“数学天才”的应用架构图。插图由作者绘制。原创 2025-11-15 00:28:18 · 583 阅读 · 0 评论 -
从零开始构建营销数据科学团队
正如你所见,我在扩大团队过程中的关键要素是确定一个数据科学可以掌控且存在多个类似项目的领域。这样,虽然我们的起步很慢,但后来我们大幅加速,因为我们在这个投标领域是专家。此外,请记住你的人际网络的力量。我设法与非常高级的利益相关者建立了良好的关系,当事情没有按预期进行或我们需要移除障碍时,他们都在那里帮助我们。没有他们,这个团队的增长就不会存在。原创 2025-11-15 00:26:45 · 300 阅读 · 0 评论 -
使用 LLM 从头开始构建知识图谱
在本节中,我们创建了一个自定义流程,其中 LLM 自动根据数据集生成节点定义、关系和 Cypher 查询。这种方法也可以应用于其他 Dataframes,并自动识别模式。然而,请考虑它可能无法与现代解决方案(如 LangChain 的 LLMGraphTransformer)相匹配,我们将在下一节中介绍。相反,使用本节来了解一个可能的“从头开始”的工作流程,发挥创意,并稍后设计你自己的。确实,如果当前SOTA)方法有一个主要限制,那就是对数据性质和模式的敏感性非常高。原创 2025-11-15 00:23:51 · 457 阅读 · 0 评论 -
使用 LangGraph 构建幻想足球研究代理
我想把 Sleeper API 客户端转化为一组关键功能,供代理使用以提供响应。因为这些功能将由 LLM 有效地调用,所以我认为为它们做清晰的注解并要求简单、灵活的参数是很重要的。例如,Sleeper 的 API 通常要求提供数字化的球员 ID,这对于编程接口是有意义的。然而,我希望将这个概念从 LLM 中抽象出来,让它仅仅输入球员的名字进行这些功能。为了确保额外的灵活性,并允许像拼写错误这样的情况,我实现了一种基本的“模糊搜索”方法,将球员名字的搜索映射到他们对应的球员 ID。""""""原创 2025-11-15 00:22:16 · 390 阅读 · 0 评论 -
构建数据仓库
自定义模式是 dbt 宏的另一个很好的应用。在开发过程中,可能需要将自定义后缀应用到模式名称上,以指明它属于谁。实际上,在我们实际合并并提升代码到预发布环境之前,在我们的自定义模式中运行一些转换可能更好,即而不是。无论我们需要的自定义功能是什么——都可以使用宏来实现!让我们以物化为例。默认情况下,dbt 为我们的模型提供四种基本的物化类型 – 视图、表、增量表(我们上面提到过)和临时表。视图和表很简单,但ephemeral类型是什么?在数据转换管道的早期,临时物化可能非常有用。...原创 2025-11-15 00:21:31 · 467 阅读 · 0 评论 -
使用 Kubernetes 构建数据科学平台
原文:towardsdatascience.com/building-a-data-science-tool-stack-with-kubernetes-00c74b491b9d?原创 2025-11-15 00:19:59 · 377 阅读 · 0 评论 -
2024 年构建数据平台
本文 2021 版本字数为 1,278 字。本文的 2024 年版本在结尾之前已经超过了 2000 字。我猜这意味着我应该简短一些。构建一个既足够快速满足当今需求,又足够灵活以应对未来挑战的平台,从模块化开始,并由编排实现。为了采用最具创新性的解决方案来解决你的具体问题,你的平台必须为各种形式和大小的数据解决方案腾出空间,无论它是一个开源项目、新的托管服务,还是 AWS 提供的一整套产品。这篇文章有很多观点,但最终的选择还是取决于你。原创 2025-11-15 00:18:27 · 584 阅读 · 0 评论 -
从零开始构建卷积神经网络(CNNs)
原文:towardsdatascience.com/building-a-convolutional-neural-network-cnns-from-scratch-3cfa453f9594机器学习之所以如此有趣的一个原因是它允许我们将计算逻辑应用于以前无法触及的领域。虽然计算机在处理数组和整数方面非常有效,但它们在处理涌现属性方面传统上不太擅长。例如,你不能只看屏幕上的一个像素就知道图像是一只狗。你必须综合大量的数据点。原创 2025-11-15 00:16:44 · 447 阅读 · 0 评论 -
使用 LangChain、LLM 和 Streamlit 构建复杂 SQL 数据库交互的聊天应用
原文:towardsdatascience.com/building-a-chat-app-with-langchain-llms-and-streamlit-for-complex-sql-database-interaction-7433245079f3?原创 2025-11-15 00:15:02 · 442 阅读 · 0 评论 -
使用 LLM 构建生物医学实体链接器
当文本是非结构化时,准确识别和标准化医学概念变得至关重要。为了实现这一点,医学术语系统,如统一医学语言系统(UMLS)[1]、医学临床术语系统化命名(SNOMED-CT)[2]和医学主题词表(MeSH)[3],在其中扮演着重要角色。这些系统提供了一套全面且标准化的医学概念,每个概念都由一个字母数字代码唯一标识。实体链接涉及在文本中识别和提取实体,并将它们映射到大型术语库中的标准化概念。在此上下文中,**知识库(KB)**指的是一个详细的数据库,包含与术语库相关的标准化信息和概念,如医学术语、疾病和药物。原创 2025-11-15 00:13:32 · 439 阅读 · 0 评论 -
使用代理和工具构建你的个人助手
LLM 的问题代理、工具和链是什么?创建一个没有工具的简单聊天向我们的聊天添加工具:谷歌式的函数调用方式向我们的聊天添加工具:Langchain 方式与代理向我们的代理添加记忆创建一个包含人工验证步骤的链条使用搜索工具智能体是一个应用程序,它试图通过拥有一组工具并根据对环境的观察做出决策来实现一个目标(或任务)。一个好的智能体例子可以是你自己:如果你需要计算一个复杂的数学操作(目标),你可以使用计算器(工具#1)或编程语言(工具#2)。原创 2025-11-15 00:10:09 · 265 阅读 · 0 评论 -
构建你自己的合成数据
让我们在数据中添加一些自定义测试分数,看看我们是否能生成一些异常值。在上述代码中,晚班数据框中的第一个学生现在成为一致的高表现者,而上午和下午班数据框中的第一个学生则成为一致的低表现者。原创 2025-11-15 00:09:34 · 381 阅读 · 0 评论 -
使用 Java 和 Python 构建你自己的类似 ChatGPT 的聊天机器人
发布于·阅读时间 25 分钟·2024 年 5 月 30 日作者图片。原创 2025-11-15 00:08:20 · 519 阅读 · 0 评论 -
从零开始构建你的智能体
原文:towardsdatascience.com/build-your-agents-from-scratch-forget-autogen-or-crewai-part-a-a114cd1e785f?原创 2025-11-15 00:07:44 · 430 阅读 · 0 评论 -
使用 Airflow 和 Mlflow 构建机器学习管道:预订取消预测
该公司是短期住宿管理行业的领导者。为了找到下一任高级机器学习工程师,他们提供了一份作业,以评估候选者构建稳健机器学习基础设施的能力。提供了一个。原创 2025-11-15 00:06:14 · 461 阅读 · 0 评论 -
使用函数调用构建自主 AI 代理
在这里,我们为模型准备实际的函数,以便在调用函数后(如函数调用结构中描述的第 4-5 步)进行调用RAG 功能即。这是让模型通过搜索存储在文档存储中的文本来提供答案。我们首先将 RAG 检索定义为 Haystack 管道Context:Answer:"""测试函数是否正常工作这应该会产生以下输出。注意,模型给出的replies来自我们之前提供的样本文档然后我们可以将rag_pipe转化为一个函数,该函数仅提供replies,而不加入其他细节API 调用我们定义了get_items和。原创 2025-11-15 00:04:44 · 382 阅读 · 0 评论 -
在 Web 上构建和部署多文件、多格式 RAG 应用
在这篇文章中,我展示了如何使用 Gradio、GROQ 和 LlamaIndex 构建一个酷炫的多文件格式检索增强生成(RAG)Web 应用程序。我强调了 RAG 为什么是一个变革者,因为它通过提供它们在最初训练时没有的信息来微调大型语言模型(LLMs)。我们还学习了如何使用 Conda 设置开发环境,了解外部库的要求以及如何获取 GROQ API 密钥。然后,我们审视了我们应用程序的不同部分。Gradio 用于前端,而将 GROQ 和 LlamaIndex 连接到后端以进行繁重的工作。原创 2025-11-15 00:03:10 · 545 阅读 · 0 评论 -
从零开始构建泰语分词器
原文:towardsdatascience.com/build-a-tokenizer-for-the-thai-language-from-scratch-0e4ea5f2a8b3?原创 2025-11-15 00:01:27 · 416 阅读 · 0 评论 -
使用 RAG 和混合搜索构建一个(食谱)推荐聊天机器人(第一部分)
混合搜索的实现,在基于 pod 和无服务器索引之间有所不同。如果你从一种切换到另一种,可能会经历精度或性能上的回退。当你查询无服务器索引时,查询的密集值用于检索初步的候选记录,然后在返回最终结果时考虑稀疏值。原创 2025-11-15 00:00:23 · 368 阅读 · 0 评论 -
如何构建一个通用的大型语言模型(LLM)智能体
LLM 智能体是一种程序,其执行逻辑由其底层模型控制。从独立的 LLM 到智能系统。图片由作者提供LLM 智能体与类似少量提示(few-shot prompting)或固定工作流的方法的区别在于它能够定义并适应执行用户查询所需的步骤。通过访问一组工具(如代码执行或网页搜索),智能体可以决定使用哪种工具,如何使用它,并根据输出对结果进行迭代。这种适应性使系统能够在最少配置的情况下处理多样化的使用场景。智能架构的谱系。(图片由作者提供)代理架构存在一个谱系,从固定工作流的可靠性到自主代理的灵活性。原创 2025-11-14 15:53:00 · 449 阅读 · 0 评论 -
使用 Gemini 为任何类型的 PDF 构建文档 AI 流水线
我们将页面提取为图像,并将每个图像传递给多模态 LLM 进行分割。表格被视为一个分块。图形构成另一个分块。文本块被分割成独立的分块。对于每个元素,LLM 会生成一个摘要,可以嵌入并索引到向量数据库中。执行时间:解析 39 页文档花费了29 秒。结果:代理 1 生成了一个索引文档,其中包含每页的摘要和 Base64 编码的 JPEG 图片。原创 2025-11-14 15:50:13 · 305 阅读 · 0 评论 -
为你的数据带来结构
包含所有先前假设的完整模型。图片由作者提供。完整模型的结果。图片由作者提供。现在我们为数据构建了一个更加复杂且更具 plausibility(合理性)的结构。注意,仍然没有对grades产生影响(因此在上面的可视化中,我给它加上了虚线)。要么数据中不存在这种影响,要么我们尚未找到与其他变量的正确互动关系。我们甚至可能缺少一些有趣的变量。就像只有与结合时才有意义一样,或许还有另一个变量是理解对成绩影响所必需的。这向你展示了,对于路径分析来说,理解你的数据并明确你想要调查的内容是非常重要的。原创 2025-11-14 15:47:34 · 432 阅读 · 0 评论 -
弥合数据素养鸿沟
根据甲骨文公司(Oracle)最近发布的《决策困境》研究报告(2023 年 4 月),72%的商业领导者表示,海量的数据和数据源的可信度及不一致性让他们无法做出决策,89%的领导者认为,数据源数量的增加限制了他们组织的成功,尽管他们明白,缺乏数据支持的决策往往不够准确、不够成功且更容易出错。在一篇解释数据产品经理和数据翻译员特质的文章中,《哈佛商业评论》指出,商业背景、广泛的技术流利度、项目管理技能、创业精神,以及将数据需求和战略向其他组织成员解释的能力,是成功的关键。数据素养与业务素养是相辅相成的。原创 2025-11-14 15:43:33 · 315 阅读 · 0 评论 -
分块技术:提高 RAG 效果
在短时间内,**大型语言模型(LLMs)**在现代语言处理任务中找到了广泛的应用,甚至为自主 AI 代理铺平了道路。你很可能听说过,即使没有亲自使用过,ChatGPT。ChatGPT 由一种名为大型语言模型的生成 AI 技术驱动。检索增强生成,或RAG,已经成为应用生成 AI 领域最受欢迎的技术之一。尽管大型语言模型在生成文本方面展现了前所未有的能力,但它们的响应并不总是正确的。经过更仔细的观察,你可能会注意到 LLM 的响应受到次优信息和固有的记忆限制的困扰。原创 2025-11-14 15:39:53 · 482 阅读 · 0 评论 -
JAX 中近端策略优化(PPO)的实用指南
原文:towardsdatascience.com/breaking-down-state-of-the-art-ppo-implementations-in-jax-6f102c06c149?原创 2025-11-14 15:37:12 · 387 阅读 · 0 评论 -
将逻辑回归分解到其基本原理
想象你站在一个十字路口,每条路都通向一个不同的结果,你的选择是二元的:是或否,真或假,A 或 B。逻辑回归是这个二分法领域的女王。在其核心,逻辑回归是关于概率的。它衡量事件发生的可能性。它的主要目标?🎯逻辑回归旨在找到给定输入属于某个类别的概率。作者图片。逻辑回归。原创 2025-11-14 15:34:04 · 637 阅读 · 0 评论 -
将逻辑回归分解到其基本原理
想象你站在一个十字路口,每条路都通向一个不同的结果,你的选择是二元的:是或否,真或假,A 或 B。逻辑回归是这个二分法领域的女王。在其核心,逻辑回归是关于概率的。它衡量事件发生的可能性。它的主要目标?🎯逻辑回归旨在找到给定输入属于某个类别的概率。作者图片。逻辑回归。原创 2025-11-14 15:33:10 · 443 阅读 · 0 评论 -
有界核密度估计
原文:towardsdatascience.com/bounded-kernel-density-estimation-2082dff3f47f?了解核密度估计是如何工作的,以及如何调整它以更好地处理有界数据,如年龄、身高或价格·发表于·9 分钟阅读·2024 年 2 月 28 日图片来自于直方图被广泛使用且易于理解,但在估计连续密度时,人们常常将其视为一个神秘的黑箱。然而,理解这个概念其实同样简单,而且尤其重要,特别是在处理像年龄、身高或价格这样的有界数据时,现有的库可能无法自动处理它。原创 2025-11-14 15:32:34 · 427 阅读 · 0 评论 -
使用投机解码提升 LLM 推理速度
大型语言模型非常耗电,需要大量的 GPU 资源才能表现良好。然而,Transformer 架构并没有充分利用 GPU。GPU 设计上可以并行处理事物,但 Transformer 架构是自动回归的。为了生成下一个标记,它必须查看所有之前的标记。Transformer 不允许你并行预测下一个n个标记。最终,这使得 LLM 的生成阶段相当慢,因为每个新的标记必须按顺序生成。投机解码是一种新颖的优化技术,旨在解决这一问题。每次前向传递都会由 LLM 生成一个新的标记投机解码有几种不同的方法。原创 2025-11-14 15:30:50 · 637 阅读 · 0 评论 -
机器学习中的提升算法,第一部分:AdaBoost
在机器学习中,提升法是一种集成学习方法,它将多个弱学习器组合成一个单一强学习器。其想法是按顺序训练弱学习器,每个学习器都尽力不重复其前一个学习器所犯的错误,最终构建一个强大的集成。在本文中,我们将了解一种流行的提升技术,称为 AdaBoost,并展示它如何优雅地允许每个弱学习器将他们的错误传递给下一个弱学习器,从而最终提高预测质量。在本文中,我们将涵盖以下主题:理解集成及其不同类型是什么。这就是我们将定义****提升法的地方。使用示例来理解弱学习器的含义,因为提升法涉及拟合多个弱学习器。原创 2025-11-14 15:27:56 · 611 阅读 · 0 评论 -
使用 CUDA 提升 Python 代码
在这篇文章中,我描述了如何通过一点努力,你可以从你的 Python 代码中获得更多的性能——如果你有访问 GPU 的话。上述时间改进可能看起来并不那么令人印象深刻。但请记住,我们开始的基础水平已经比我们最初使用 Numba JIT 的非优化代码有了极大的改进。例如,看看卢卡斯数计算运行时间的进展:常规代码 -> Numba JIT -> Numba CUDA这几乎是非优化代码的 300 倍速度提升。_ 好吧,就到这里吧。我希望你觉得这篇文章有用。如果你觉得有用,请访问我的个人资料页面这个链接。原创 2025-11-14 15:22:59 · 519 阅读 · 0 评论 -
在科技裁员期间提升你的数据科学求职机会,第一部分
原文:towardsdatascience.com/boost-your-data-science-job-hunt-during-tech-layoffs-part-i-a6746eab05d5目前科技行业的就业市场极具挑战性。由在提供的照片根据的数据,仅 2024 年科技行业就有 106,630 人被裁员。如果你是一名寻求新角色的数据科学家,那么在求职时积极主动和策略性地行动至关重要。在这篇文章中,我将分享 5 个可操作步骤,以增加你在这些科技裁员期间获得并通过下一份数据科学面试的机会。原创 2025-11-14 15:20:29 · 543 阅读 · 0 评论 -
混合文本和符号:通往稳健 LLM 推理之路
通过句子提示 LLM 解释知识图的整体结构、范围和目的。总结提供了对组织哲学和本体选择宏观视角的见解。除了通过文本总结整体图拓扑和语义外,原创 2025-11-14 15:18:34 · 496 阅读 · 0 评论 -
BlazeFace:如何在浏览器中运行实时目标检测
发布于·11 分钟阅读·2024 年 7 月 17 日参考自visuals在Unsplash上的一张照片。得益于等库,今天我们可以通过几行代码轻松地创建稳健的目标检测模型。遗憾的是,这些解决方案在 30 帧每秒的视频实时流中,在任何设备上都不够快(通常认为 30 帧每秒是视频应用的实时限制)。在大多数情况下,它们在普通的移动设备上运行时,帧率通常低于 10 帧每秒。目前在浏览器中最著名的实时目标检测解决方案是Google 的 MediaPipe。原创 2025-11-14 15:16:47 · 460 阅读 · 0 评论 -
小块数据科学:异方差稳健误差
在这里,我们将做同样的事情,只不过不是估计整个模型的单个误差方差,而是估计我们数据中每个观察值的方差。如果我们的残差是同方差的,我们就一切顺利。阅读本文后,你将了解(1)为什么同方差误差对于线性回归中有效的标准误差是必需的,以及(2)如何计算异方差稳健误差以及为什么它们消除了对同方差性的需求。如果你有一个大的数据集,并且在你的误差中看到异方差的迹象,你可以使用稳健标准误差来获得更好的标准误差估计。由于异方差性对我们标准误差的影响,如果我们的数据表现出异方差性,我们需要对标准误差的计算进行调整。原创 2025-11-14 15:14:55 · 458 阅读 · 0 评论 -
Bit-LoRA 作为 BitNet 和 1.58 位神经网络技术的应用
Roman S·发表于·13 分钟阅读·2024 年 6 月 3 日1.58 位是什么?现在有一种名为“LLM”的技术非常流行。LLM 代表大型语言模型。这些 LLM 能够解决相当复杂的任务,使我们更接近我们想象中的 AI。LLM 通常基于变换器架构(虽然也有一些替代方法,但它们仍在开发中)。变换器架构需要相当昂贵的计算资源,因为这些 LLM 是大型的,计算需要大量的时间和资源。例如,现如今 LLM 的较小规模大约为 70-80 亿个参数——这就是我们在模型名称中看到的数字(例如 Llama3**–8B。原创 2025-11-14 15:13:19 · 457 阅读 · 0 评论 -
有限自动机仿真在利用 AI 辅助系统中的应用
有限状态机(FSM)或有限自动机是一种数学模型,可以通过描述离散状态、状态之间的转换以及触发这些转换的规则集来表示和分析系统的动态行为。有限状态机的历史可以追溯到 20 世纪中期,这一时期标志着自动机理论和计算理论的重要里程碑。艾伦·图灵(Alan Turing)和约翰·冯·诺依曼(John von Neumann)等先驱的早期贡献奠定了基础,但在 1950 年代和 1960 年代,FSM 取得了显著进展。原创 2025-11-14 15:11:06 · 341 阅读 · 0 评论 -
逐步实现:使用有限自动机
原文:towardsdatascience.com/bird-by-bird-using-finite-automata-6a822af54455?原创 2025-11-14 15:09:55 · 517 阅读 · 0 评论 -
二分类## 拆解传统指标的真正意义与局限性
分类工作的本质可以看作是将结构的复杂性总结为有限的类别,这种方法常常对简化生活非常有用,使我们能够将复杂的结构简化为两种单一类型。这些标签可能有明显的解释,比如我们通过收入这一独特且合理的特征来区分统计学家和数据科学家;也可能是压抑的尝试,将实验证据简化为一句话,用来接受或拒绝零假设。二分类。本工作旨在对这一特定标签进行更深的描述,为决策过程带来概率解释,并分析我们用来评估结果的指标。由于比率受到tprfnr= 1 和fprtnr= 1 的约束。原创 2025-11-14 15:07:20 · 394 阅读 · 0 评论
分享