- 博客(527)
- 资源 (89)
- 收藏
- 关注
原创 【LLM基础研究】核心二:MTP
摘要:MTP(多路径传输机制)最初用于网络硬件通信,后被DeepSeek应用于大模型推理服务并行优化。传统大模型采用单会话token-by-token解码方式,存在内存访问密集和效率低下问题。MTP通过多会话词预测技术,将输入转化为并行会话预测,复用内存中的首个预测词元,显著提升训练和推理效率。该机制通过多路径并行处理,有效解决了大模型推理时的显存访问瓶颈问题。(150字)
2025-10-17 13:34:44
254
原创 【目标检测2025】
该模型能够产生高质量的密集特征,在无需微调的情况下,在多种视觉任务上达到最先进的性能,为计算机视觉领域树立了新的技术标杆。然而,传统的SSL方法在扩展到大型模型和长时间训练时,会遇到密集特征(即空间分辨率较高的特征图)质量退化的问题,这限制了其在需要精确定位信息的下游任务(如目标检测、语义分割)中的应用。无需微调的最优性能:DINOv3在无需任务特定微调的情况下,在多种任务上均达到了最先进的性能,显著超越了以往的自监督和弱监督基础模型,甚至超过了一些使用额外监督信号的方法(如掩码标注先验)。
2025-09-30 16:39:23
824
原创 人工智能前沿-01【世界模型】
NVIDIA推出Omniverse Cloud API,为开发者提供3D设计协作与仿真工具。该API支持在云端构建和部署元宇宙应用,整合了NVIDIA AI、物理模拟及3D渲染技术。开发者可通过API访问Omniverse的核心功能,加速工业数字孪生、虚拟世界创建等应用开发。该服务现已在微软Azure上提供预览版,标志着NVIDIA在云原生3D工作流领域的重要进展。
2025-09-26 14:14:58
147
原创 【LLM基础研究】核心一:MLA
注意力机制最初用于解决图像领域的遮挡和多目标检测问题,主要分为空间注意力和通道注意力两种类型。空间注意力关注图像的空间特征,而通道注意力通过全局均值池化提取通道统计信息(如SENet方法)。多头注意力(MHA)和多层注意力(MLA)进一步扩展了注意力机制的应用能力,使其能够更有效地处理复杂数据特征。注意力机制通过动态分配权重,显著提升了神经网络在图像识别等任务中的性能表现。
2025-09-26 14:03:45
210
原创 深度学习在自动驾驶上应用(二)
摘要(150字) 本文提出FSDrive框架,通过视觉化时空链式推理(Spatio-Temporal CoT)改进自动驾驶决策。现有视觉语言模型(VLMs)依赖文本推理,易丢失时空细节。FSDrive将未来场景直接生成视觉中间帧(含车道、3D目标框等),实现渐进式推理:先粗粒度物理约束,再细化未来帧,最后规划轨迹。实验表明,其在nuScenes和DriveLM数据集上,轨迹规划(L2误差降低)、未来帧生成(FID=10.1)和场景理解均超越SOTA。关键创新是将VLM同时作为世界模型和逆动力学模型,通过视觉
2025-09-25 14:51:58
679
1
原创 深度学习在医学图像上应用(二)
关于在医学场景中的严肃医学情况下使用相关算法防止模型幻觉影响,相关算法如下:SHAP(SHapley Additive Explanations)和LIME(Local Interpretable Model-agnostic Explanations)是两种常用的机器学习模型可解释性方法,主要用于解释复杂模型(如黑盒模型)的预测结果。SHAP:基于博弈论的贡献度分析SHAP通过计算特征对预测结果的边际贡献来分配解释权重。
2025-09-24 13:34:46
328
原创 【智能体系统AgentOS】核心十:智能体和大模型应用
智能问答系统通常由五大核心模块组成:输入解析(自然语言处理与语义理解)、检索匹配(知识库查询与候选答案生成)、推理生成(基于规则或大模型的答案构建)、答案优化(可信度评估与格式化输出)以及扩展功能(个性化推荐与多模态交互)。这类系统常采用知识图谱与大语言模型相结合的RAG(检索增强生成)架构,实现从结构化到开放式问题的智能响应。开发者可通过模块化设计构建支持多轮对话、多模态交互的问答系统,并利用用户反馈持续优化模型表现。
2025-09-15 11:30:01
462
原创 MCP可视化报表方案
AntV 开源了 MCP 服务监控图表组件库,该项目基于 React 开发,提供丰富的可视化图表组件,适用于服务监控场景。通过 GitHub 仓库(antvis/mcp-server-chart)可获取源码,包含折线图、柱状图等常见图表类型,支持动态数据展示与交互功能。图表设计简洁美观,帮助开发者快速构建服务监控界面。该项目采用 MIT 开源协议,欢迎社区贡献。
2025-06-30 19:57:28
127
原创 【智能体系统AgentOS】核心十:A2A工具
谷歌开源A2A项目,为跨平台AI智能体通信提供统一协议。该协议通过Agent Card元数据文件实现智能体能力发现,并基于标准化HTTP接口确保安全互操作。支持多模态交互,适用于招聘协作等企业场景,提升不同AI系统间的协同效率。详见GitHub仓库。
2025-06-30 19:54:43
424
原创 【智能体系统AgentOS】核心九:MCP工具
MCP(Master Control Program)是计算机控制系统中的核心部分,负责协调和管理整个系统的功能模块。
2025-03-30 20:50:18
1147
原创 基于DeepSeek技术范式生成式(通用人工智能)探索:分层式强化学习
分层式强化学习通过任务分解和层级结构,将复杂问题拆分为多个子任务或子目标,使智能体能够高效学习长期策略。核心思想是“分而治之”,通过高层策略(宏观决策)和底层策略(微观执行)协作完成任务。分层式强化学习通过抽象化和模块化显著提升了复杂任务的学习效率,但在层级自动化、奖励设计等方面仍需突破。通过元控制器(Meta-Controller)动态选择子任务,如HiPPO(Hierarchical Policy with Options)等新型框架。内部策略(执行子任务的具体动作)
2025-02-20 14:35:33
462
原创 【智能体系统AgentOS】核心六:多智能体系统
Swarm是OpenAI低调发布多智能体工具,目标是为了让多个智能体协同工作。由OpenAI Solutions团队近期低调开源的一个实验性框架,专门用于帮助开发者轻松高效地设计、编排和管理多智能体系统(Multi-Agent Systems)。这一工具的核心目标是让多个智能体协同工作,以更高效地完成复杂的任务和工作流。开源项目地址:https://socialdeductionllm.github.io/论文:https://arxiv.org/abs/2502.06060。
2025-02-19 10:48:38
237
原创 KIMI的四大创新
1.1:多头潜在注意力MLA,通过低秩压缩技术减少KV缓存提高显卡消耗和计算复杂度来提升推理效率。1.2:多词元预测方法MTP,能够同时预测多个未来词元token,提升数据密度效率和训练训练密度。1.3:定期持续学习,收集数据和并行学习训练,从而实现模型能够不断更新适应全新数据环境。1.4:数据合成与强化学习,实现不依赖数据标注,监督微调的情况获取更高推理水平。1.8:通过PTX实现高效的模型训练和极致的算法优化水平。1.9:高效的推理方案是基于混合专家及潜在的稀疏注意力。1.6:多模态能力Janus。
2025-02-12 11:25:10
333
原创 【智能体系统AgentOS】核心五:端侧与云侧协同对比强化学习
端侧多模态模型是一种能够在终端设备(如手机、平板、智能穿戴设备等)上运行,对多种模态数据(如文本、图像、音频、视频等)进行处理和理解的人工智能模型,以下是相关介绍:特点轻量化与高效性:为适应端侧设备有限的计算资源、存储和能源,端侧多模态模型通常采用轻量化设计,参数量相对较小。通过模型压缩、量化等技术,在保证一定性能的前提下,降低对硬件的要求,提高运行效率,实现快速推理和响应。多模态融合能力:能够将不同模态的数据进行有效融合和理解。
2025-01-23 15:52:35
605
原创 【智能体系统AgentOS】核心二:工作流
BPM:关注整体流程的优化和改进,适合复杂、跨部门的业务流程。RPA:专注于自动化特定任务,适合规则明确、重复性高的任务。两者可以结合使用,RPA作为BPM的一部分,自动化其中的某些任务,从而进一步提升整体流程的效率。
2025-01-23 15:30:41
1078
原创 【智能体系统AgentOS】核心二:记忆结构
定义:向量数据库主要用于存储和查询高维向量数据,它将数据对象表示为向量空间中的向量,通过计算向量之间的相似度来进行数据检索和匹配。原理:其核心原理是基于向量空间模型,将文本、图像、音频等各种类型的数据通过特定的算法映射为向量空间中的向量。在存储时,将这些向量按照一定的结构和索引方式存储在数据库中。查询时,将用户输入的查询数据也转换为向量,然后通过计算该向量与数据库中存储的向量之间的相似度,如余弦相似度、欧式距离等,来找出与查询向量最相似的向量数据,从而实现高效的检索和匹配。
2025-01-23 15:00:51
998
原创 【智能体系统AgentOS】核心一:基础模型
定义:LLM是一种具有大量参数的语言模型,通常基于Transformer架构,能够学习和理解自然语言的语法、语义和语用信息,生成自然流畅的文本,并且可以完成各种自然语言处理任务,如文本生成、知识问答、推理计算、阅读理解等。特点大规模参数:拥有海量的参数,这些参数通过在大规模语料上进行无监督或自监督学习,能够捕捉到自然语言中的复杂模式和知识,从而具备强大的语言理解和生成能力。上下文理解。
2025-01-23 14:56:54
889
原创 计算机视觉应用
医学图像、遥感图像和文字图像都是以图像的形式来承载和传递信息,但它们在应用场景、成像原理、数据特点和处理方法等方面存在诸多不同,以下是它们的异同点介绍:
2025-01-23 14:41:37
444
原创 【认知智能】
认知计算是一种利用计算机系统来模拟人类大脑的思考、学习、推理和决策等认知能力的技术和方法。它不仅仅是简单的数据分析和处理,而是试图理解数据背后的意义、上下文和关联性,以更接近人类思维的方式进行信息处理和知识获取。认知智能是指机器具备理解、思考、推理、学习以及与人类进行自然交互的能力,能够像人类一样对复杂的信息进行感知、理解、分析、判断,并做出合理决策和反馈,使机器从“能听会说、能看会认”的感知智能阶段,迈向“能理解、会思考”的更高层次智能阶段。
2025-01-23 14:39:44
942
原创 【认知智能】多模态认知计算
多模态认知计算是指一种人工智能技术,它能够处理和理解来自多种不同感知渠道(或模式)的信息。这些模式可以包括文本、图像、声音、视频等。通过结合多个数据源,多模态认知系统旨在模仿人类大脑处理信息的方式,因为人脑在理解和解释世界时通常会同时利用视觉、听觉等多种感官输入。
2024-10-26 11:16:58
1402
原创 【认知智能】编译器2
ISA定义:Instruction Set Architecture(指令集架构) - 在计算机科学中,ISA 定义了计算机硬件的语言,即处理器理解和执行的机器语言指令的集合。它定义了二进制代码(例如库或可执行文件)如何在特定平台上与其它二进制代码交互,包括数据类型的大小、函数调用约定、系统调用编号、以及目标文件的格式等。与通用编程语言(如 Python、Java 或 C++)相比,DSL 专注于一个更小的应用范围,因此可以提供更加简洁和直观的语法来表达该领域的概念和操作。
2024-10-24 20:20:40
459
原创 【认知智能】编译器1
一些知名的开源项目如 TVM (Tensor Virtual Machine), XLA (Accelerated Linear Algebra) by TensorFlow&JAX, ONNX Runtime 等都是基于这样的架构构建起来的,各自有着独特的优势和技术特点。开发这样一个系统面临的主要挑战之一是如何有效地跨越不同的抽象层次——从高层级的算法描述到底层级的硬件特性利用,同时保持良好的可移植性和效率。此外,随着新硬件架构不断出现,保持对最新技术的支持也是一个持续的过程。
2024-10-24 20:14:18
593
原创 【目标检测2024】DetCLIP
在中医药信息化发展方面,CLIP也有一些潜在的应用场景值得我们探索,例如CLIP模型可以用于识别中药材的图像,通过学习大量的中药材图像和对应的文本描述,模型能够识别和分类不同的中药材;此外,在训练过程中,CLIP采用了对比损失函数,包括对比损失(通过最大化正确图像-文本对的相似性和最小化错误图像-文本对的相似性来训练模型)和分类损失(用于训练模型对图像和文本进行多任务分类),这是对称的,意味着对于每个图像-文本对,模型会计算两个方向的损失:图像到文本和文本到图像。CLIP的工作原理可以概括为“对比学习”。
2024-10-22 18:57:54
1707
原创 通用大模型应用研究七:RAGOS
RAG,即检索增强生成(Retrieval-Augmented Generation),是一种结合了信息检索和大型语言模型(LLM)提示的技术。它通过从数据源检索相关信息,并将检索到的信息与问题一起注入到LLM提示中,从而生成准确的回答。这种方法特别适用于解决大型语言模型在特定领域知识更新和准确性方面的问题。RAG技术的发展经历了几个阶段,从基础的Naive RAG到高级的Advanced RAG,再到模块化的Modular RAG。
2024-10-22 17:07:08
562
原创 通用大模型应用研究六:AgentOS
然而,与人类不同的是,智能体缺乏物理世界的直接互动能力、人类的记忆能力以及规划思考能力。大型语言模型智能体操作系统是一种创新的操作系统,旨在解决资源分配、上下文维护和异构代理集成的挑战。该系统将大型语言模型(LLM)嵌入到操作系统中,作为操作系统的大脑,从而优化了操作系统的功能。短期记忆涉及执行任务过程中的上下文信息,这些信息在子任务执行过程中产生和暂存,任务完成后被清空。智能体可以是任何具有感知、推理和行动能力的系统,比如人工智能、机器人或者软件代理。智能体操作系统,是一种多模态协通的智能体系统。
2024-08-26 15:19:43
1089
原创 通用大模型推理研究:SGLang推理框架
SGLang: Efficient Execution of Structured Language Model Programs,由斯坦福大学、加州大学伯克利分校、上海交通大学、德克萨斯大学完成。
2024-07-30 17:05:22
3765
原创 通用大模型研究重点之三:model App
当然,现在有一些更先进的模型,比如 BERT,GPT 等,它们生成的是上下文相关的词嵌入,即词的嵌入会根据上下文变化,这样一定程度上弥补了传统词嵌入模型的不足。Word Embedding:词嵌入通常被用来生成词的向量表示,这个过程通常是静态的,即一旦训练完成,每个词的向量表示就确定了。然而,词嵌入并不能理解上下文信息,即相同的词在不同的上下文中可能有不同的含义,但词嵌入无法区分这些含义。更好的理解和利用上下文信息:例如,动态的、可变长度的上下文,以及更复杂的上下文结构。
2024-03-12 11:51:36
888
Deep Learning in Radiology: Recent Advances, Challenges and Future Trends
2017-07-06
深度学习matlab代码
2017-10-10
Miniforge-pypy3-Linux-aarch64.sh
2020-07-20
gcc-10.1.0 .tar.gz
2020-05-19
exchange.7z
2020-05-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅