自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yunxinan的专栏

Standing on shoulders of giants

  • 博客(527)
  • 资源 (89)
  • 收藏
  • 关注

原创 我的计算机视觉学习之路

在计算机视觉我认为最有价值的研究是:医学图像处理、文字图像处理、遥感图像处理

2021-01-15 09:46:36 318 1

原创 【LLM基础研究】核心二:MTP

摘要:MTP(多路径传输机制)最初用于网络硬件通信,后被DeepSeek应用于大模型推理服务并行优化。传统大模型采用单会话token-by-token解码方式,存在内存访问密集和效率低下问题。MTP通过多会话词预测技术,将输入转化为并行会话预测,复用内存中的首个预测词元,显著提升训练和推理效率。该机制通过多路径并行处理,有效解决了大模型推理时的显存访问瓶颈问题。(150字)

2025-10-17 13:34:44 254

原创 【目标检测2025】

该模型能够产生高质量的密集特征,在无需微调的情况下,在多种视觉任务上达到最先进的性能,为计算机视觉领域树立了新的技术标杆。然而,传统的SSL方法在扩展到大型模型和长时间训练时,会遇到密集特征(即空间分辨率较高的特征图)质量退化的问题,这限制了其在需要精确定位信息的下游任务(如目标检测、语义分割)中的应用。无需微调的最优性能:DINOv3在无需任务特定微调的情况下,在多种任务上均达到了最先进的性能,显著超越了以往的自监督和弱监督基础模型,甚至超过了一些使用额外监督信号的方法(如掩码标注先验)。

2025-09-30 16:39:23 824

原创 人工智能前沿-01【世界模型】

NVIDIA推出Omniverse Cloud API,为开发者提供3D设计协作与仿真工具。该API支持在云端构建和部署元宇宙应用,整合了NVIDIA AI、物理模拟及3D渲染技术。开发者可通过API访问Omniverse的核心功能,加速工业数字孪生、虚拟世界创建等应用开发。该服务现已在微软Azure上提供预览版,标志着NVIDIA在云原生3D工作流领域的重要进展。

2025-09-26 14:14:58 147

原创 【LLM基础研究】核心一:MLA

注意力机制最初用于解决图像领域的遮挡和多目标检测问题,主要分为空间注意力和通道注意力两种类型。空间注意力关注图像的空间特征,而通道注意力通过全局均值池化提取通道统计信息(如SENet方法)。多头注意力(MHA)和多层注意力(MLA)进一步扩展了注意力机制的应用能力,使其能够更有效地处理复杂数据特征。注意力机制通过动态分配权重,显著提升了神经网络在图像识别等任务中的性能表现。

2025-09-26 14:03:45 210

原创 深度学习在自动驾驶上应用(二)

摘要(150字) 本文提出FSDrive框架,通过视觉化时空链式推理(Spatio-Temporal CoT)改进自动驾驶决策。现有视觉语言模型(VLMs)依赖文本推理,易丢失时空细节。FSDrive将未来场景直接生成视觉中间帧(含车道、3D目标框等),实现渐进式推理:先粗粒度物理约束,再细化未来帧,最后规划轨迹。实验表明,其在nuScenes和DriveLM数据集上,轨迹规划(L2误差降低)、未来帧生成(FID=10.1)和场景理解均超越SOTA。关键创新是将VLM同时作为世界模型和逆动力学模型,通过视觉

2025-09-25 14:51:58 679 1

原创 【智能体系统AgentOS】核心12:如何创建一家公司

人事物时事环境团队。

2025-09-24 14:42:18 288

原创 深度学习在医学图像上应用(二)

关于在医学场景中的严肃医学情况下使用相关算法防止模型幻觉影响,相关算法如下:SHAP(SHapley Additive Explanations)和LIME(Local Interpretable Model-agnostic Explanations)是两种常用的机器学习模型可解释性方法,主要用于解释复杂模型(如黑盒模型)的预测结果。SHAP:基于博弈论的贡献度分析SHAP通过计算特征对预测结果的边际贡献来分配解释权重。

2025-09-24 13:34:46 328

原创 【智能体系统AgentOS】核心十:智能体和大模型应用

智能问答系统通常由五大核心模块组成:输入解析(自然语言处理与语义理解)、检索匹配(知识库查询与候选答案生成)、推理生成(基于规则或大模型的答案构建)、答案优化(可信度评估与格式化输出)以及扩展功能(个性化推荐与多模态交互)。这类系统常采用知识图谱与大语言模型相结合的RAG(检索增强生成)架构,实现从结构化到开放式问题的智能响应。开发者可通过模块化设计构建支持多轮对话、多模态交互的问答系统,并利用用户反馈持续优化模型表现。

2025-09-15 11:30:01 462

原创 MCP可视化报表方案

AntV 开源了 MCP 服务监控图表组件库,该项目基于 React 开发,提供丰富的可视化图表组件,适用于服务监控场景。通过 GitHub 仓库(antvis/mcp-server-chart)可获取源码,包含折线图、柱状图等常见图表类型,支持动态数据展示与交互功能。图表设计简洁美观,帮助开发者快速构建服务监控界面。该项目采用 MIT 开源协议,欢迎社区贡献。

2025-06-30 19:57:28 127

原创 【智能体系统AgentOS】核心十:A2A工具

谷歌开源A2A项目,为跨平台AI智能体通信提供统一协议。该协议通过Agent Card元数据文件实现智能体能力发现,并基于标准化HTTP接口确保安全互操作。支持多模态交互,适用于招聘协作等企业场景,提升不同AI系统间的协同效率。详见GitHub仓库。

2025-06-30 19:54:43 424

原创 【智能体系统AgentOS】核心九:MCP工具

MCP(Master Control Program)是计算机控制系统中的核心部分,负责协调和管理整个系统的功能模块。

2025-03-30 20:50:18 1147

原创 2025年图像分类,目标检测,图像分割进展总结

目标检测,图像识别,图像分割

2025-03-11 08:45:53 1464

原创 【智能体系统AgentOS】核心八:OpenVLA和OpenMTA

视觉语言动作模型

2025-03-10 18:15:58 203

原创 【智能体系统AgentOS】核心七:功能测试与性能测试

大模型与智能体测试方法

2025-03-10 15:05:26 433

原创 基于DeepSeek技术范式生成式(通用人工智能)探索:分层式强化学习

分层式强化学习通过‌任务分解‌和‌层级结构‌,将复杂问题拆分为多个子任务或子目标,使智能体能够高效学习长期策略。核心思想是‌“分而治之”‌,通过高层策略(宏观决策)和底层策略(微观执行)协作完成任务。分层式强化学习通过‌抽象化‌和‌模块化‌显著提升了复杂任务的学习效率,但在层级自动化、奖励设计等方面仍需突破。通过元控制器(Meta-Controller)动态选择子任务,如‌HiPPO(Hierarchical Policy with Options)‌等新型框架。‌内部策略‌(执行子任务的具体动作)

2025-02-20 14:35:33 462

原创 【智能体系统AgentOS】核心六:多智能体系统

Swarm是OpenAI低调发布多智能体工具,目标是为了让多个智能体协同工作。由OpenAI Solutions团队近期低调开源的一个实验性框架,专门用于帮助开发者轻松高效地设计、编排和管理多智能体系统(Multi-Agent Systems)。这一工具的核心目标是让多个智能体协同工作,以更高效地完成复杂的任务和工作流。开源项目地址:https://socialdeductionllm.github.io/论文:https://arxiv.org/abs/2502.06060。

2025-02-19 10:48:38 237

原创 DeepSeek相关创新

模型结构部分特征嵌入:特征提取:MLA训练方法部分推理方法部分。

2025-02-19 10:39:50 111

原创 KIMI的四大创新

1.1:多头潜在注意力MLA,通过低秩压缩技术减少KV缓存提高显卡消耗和计算复杂度来提升推理效率。1.2:多词元预测方法MTP,能够同时预测多个未来词元token,提升数据密度效率和训练训练密度。1.3:定期持续学习,收集数据和并行学习训练,从而实现模型能够不断更新适应全新数据环境。1.4:数据合成与强化学习,实现不依赖数据标注,监督微调的情况获取更高推理水平。1.8:通过PTX实现高效的模型训练和极致的算法优化水平。1.9:高效的推理方案是基于混合专家及潜在的稀疏注意力。1.6:多模态能力Janus。

2025-02-12 11:25:10 333

原创 【智能体系统AgentOS】核心五:端侧与云侧协同对比强化学习

端侧多模态模型是一种能够在终端设备(如手机、平板、智能穿戴设备等)上运行,对多种模态数据(如文本、图像、音频、视频等)进行处理和理解的人工智能模型,以下是相关介绍:特点轻量化与高效性:为适应端侧设备有限的计算资源、存储和能源,端侧多模态模型通常采用轻量化设计,参数量相对较小。通过模型压缩、量化等技术,在保证一定性能的前提下,降低对硬件的要求,提高运行效率,实现快速推理和响应。多模态融合能力:能够将不同模态的数据进行有效融合和理解。

2025-01-23 15:52:35 605

原创 【智能体系统AgentOS】核心四:执行器

执行器工具插件。

2025-01-23 15:32:39 181

原创 【智能体系统AgentOS】核心三:状态机

LLM

2025-01-23 15:31:52 187

原创 【智能体系统AgentOS】核心二:工作流

BPM:关注整体流程的优化和改进,适合复杂、跨部门的业务流程。RPA:专注于自动化特定任务,适合规则明确、重复性高的任务。两者可以结合使用,RPA作为BPM的一部分,自动化其中的某些任务,从而进一步提升整体流程的效率。

2025-01-23 15:30:41 1078

原创 【智能体系统AgentOS】核心二:记忆结构

定义:向量数据库主要用于存储和查询高维向量数据,它将数据对象表示为向量空间中的向量,通过计算向量之间的相似度来进行数据检索和匹配。原理:其核心原理是基于向量空间模型,将文本、图像、音频等各种类型的数据通过特定的算法映射为向量空间中的向量。在存储时,将这些向量按照一定的结构和索引方式存储在数据库中。查询时,将用户输入的查询数据也转换为向量,然后通过计算该向量与数据库中存储的向量之间的相似度,如余弦相似度、欧式距离等,来找出与查询向量最相似的向量数据,从而实现高效的检索和匹配。

2025-01-23 15:00:51 998

原创 【智能体系统AgentOS】核心一:基础模型

定义:LLM是一种具有大量参数的语言模型,通常基于Transformer架构,能够学习和理解自然语言的语法、语义和语用信息,生成自然流畅的文本,并且可以完成各种自然语言处理任务,如文本生成、知识问答、推理计算、阅读理解等。特点大规模参数:拥有海量的参数,这些参数通过在大规模语料上进行无监督或自监督学习,能够捕捉到自然语言中的复杂模式和知识,从而具备强大的语言理解和生成能力。上下文理解。

2025-01-23 14:56:54 889

原创 计算机视觉应用

医学图像、遥感图像和文字图像都是以图像的形式来承载和传递信息,但它们在应用场景、成像原理、数据特点和处理方法等方面存在诸多不同,以下是它们的异同点介绍:

2025-01-23 14:41:37 444

原创 【认知智能】

认知计算是一种利用计算机系统来模拟人类大脑的思考、学习、推理和决策等认知能力的技术和方法。它不仅仅是简单的数据分析和处理,而是试图理解数据背后的意义、上下文和关联性,以更接近人类思维的方式进行信息处理和知识获取。认知智能是指机器具备理解、思考、推理、学习以及与人类进行自然交互的能力,能够像人类一样对复杂的信息进行感知、理解、分析、判断,并做出合理决策和反馈,使机器从“能听会说、能看会认”的感知智能阶段,迈向“能理解、会思考”的更高层次智能阶段。

2025-01-23 14:39:44 942

原创 【认知智能】多模态认知计算

多模态认知计算是指一种人工智能技术,它能够处理和理解来自多种不同感知渠道(或模式)的信息。这些模式可以包括文本、图像、声音、视频等。通过结合多个数据源,多模态认知系统旨在模仿人类大脑处理信息的方式,因为人脑在理解和解释世界时通常会同时利用视觉、听觉等多种感官输入。

2024-10-26 11:16:58 1402

原创 【认知智能】编译器2

ISA定义:Instruction Set Architecture(指令集架构) - 在计算机科学中,ISA 定义了计算机硬件的语言,即处理器理解和执行的机器语言指令的集合。它定义了二进制代码(例如库或可执行文件)如何在特定平台上与其它二进制代码交互,包括数据类型的大小、函数调用约定、系统调用编号、以及目标文件的格式等。与通用编程语言(如 Python、Java 或 C++)相比,DSL 专注于一个更小的应用范围,因此可以提供更加简洁和直观的语法来表达该领域的概念和操作。

2024-10-24 20:20:40 459

原创 【认知智能】编译器1

一些知名的开源项目如 TVM (Tensor Virtual Machine), XLA (Accelerated Linear Algebra) by TensorFlow&JAX, ONNX Runtime 等都是基于这样的架构构建起来的,各自有着独特的优势和技术特点。开发这样一个系统面临的主要挑战之一是如何有效地跨越不同的抽象层次——从高层级的算法描述到底层级的硬件特性利用,同时保持良好的可移植性和效率。此外,随着新硬件架构不断出现,保持对最新技术的支持也是一个持续的过程。

2024-10-24 20:14:18 593

原创 【目标检测2024】DetCLIP

在中医药信息化发展方面,CLIP也有一些潜在的应用场景值得我们探索,例如CLIP模型可以用于识别中药材的图像,通过学习大量的中药材图像和对应的文本描述,模型能够识别和分类不同的中药材;此外,在训练过程中,CLIP采用了对比损失函数,包括对比损失(通过最大化正确图像-文本对的相似性和最小化错误图像-文本对的相似性来训练模型)和分类损失(用于训练模型对图像和文本进行多任务分类),这是对称的,意味着对于每个图像-文本对,模型会计算两个方向的损失:图像到文本和文本到图像。CLIP的工作原理可以概括为“对比学习”。

2024-10-22 18:57:54 1707

原创 通用大模型应用研究七:RAGOS

RAG,即检索增强生成(Retrieval-Augmented Generation),是一种结合了信息检索和大型语言模型(LLM)提示的技术。它通过从数据源检索相关信息,并将检索到的信息与问题一起注入到LLM提示中,从而生成准确的回答。这种方法特别适用于解决大型语言模型在特定领域知识更新和准确性方面的问题。RAG技术的发展经历了几个阶段,从基础的Naive RAG到高级的Advanced RAG,再到模块化的Modular RAG。

2024-10-22 17:07:08 562

原创 通用大模型应用研究六:AgentOS

然而,与人类不同的是,智能体缺乏物理世界的直接互动能力、人类的记忆能力以及规划思考能力。大型语言模型智能体操作系统是一种创新的操作系统,旨在解决资源分配、上下文维护和异构代理集成的挑战。该系统将大型语言模型(LLM)嵌入到操作系统中,作为操作系统的大脑,从而优化了操作系统的功能。短期记忆涉及执行任务过程中的上下文信息,这些信息在子任务执行过程中产生和暂存,任务完成后被清空。智能体可以是任何具有感知、推理和行动能力的系统,比如人工智能、机器人或者软件代理。智能体操作系统,是一种多模态协通的智能体系统。

2024-08-26 15:19:43 1089

原创 通用大模型推理研究:SGLang推理框架

SGLang: Efficient Execution of Structured Language Model Programs,由斯坦福大学、加州大学伯克利分校、上海交通大学、德克萨斯大学完成。

2024-07-30 17:05:22 3765

原创 开源大模型王者归来:llama3最大4000亿参数,性能GPT4相当,超越Grok3140亿且全开源代码

grok,llama3

2024-04-23 17:33:46 1029

原创 通用大模型应用研究五:model services

大模型部署

2024-04-20 10:45:59 1182

原创 通用大模型研究重点之五:llama family

llama3、moe、grok

2024-04-20 09:40:20 1493

原创 通用大模型研究重点之四:backbone model

语言模型

2024-03-20 12:51:00 387

原创 通用大模型研究重点之三:model App

当然,现在有一些更先进的模型,比如 BERT,GPT 等,它们生成的是上下文相关的词嵌入,即词的嵌入会根据上下文变化,这样一定程度上弥补了传统词嵌入模型的不足。Word Embedding:词嵌入通常被用来生成词的向量表示,这个过程通常是静态的,即一旦训练完成,每个词的向量表示就确定了。然而,词嵌入并不能理解上下文信息,即相同的词在不同的上下文中可能有不同的含义,但词嵌入无法区分这些含义。更好的理解和利用上下文信息:例如,动态的、可变长度的上下文,以及更复杂的上下文结构。

2024-03-12 11:51:36 888

原创 2024年目标检测研究进展

目标检测、yolov9、RT-DERT

2024-03-10 09:16:13 5238

资源MIT发布的10大自然语言处理数据集和语料库

资源MIT发布的10大自然语言处理数据集和语料库

2017-07-11

模式识别基础

模式识别与模态融合与耦合学习基础,图像和语音及语义分割基础

2018-10-17

ObsPyTutorial(obspy库使用说明)

ObsPyTutorial

2017-07-06

Deep Learning in Radiology: Recent Advances, Challenges and Future Trends

Deep Learning in Radiology: Recent Advances, Challenges and Future Trends

2017-07-06

迁移学习手册

基于深度实现自己模型的优化和压缩达到项目符合应用场景的工具手册

2018-10-17

shell脚本大全

linux环境下使用shell脚本编程的资料,目前在Windows下也可使使用,windows商店有Linux

2017-11-03

python迁移学习

python迁移学习实战通过讲述构建原则解决问题和实现复杂情况来实现工程

2018-10-21

武汉大学本科Latex论文写作模板

关于学习使用latex资源的本科写作教程,通过模板学习使用latex的写作

2017-10-02

深度学习matlab代码

hinton论文代码注解 Matlab示例代码为两部分,分别对应不同的论文: 1. Reducing the Dimensionality of data with neural networks   ministdeepauto.m backprop.m rbmhidlinear.m 2. A fast learing algorithm for deep belief net   mnistclassify.m   backpropclassfy.m

2017-10-10

obspy-1.0.1-py35

obspy-1.0.1-py35库

2017-07-06

fashionAI属性识别

本来我主要介绍了标记技术和属性识别的相关检测技术和方案

2018-03-10

机器学习tensorflow安装插件

vc_redist

2017-07-06

c++学习课程讲义

c++课件

2017-07-09

算法导论参考答案

此课件是学习相关算法算法导论的辅助材料,便于深一步研究算法和编码之间的规律和编译环境的文档,是提高代码质量和优化的基础。

2017-09-03

机器人学基础

机器学习与机器人学基础资料,主要为人工智能物理层设计

2018-04-25

感知机识别数字代码

使用感知器的分类方案和SVM的过滤技术从模式识别学习深度学习算法

2017-10-02

深度学习作业

基于深度学习基础总结的基础算法题目综述和笔记总结便于学习

2018-10-17

tensorflow编码教程

本书为2018版tensflow编程教程基础使用,从项目实际出发学习张量流计算图架构

2018-03-10

计算机视觉中的数学方法

主要从数学角度分析描述计算机视觉及其研究特点通过理解理论去获得创新

2018-10-21

C语言版数据结构与算法分析

数据结构与算法分析学习基础,机器学习编码练习工具资料

2018-04-25

LaneNet训练自己教程

车道线分割模型模型训练自己的数据该模型是属于二分类语义分割

2019-03-06

谷歌大脑的近期进展

本文主要介绍谷歌大脑的整体架构和研究思路及相关研究的进展和技术细节。

2018-12-30

Docker 中文教程

大数据分布式计算基础,Docker分布式集群架构学习材料

2019-03-14

VS2019+OpenCV4.1.0教程.pdf

本文主要是使用C++环境调用模型权重文件而需要的开发环境搭建,

2019-07-02

BAT科技公司前后端面试宝典

阿里面试宝典资料, 面试目标 面试基本问题 技术细节问题 如何拿到offer

2023-08-09

如何读好一篇论文;how to read paper

学术论文写作,技术文档写作,日常笔记写作,工程实验日记,科研工作感悟。

2022-11-28

目标检测标注工具labelImg

xml数据集标注工具window版本直接下载使用标注工具,方便自己设计数据集

2019-03-18

K210_Sipeed Maix Dock教程文档pro.pdf

K210_Sipeed Maix Dock教程文档pro.pdfz主要是基于k210的芯片实现人脸关键点监测

2020-08-31

Miniforge-pypy3-Linux-aarch64.sh

在ARM A53的飞凌开发板上搭建深度学习,该环境类似anaconda一样实现包管理器。 python在ARM环境变量配置包管理器

2020-07-20

gcc-10.1.0 .tar.gz

C++编译gcc系统升级,源码升级核心编译实现最新版本。This page is a "brief" summary of some of the huge number of improvements in GCC 10. You may also want to check out our Porting to GCC 10 page and the full GCC documentation.

2020-05-19

MATLAB30例教程

使用matlab实现数据科学的工程基础,matlab教程xxxxxx

2019-04-22

深度学习及目标检测教程

目标检测及场景识别基础技术学习总览概述,该文件可以帮助从基础学到应用

2018-11-03

RFBNet模型初始化权重

RFBNet—master模型的预训练权重文件,初始化训练模型使用

2019-03-18

exchange.7z

将pb转为pbtxt文件的转换代码,将自己训练保存的ckpt模型转换为pb文件,该方法适用于任何ckpt模型,当然你需要确定ckpt模型输入/输出的节点名称。

2020-05-21

计算视觉算法原理应用第五版第二部分

计算机视觉算法原理应用英文版本 第五版 第二部分书籍

2019-01-02

github desktop

如何使用github维护自己的项目让其变得更加方便使用和学习

2019-01-18

图像处理经典算法的py实现

本资料采用传统的python实现图像的中常用的算法从而实现数据增强

2018-11-22

数据科学教程

机器学习数据科学方向教程,该教程主要是机器学习理论和函数教程

2019-04-22

tensorflow for amd and Raspberry

树莓派与ARM版本的tensorflow,为移动版本设计的疼送人flow

2019-01-10

阿里巴巴大数据及.pdf

阿里背后的大数据技术与人工智能分分别在淘宝、优酷、高德方面应用取得成果,技术如何改变社区数据发展和生活,从新定义现代技术发展与科技进步对生活的影响。

2020-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除