自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yunxinan的专栏

Standing on shoulders of giants

  • 博客(549)
  • 资源 (89)
  • 收藏
  • 关注

原创 计算机视觉学习之路

在计算机视觉我认为最有价值的研究是:医学图像处理、文字图像处理、遥感图像处理

2021-01-15 09:46:36 345 1

原创 如何系统的展开个人或组织的研究工作(01)

它追求客观真理,解释自然现象背后的规律与原因。

2026-04-25 10:45:09 27

原创 【智能体系统AgentOS】核心19:MSA

MSA:多智能体系统:侧重基于MoE的分布式智能体治理。PSM: 物理空间模型:物理仿真与空间预测。WMA:行为世界模型:物理仿真与行为控制。VLA:视觉语言模型:模型生成与行为控制。

2026-04-13 13:11:55 177

原创 【LLM基础研究】核心五:PTX

DSL:(领域特定语言,Domain-Specific Language)是针对特定问题领域设计的编程语言,与通用语言(如Python、Java)相反,它只专注解决某一类特定任务。核心特点专注性强:语法和语义都针对特定领域优化,表达力强简洁高效:用很少代码完成通用语言需要大量代码的工作非图灵完备(通常):不追求能做所有事,只做领域内的事可嵌入/独立:可以嵌入宿主语言,也可以独立使用RTL:指一种用来描述数字电路的行为的设计方法或抽象层级语言;在编译器领域为中间语言。

2026-04-12 22:31:59 326

原创 《相关研究》008:世界模型

目标是通用机器人:两者缺一不可——VLA负责意图,世界模型负责常识。训练目标是最小化预测误差。想象增强:VLA在实际执行前,先在世界模型中“想象”执行后果,进行试错(类似AlphaGo的自我对弈)。规划:VLA采样多个动作,世界模型预测每个动作的未来结果,VLA选择结果最好的动作执行。数据生成:用世界模型生成海量虚拟机器人交互数据,用来训练VLA(解决真实数据稀缺问题)。世界模型指给定当前状态和一个动作,它预测下一步会变成什么状态。:VLA负责“做什么”(策略),世界模型负责“会发生什么”(模拟)。

2026-04-10 17:41:35 57

原创 《相关研究》007:动态渲染

提出的4D-GS首次将 3D 高斯溅射扩展为 4D 时空表征,通过高斯形变场网络精准建模 3D 高斯的运动与形状形变,实现了高分辨率动态场景的实时渲染(合成数据集 82 FPS/800×800、真实数据集 30 FPS/1352×1014),且训练效率高、存储成本低。动态场景渲染的核心痛点:动态场景的三维表示与渲染是 3D 视觉的重要任务,需精准建模复杂的时空运动,但现有方法难以同时兼顾渲染质量、实时性、训练 / 存储效率,尤其是从稀疏的时空输入中建模复杂运动时,效率损失问题突出。

2026-04-08 17:38:28 228

原创 《相关研究》006:模型安全

核心关键词为:智能合约、意图检测、深度学习、Web3 软件工程、内部风险、Universal Sentence Encoder、K-means 聚类、BiLSTM、多标签分类。智能合约安全风险的新痛点:现有研究多聚焦于检测智能合约的外部风险(如重入、整数溢出等代码漏洞,易被黑客利用),但由开发者恶意意图引入的内部风险(如预埋后门、随意修改交易规则、卷款跑路等)已造成巨额加密资产损失,却缺乏有效检测方法。传统检测方式的局限性:目前识别开发者意图依赖专家人工审计,耗时且成本高;

2026-04-08 17:27:05 374

原创 《相关研究》005:模型安全

土耳其博阿齐奇大学计算机工程系:德国马克斯·普朗克软件系统研究所(主要工作完成于博阿齐奇大学)Alper Sen:土耳其博阿齐奇大学计算机工程系。

2026-04-08 17:18:48 354

原创 【智能体系统AgentOS】核心18:MPC

MPC的核心优势在于将控制问题转化为优化问题系统性地处理**多输入多输出(MIMO)**系统显式地处理约束条件(物理限制、安全限制)利用预测信息实现前瞻性的控制通过滚动优化实现反馈校正,增强鲁棒性随着计算能力的提升和高效优化算法的发展,MPC正从传统的慢速化工过程控制扩展到机器人、自动驾驶等需要毫秒级响应的快速系统。

2026-04-03 17:41:30 389

原创 【智能体系统AgentOS】核心17:openmanus和openclaw及openharness的区别

多智能体协作:支持多代理协同工作的模式,能够通过“代理市场”等方式动态分配任务,共同完成更复杂的企业级工作流。run_flow.py:为复杂任务提供更稳定的流程编排和执行能力。main.py:提供交互式命令行界面,适合快速测试和简单任务。

2026-04-03 07:51:58 662

原创 【智能体系统AgentOS】核心16:Harness

AI代码安全检查:在与 Cursor、Windsurf 等AI编程助手协作时,Secure AI Coding 工具会在开发者编写代码的同时,实时扫描AI生成的代码,一旦发现SQL注入、敏感数据泄露等风险,会立即在编辑器中高亮提示,并让AI自动修复。自愈测试:当软件的用户界面(UI)发生变化时,传统测试脚本会立即失效。AI应用运行时防护:对于接入了大模型(LLM)的AI应用,AI Security 套件可以持续监控,检测并防御提示词注入、模型越狱等新型攻击手段,确保AI应用在生产环境的安全运行。

2026-04-02 16:38:50 190

原创 《相关研究》004

本文核心建模思路围绕规模演化的层级性、认知不确定性、跨尺度关联性展开,摒弃单一尺度的静态建模思维,引入数据场、拓扑势、云模型、认知螺旋等认知物理学核心工具,量化规模扩张带来的关系复杂度、交互熵变、涌现阈值与尺度相变,建立“微观单元交互-中观结构演化-宏观复杂性涌现”的全尺度建模链条。本文立足认知物理学核心理论框架,以物质、能量、结构、时间四大认知基元为底层支撑,融合物理场论、拓扑势、不确定性量化与认知演化规律,构建面向规模问题的系统复杂性统一建模路径,破解规模与复杂性之间的非线性映射建模瓶颈。

2026-03-23 12:44:36 366

原创 【智能体系统AgentOS】核心15:ROS

智能体与机器人融合的具身体智能系统一般分为软件系统和硬件系统。

2026-03-19 20:28:20 33

原创 【智能体系统AgentOS】核心14:CLI

摘要:Agent与软件交互存在GUI翻译层和CLI直连两种方案,CLI因其高效性更优。GUI方案需多次转译,路径长、易出错,形成历史包袱。理想方案是"Skill+CLI"模块化设计:Skill(SKILL.md)存储知识逻辑,CLI提供标准化接口,实现"方法论"与"技术载体"解耦。Agent通过Skill获取执行逻辑,经CLI调用工具执行任务,系统灵活易维护。当前CLI已解决能力问题,但权限与安全治理仍是未来挑战。

2026-03-18 11:01:43 291

原创 《相关研究》003

主流具身智能采用分层模块化 + 大模型中枢的技术架构,整体分为感知层、认知决策层、运动控制层、执行器层、环境交互层五大核心层级,同时配套底层支撑体系,下面是学术界和工业界通用的完整架构解析。包括VLM+PID、规则+PID、VLA。世界模型是智能体通过感知数据学习得到的环境内部表征模型,能够对物理世界的状态、动态变化、动作 - 结果的因果关系进行建模与预测,使智能体在不实际执行动作的情况下,预演行为后果,辅助决策规划。具身智能与物理人工智能及世界模型。

2026-03-17 15:53:19 24

原创 《相关研究》002

Helios通过统一架构设计、简易抗漂移策略、深度压缩流与基础设施优化的协同创新,首次实现了14B参数模型在单GPU上的实时长视频生成,打破了“大模型=慢速度”“长视频=低质量”的固有认知。其提出的技术方案为大参数视频模型的高效化提供了全新范式,而HeliosBench基准也为领域发展提供了标准化评估工具,未来开源后有望进一步推动实时长视频生成的工业化应用。若需进一步了解某一技术细节(如对抗性分层蒸馏的数学原理)或特定实验结果(如不同时长下的性能对比),可以随时告知。

2026-03-09 11:15:12 400

原创 《相关研究》001

在高分辨率(如512×512)和大patch size场景下,预测高维噪声量会导致灾难性失败(catastrophic failures),而直接预测干净图像(x-prediction)能让"明显容量不足"的网络在极高维空间中有效运行。论文指出,当今的去噪扩散模型(如DDPM、Stable Diffusion等)在经典意义上并不真正执行"去噪"操作——它们不直接预测干净图像,而是预测噪声或加噪后的中间量(如噪声ε或速度v)。噪声(或加噪后的量,如v = x - ε)本质上是全维度、无结构的,不在流形上。

2026-03-09 11:08:49 51

原创 《具身智能》机器人001

机器人系统由硬件和软件两大部分组成,硬件系统包括机械结构和电子设备,软件系统则依托机器人操作系统运行。当前机器人已广泛应用于工业领域,主要分为VLA和DLA两种类型,满足不同场景的需求。

2026-03-09 10:55:55 36

原创 【LLM基础研究】核心五:MAD

①模型结构设计要遵循降低对数据的依赖,高质量的数据比大量的数据更有效,但目前大量数据泛化性能好。②模型结构设计要遵循降低对芯片的依赖,通过对全新的计算方法研究降低硬件层的计算、存储、通信负担。模型结构设计(Model architecture design)

2026-01-23 16:31:50 93

原创 【LLM基础研究】核心四:posttrain

大模型后训练(微调)三种方法。三、如何理论验证和工程验证。四、如何研究和工程部署应用。

2026-01-23 12:18:40 114

原创 【LLM基础研究】核心三:pretrain

大模型预训练过程。

2026-01-23 12:16:46 113

原创 【计算机基础系列】001:计算机科学与技术001

科技发展日新月异,AI技术正逐步渗透到日常生活各个领域。它不仅提高了生产效率,还改变了人们的生活方式。未来,随着算法优化与数据积累,AI将在医疗、教育、金融等行业发挥更大作用。面对机遇与挑战,持续创新与伦理规范同样重要,以确保技术造福全人类。

2026-01-23 12:14:18 208

原创 【智能体系统AgentOS】核心13:AgentOS中RAG、MCP、Skills

摘要:Skills是Agent执行任务的能力单元,具有模块化、可组合和标准化接口特性。MCP协议规范了大模型与外部工具间的通信,包含客户端、服务器和协议三大组件。其通信方式包括基于HTTP的SSE、Python实现的UVX和Node.js的NPX。UVX与NPX的主要区别在于开发语言和发布平台。文章还展示了提示词的应用模板规范示意图,为技能调用提供标准化指导。

2026-01-23 11:43:17 145

原创 【LLM基础研究】核心二:MTP

摘要:MTP(多路径传输机制)最初用于网络硬件通信,后被DeepSeek应用于大模型推理服务并行优化。传统大模型采用单会话token-by-token解码方式,存在内存访问密集和效率低下问题。MTP通过多会话词预测技术,将输入转化为并行会话预测,复用内存中的首个预测词元,显著提升训练和推理效率。该机制通过多路径并行处理,有效解决了大模型推理时的显存访问瓶颈问题。(150字)

2025-10-17 13:34:44 421

原创 【目标检测2025】

该模型能够产生高质量的密集特征,在无需微调的情况下,在多种视觉任务上达到最先进的性能,为计算机视觉领域树立了新的技术标杆。然而,传统的SSL方法在扩展到大型模型和长时间训练时,会遇到密集特征(即空间分辨率较高的特征图)质量退化的问题,这限制了其在需要精确定位信息的下游任务(如目标检测、语义分割)中的应用。无需微调的最优性能:DINOv3在无需任务特定微调的情况下,在多种任务上均达到了最先进的性能,显著超越了以往的自监督和弱监督基础模型,甚至超过了一些使用额外监督信号的方法(如掩码标注先验)。

2025-09-30 16:39:23 1109

原创 人工智能前沿-01【世界模型】

NVIDIA推出Omniverse Cloud API,为开发者提供3D设计协作与仿真工具。该API支持在云端构建和部署元宇宙应用,整合了NVIDIA AI、物理模拟及3D渲染技术。开发者可通过API访问Omniverse的核心功能,加速工业数字孪生、虚拟世界创建等应用开发。该服务现已在微软Azure上提供预览版,标志着NVIDIA在云原生3D工作流领域的重要进展。

2025-09-26 14:14:58 176

原创 【LLM基础研究】核心一:MLA

注意力机制最初用于解决图像领域的遮挡和多目标检测问题,主要分为空间注意力和通道注意力两种类型。空间注意力关注图像的空间特征,而通道注意力通过全局均值池化提取通道统计信息(如SENet方法)。多头注意力(MHA)和多层注意力(MLA)进一步扩展了注意力机制的应用能力,使其能够更有效地处理复杂数据特征。注意力机制通过动态分配权重,显著提升了神经网络在图像识别等任务中的性能表现。

2025-09-26 14:03:45 227

原创 深度学习在自动驾驶上应用(二)

摘要(150字) 本文提出FSDrive框架,通过视觉化时空链式推理(Spatio-Temporal CoT)改进自动驾驶决策。现有视觉语言模型(VLMs)依赖文本推理,易丢失时空细节。FSDrive将未来场景直接生成视觉中间帧(含车道、3D目标框等),实现渐进式推理:先粗粒度物理约束,再细化未来帧,最后规划轨迹。实验表明,其在nuScenes和DriveLM数据集上,轨迹规划(L2误差降低)、未来帧生成(FID=10.1)和场景理解均超越SOTA。关键创新是将VLM同时作为世界模型和逆动力学模型,通过视觉

2025-09-25 14:51:58 765 1

原创 【智能体系统AgentOS】核心12:如何创建一家公司

人事物时事环境团队。

2025-09-24 14:42:18 329

原创 深度学习在医学图像上应用(二)

关于在医学场景中的严肃医学情况下使用相关算法防止模型幻觉影响,相关算法如下:SHAP(SHapley Additive Explanations)和LIME(Local Interpretable Model-agnostic Explanations)是两种常用的机器学习模型可解释性方法,主要用于解释复杂模型(如黑盒模型)的预测结果。SHAP:基于博弈论的贡献度分析SHAP通过计算特征对预测结果的边际贡献来分配解释权重。

2025-09-24 13:34:46 405

原创 【智能体系统AgentOS】核心十:智能体和大模型应用

智能问答系统通常由五大核心模块组成:输入解析(自然语言处理与语义理解)、检索匹配(知识库查询与候选答案生成)、推理生成(基于规则或大模型的答案构建)、答案优化(可信度评估与格式化输出)以及扩展功能(个性化推荐与多模态交互)。这类系统常采用知识图谱与大语言模型相结合的RAG(检索增强生成)架构,实现从结构化到开放式问题的智能响应。开发者可通过模块化设计构建支持多轮对话、多模态交互的问答系统,并利用用户反馈持续优化模型表现。

2025-09-15 11:30:01 541

原创 MCP可视化报表方案

AntV 开源了 MCP 服务监控图表组件库,该项目基于 React 开发,提供丰富的可视化图表组件,适用于服务监控场景。通过 GitHub 仓库(antvis/mcp-server-chart)可获取源码,包含折线图、柱状图等常见图表类型,支持动态数据展示与交互功能。图表设计简洁美观,帮助开发者快速构建服务监控界面。该项目采用 MIT 开源协议,欢迎社区贡献。

2025-06-30 19:57:28 157

原创 【智能体系统AgentOS】核心十:A2A工具

谷歌开源A2A项目,为跨平台AI智能体通信提供统一协议。该协议通过Agent Card元数据文件实现智能体能力发现,并基于标准化HTTP接口确保安全互操作。支持多模态交互,适用于招聘协作等企业场景,提升不同AI系统间的协同效率。详见GitHub仓库。

2025-06-30 19:54:43 538

原创 【智能体系统AgentOS】核心九:MCP工具

MCP(Master Control Program)是计算机控制系统中的核心部分,负责协调和管理整个系统的功能模块。

2025-03-30 20:50:18 1290

原创 2025年图像分类,目标检测,图像分割进展总结

目标检测,图像识别,图像分割

2025-03-11 08:45:53 1791

原创 【智能体系统AgentOS】核心八:OpenVLA和OpenMTA

视觉语言动作模型

2025-03-10 18:15:58 253

原创 【智能体系统AgentOS】核心七:功能测试与性能测试

大模型与智能体测试方法

2025-03-10 15:05:26 572

原创 基于DeepSeek技术范式生成式(通用人工智能)探索:分层式强化学习

分层式强化学习通过‌任务分解‌和‌层级结构‌,将复杂问题拆分为多个子任务或子目标,使智能体能够高效学习长期策略。核心思想是‌“分而治之”‌,通过高层策略(宏观决策)和底层策略(微观执行)协作完成任务。分层式强化学习通过‌抽象化‌和‌模块化‌显著提升了复杂任务的学习效率,但在层级自动化、奖励设计等方面仍需突破。通过元控制器(Meta-Controller)动态选择子任务,如‌HiPPO(Hierarchical Policy with Options)‌等新型框架。‌内部策略‌(执行子任务的具体动作)

2025-02-20 14:35:33 519

原创 【智能体系统AgentOS】核心六:多智能体系统

Swarm是OpenAI低调发布多智能体工具,目标是为了让多个智能体协同工作。由OpenAI Solutions团队近期低调开源的一个实验性框架,专门用于帮助开发者轻松高效地设计、编排和管理多智能体系统(Multi-Agent Systems)。这一工具的核心目标是让多个智能体协同工作,以更高效地完成复杂的任务和工作流。开源项目地址:https://socialdeductionllm.github.io/论文:https://arxiv.org/abs/2502.06060。

2025-02-19 10:48:38 318

原创 DeepSeek相关创新

模型结构部分特征嵌入:特征提取:MLA训练方法部分推理方法部分。

2025-02-19 10:39:50 127

资源MIT发布的10大自然语言处理数据集和语料库

资源MIT发布的10大自然语言处理数据集和语料库

2017-07-11

模式识别基础

模式识别与模态融合与耦合学习基础,图像和语音及语义分割基础

2018-10-17

ObsPyTutorial(obspy库使用说明)

ObsPyTutorial

2017-07-06

Deep Learning in Radiology: Recent Advances, Challenges and Future Trends

Deep Learning in Radiology: Recent Advances, Challenges and Future Trends

2017-07-06

迁移学习手册

基于深度实现自己模型的优化和压缩达到项目符合应用场景的工具手册

2018-10-17

shell脚本大全

linux环境下使用shell脚本编程的资料,目前在Windows下也可使使用,windows商店有Linux

2017-11-03

python迁移学习

python迁移学习实战通过讲述构建原则解决问题和实现复杂情况来实现工程

2018-10-21

武汉大学本科Latex论文写作模板

关于学习使用latex资源的本科写作教程,通过模板学习使用latex的写作

2017-10-02

深度学习matlab代码

hinton论文代码注解 Matlab示例代码为两部分,分别对应不同的论文: 1. Reducing the Dimensionality of data with neural networks   ministdeepauto.m backprop.m rbmhidlinear.m 2. A fast learing algorithm for deep belief net   mnistclassify.m   backpropclassfy.m

2017-10-10

obspy-1.0.1-py35

obspy-1.0.1-py35库

2017-07-06

fashionAI属性识别

本来我主要介绍了标记技术和属性识别的相关检测技术和方案

2018-03-10

机器学习tensorflow安装插件

vc_redist

2017-07-06

c++学习课程讲义

c++课件

2017-07-09

算法导论参考答案

此课件是学习相关算法算法导论的辅助材料,便于深一步研究算法和编码之间的规律和编译环境的文档,是提高代码质量和优化的基础。

2017-09-03

机器人学基础

机器学习与机器人学基础资料,主要为人工智能物理层设计

2018-04-25

感知机识别数字代码

使用感知器的分类方案和SVM的过滤技术从模式识别学习深度学习算法

2017-10-02

深度学习作业

基于深度学习基础总结的基础算法题目综述和笔记总结便于学习

2018-10-17

tensorflow编码教程

本书为2018版tensflow编程教程基础使用,从项目实际出发学习张量流计算图架构

2018-03-10

计算机视觉中的数学方法

主要从数学角度分析描述计算机视觉及其研究特点通过理解理论去获得创新

2018-10-21

C语言版数据结构与算法分析

数据结构与算法分析学习基础,机器学习编码练习工具资料

2018-04-25

LaneNet训练自己教程

车道线分割模型模型训练自己的数据该模型是属于二分类语义分割

2019-03-06

谷歌大脑的近期进展

本文主要介绍谷歌大脑的整体架构和研究思路及相关研究的进展和技术细节。

2018-12-30

Docker 中文教程

大数据分布式计算基础,Docker分布式集群架构学习材料

2019-03-14

VS2019+OpenCV4.1.0教程.pdf

本文主要是使用C++环境调用模型权重文件而需要的开发环境搭建,

2019-07-02

BAT科技公司前后端面试宝典

阿里面试宝典资料, 面试目标 面试基本问题 技术细节问题 如何拿到offer

2023-08-09

如何读好一篇论文;how to read paper

学术论文写作,技术文档写作,日常笔记写作,工程实验日记,科研工作感悟。

2022-11-28

目标检测标注工具labelImg

xml数据集标注工具window版本直接下载使用标注工具,方便自己设计数据集

2019-03-18

K210_Sipeed Maix Dock教程文档pro.pdf

K210_Sipeed Maix Dock教程文档pro.pdfz主要是基于k210的芯片实现人脸关键点监测

2020-08-31

Miniforge-pypy3-Linux-aarch64.sh

在ARM A53的飞凌开发板上搭建深度学习,该环境类似anaconda一样实现包管理器。 python在ARM环境变量配置包管理器

2020-07-20

gcc-10.1.0 .tar.gz

C++编译gcc系统升级,源码升级核心编译实现最新版本。This page is a "brief" summary of some of the huge number of improvements in GCC 10. You may also want to check out our Porting to GCC 10 page and the full GCC documentation.

2020-05-19

MATLAB30例教程

使用matlab实现数据科学的工程基础,matlab教程xxxxxx

2019-04-22

深度学习及目标检测教程

目标检测及场景识别基础技术学习总览概述,该文件可以帮助从基础学到应用

2018-11-03

RFBNet模型初始化权重

RFBNet—master模型的预训练权重文件,初始化训练模型使用

2019-03-18

exchange.7z

将pb转为pbtxt文件的转换代码,将自己训练保存的ckpt模型转换为pb文件,该方法适用于任何ckpt模型,当然你需要确定ckpt模型输入/输出的节点名称。

2020-05-21

计算视觉算法原理应用第五版第二部分

计算机视觉算法原理应用英文版本 第五版 第二部分书籍

2019-01-02

github desktop

如何使用github维护自己的项目让其变得更加方便使用和学习

2019-01-18

图像处理经典算法的py实现

本资料采用传统的python实现图像的中常用的算法从而实现数据增强

2018-11-22

数据科学教程

机器学习数据科学方向教程,该教程主要是机器学习理论和函数教程

2019-04-22

tensorflow for amd and Raspberry

树莓派与ARM版本的tensorflow,为移动版本设计的疼送人flow

2019-01-10

阿里巴巴大数据及.pdf

阿里背后的大数据技术与人工智能分分别在淘宝、优酷、高德方面应用取得成果,技术如何改变社区数据发展和生活,从新定义现代技术发展与科技进步对生活的影响。

2020-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除