- 博客(223)
- 资源 (11)
- 收藏
- 关注

原创 深度学习框架比较分析及各种版本mnist识别
现在市场上流行的深度学习框架很多,常用的有tensorflow, keras,MXNet, Torch, Caffe, Theano等几种,通过对比分析可以得到:框架 开发语言 优劣及难易程度 tensorflow c++/cuda/python 资料全,灵活性好,适应性广,但前期上手难 keras c++/cuda/python ...
2019-09-06 09:37:31
795

原创 深度学习中常见的打标签工具和数据集集合
集大家之所长汇集于此,希望对有需要的你能有所帮助。一、打标签工具(1)labelimg/labelme这两款工具简便易行,前者主要用于对目标进行大致的标定,用于常见的框选标定,后者主要用于较为细致的轮廓标定,多用于mask rcnn等。安装也是很方便的,直接在终端下用pip install labelimg即可(至于labelme,需要先安装pyqt,所以先pip insta...
2018-11-05 11:12:34
51290
12

转载 从CNN到SSD目标检测机器学习方法总结
目标检测方法比较:object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里,是什么这整个流程的问题。其中检测算法的发展如下,本文主要关注后半部分的,首先可以看一下CNN,它主要用来提取图像特征做分类。(一)图像分类:CNNhttps://blog.csdn.net/l...
2018-09-03 11:36:56
5657
1

原创 Windows下用c++来调用tensorflow训练好的模型
在尝试用c++来调用tensorflow训练好的模型时确实花了一些时间,现在总结一下,以供后续的学习: 首先我想说明的一下是常见的tensorflow训练好的模型保存方式有两种:ckpt格式和pb格式,其中前者主要用于暂存我们训练的临时数据,避免发生意外导致训练终止,前面的努力全部白费掉了。而后者常用于将模型固化,提供离线预测,用户只要提供一个输入,通过模型就可以得到一个预测结...
2018-07-14 11:13:51
37908
123
原创 机器人控制算法学习笔记
通过试错与奖励机制自主学习控制策略,例如百度提出的自进化步态生成器结合强化学习的四足机器人控制算法,能适应复杂地形和高难度任务。通过控制关节角度或末端执行器的位置实现目标轨迹跟踪,常用于工业机器人。在每个时间步求解优化问题以生成最优控制信号,常用于足式机器人(如四足机器人)的步态规划,但对计算资源要求较高。未来趋势上,智能控制算法(如强化学习)与经典控制方法的融合将成为主流,推动机器人在非结构化环境中的自主性和适应性。调节机器人末端的质量-阻尼-弹簧特性,实现与环境的安全交互,适用于协作机器人。
2025-05-22 09:34:44
518
原创 多模态学习笔记
通过结合几何投影、深度学习特征对齐和中间表示的统一建模,可以高效实现图像与3D传感器数据的跨模态对齐,为自动驾驶、机器人感知等场景提供可靠的多模态融合基础。对于图像与激光雷达(LiDAR)点云、毫米波雷达等3D传感器数据的跨模态对齐,需针对数据特性设计特殊方法。通过交叉注意力机制(Cross-Attention),让两种模态的特征在细粒度上动态交互,捕捉局部对齐关系(如物体-单词对应)。通过构建正负样本对,在共享嵌入空间中拉近匹配的图像-文本对(正样本),推远不匹配的对(负样本),实现全局特征对齐。
2025-05-21 16:14:51
167
原创 视觉大模型学习总结
视觉大模型(VLMs)在视觉与语言结合的多模态任务中展现出强大能力。Idefics系列(HuggingFace)基于LLaMA/Mistral架构,支持多图输入和开放式问答,适合图文推理;Qwen-VL系列(阿里巴巴)优化中文能力,擅长中文图文理解和OCR任务;LLaVA系列(UC Berkeley)轻量且教学友好,适合视觉问答和聊天机器人;Phi-3 Vision(Microsoft)以极小模型实现高效图文理解,适合边缘设备等等。
2025-05-21 14:41:05
536
原创 nuscenes_devkit工具
nuScenes devkit 是由新加坡国立大学和 Motional 团队联合发布的自动驾驶数据集 nuScenes 的官方开发工具包。
2025-05-10 16:39:13
61
原创 mujoco仿真器学习笔记
Mujoco表示Multi-Joint dynamics with contact,它是一个通用的物理引擎, 旨在促进机器人、生物力学、图形和动画、机器学习和其他需要快速准确地模拟与其环境相互作用的铰接结构的领域。 它最初由 Roboti LLC 开发,于 2021 年 2022 月被 DeepMind 收购并免费提供,并于2022 年 5 月开源。 MuJoCo代码库可在GitHub上的deepmind/mujoco存储库中找到。
2025-05-06 17:22:38
720
原创 机器人强化学习入门学习笔记(二)
简单易实现(比 TRPO 简洁)稳定性强可用于高维动作空间(如机械臂、二足机器人)官方 MuJoCo 强化学习基准最常用的算法之一超强的样本效率(off-policy)探索能力强(鼓励策略输出分布)适合高维、复杂任务,MuJoCo 控制任务中表现优异无需精细调参,鲁棒性强比 DDPG 更稳定可靠动作输出确定性高,适合精准控制任务样本效率较好(off-policy)适用于机械臂、小车控制等任务。
2025-05-05 19:30:25
1333
原创 机器人强化学习入门学习笔记
如果你追求高精度动力学仿真、用于强化学习或机器人研究,MuJoCo 是一个非常优秀的选择。如果需要快速实验、使用真实机器人模型,PyBullet 或 Gazebo可能更合适;如果你追求大规模并行训练,Isaac Gym 或 BraX会更高效。legged gym底层是编辑isaacgym,基于gpu训练可以多环境并行训练,收敛到一个稳定行走的策略快。本视频MuJoCo基于cpu训练很慢。
2025-05-05 16:01:16
857
原创 华为昇腾CANN架构
当完成整个编译器和编译语言以及算子加速库等工作,也就是你的护城河基本构建完成,其中配件越丰富,使用的人越多也就是你的护城河越深,别人越难替代。对于英伟达的护城河CUDA架构,大家应该不会陌生。同时晟腾架构还提供了图引擎和runtime等工具。
2025-05-05 10:06:34
318
原创 sim2real学习笔记
Sim2Real(Simulation to Reality,仿真到现实)是一种让在的技术。它主要用于机器人、自动驾驶、具身智能等领域。因为现实世界的数据采集成本高、风险大、效率低,所以很多训练工作在仿真环境中进行。但仿真环境和现实之间存在“”,比如传感器噪声、物理参数、光照条件等不同,这会导致模型迁移到现实时性能下降。
2025-04-29 16:59:04
780
原创 具身智能之强化学习
在具身智能(Embodied AI)中,强化学习(Reinforcement Learning,RL)是一种非常核心的学习方法。它让智能体(agent)通过与环境交互,不断试错,学习完成任务的策略,比如走路、拿东西、开门、搬运等。
2025-04-29 16:52:41
648
原创 非结构化数据解析
从目前来看,基于 unstructured 的方案是最多的,原因是 unstructured 作为开源非结构化解析库,对不同的格式都能提供一个还不错的支持。但是从上面的测试来看,html_text 在 html 的分片支持上,看起来可以提供一个更符合人类可视化效果的切分。针对日常生活中常见的文本中出现图片,表格,公式等非结构性数据,在构建rag系统时对其有效信息提取与最后结果息息相关。当完成对非结构性数据的信息提取后,结合rag,实现对基座llm对垂直领域信息提取能力的极大增强。html_text 解析。
2025-04-27 15:56:22
120
原创 奥比中光tof相机开发学习笔记
针对奥比中光 tof相机,官方提供的资料如下Orbbec SDK Python Wrapper基于Orbbec SDK进行设计封装,主要实现接收,设备指令控制。
2025-04-16 15:13:57
913
原创 具身智能学习笔记
具身智能(Embodied Intelligence)指的是智能体在物理世界中通过身体与环境交互来学习和决策的一种智能形式。这种智能融合了感知、动作和决策,广泛应用于机器人、自主驾驶、虚拟仿真等领域。下面是具身智能的技术栈总结,从底层到上层逐层展开
2025-04-13 09:31:56
42
原创 工业相机使用笔记
通过在感光芯片上添加彩色滤镜或采用分光棱镜等方式,将光线分成不同的颜色分量,如RGB三原色,然后分别进行感光和处理,最终输出彩色图像。适用于对颜色信息有要求的场合,如在印刷品检测中,检测颜色是否准确、有无偏色;在食品检测中,根据颜色判断食品的成熟度和品质。:当光线照射到感光芯片时,光子信号转换成电子信号,通过统计电子数目形成反映光线强弱的黑白图像,光的颜色信息未被保留。在对图像颜色要求不高,注重细节和灰度信息的场合应用广泛,如金属表面裂纹检测、零件尺寸测量等,相同分辨率下,其精度高于彩色相机。
2025-04-11 15:34:16
555
原创 llm智能体总结分析
大模型Agent是一种构建于大型语言模型(LLM)之上的智能体,它具备环境感知能力、自主理解、决策制定及执行行动的能力。Agent是能够模拟独立思考过程,灵活调用各类工具,逐步达成预设目标。在技术架构上,Agent从面向过程的架构转变为面向目标的架构,旨在通过感知、思考与行动的紧密结合,完成复杂任务。这是一款可轻松实验和原型化 LangChain流水线的AI项目—LangFlow,功能上和目前。
2025-04-08 15:44:24
32
原创 好玩有趣的github开源项目分享(持续更新)
这个项目基于OpenAI o3-mini可以实现对开源项目整体结构进行分析,然后到处uml结构图,这样可以有助于快速理解整个项目代码结构,快速上手,尤其是针对不熟悉的项目时。日常在逛github时,碰到一些有意思的开源项目,今天在这里和大家一起分享。,可以自己本地部署也可以线上体验。
2025-04-01 08:59:11
750
原创 跨语言调用神器SWIG学习笔记
还记得以前python调研c++脚本时的各种苦楚,前面也总结了,今天和大家再分享一个跨语言调研的利器。SWIG 是一个软件开发工具,能够简化不同编程语言与 C 和 C++ 程序连接的开发任务。简单理解它是一款编译器,它可以获取 C/C++ 声明并创建访问这些声明所需的包装器,从而可从包括 Perl、Python、Tcl、Ruby、Guile 和 Java 在内的其他语言访问这些声明。SWIG 通常不需要修改现有代码,而且通常只需几分钟即可构建一个可用的接口。
2025-03-26 10:20:38
53
原创 大模型微调工具
大模型微调(Fine-tuning)工具库可以帮助开发者高效地微调大模型,减少计算资源消耗,提高适配性。以下是一些常见的微调工具库
2025-02-12 15:33:40
105
原创 注册器机制Registry
注册机制(Registry)是一种将名称与具体实现(如类、函数)动态绑定的设计模式,广泛应用于模块化系统和开源框架中,以提高代码的可配置性和扩展性。内部实现:注册器内部通过字典(如_obj_map)存储名称与对象的映射。但是需要注意与内置的getattr()函数区分开来,两者在动态性上互补,但解决的问题层次不同。显式注册到全局字典,通常用装饰器或注册函数。内置反射机制,直接通过字符串访问对象属性。集中管理全局名称-对象映射,支持扩展性。动态方法调用、反射式编程、简化条件逻辑。动态访问对象现有属性或方法。
2025-02-11 15:37:26
73
原创 2024-2025自动驾驶技术演进与产业破局的深度实践——一名自动驾驶算法工程师的年度技术总结与行业洞察
2024年是自动驾驶行业从"技术验证"迈向"商业化落地"的关键转折点
2025-01-23 15:50:27
1587
原创 DeepStream使用简介
deepstream是 NVIDIA 提供的一个基于 GStreamer 的多媒体处理框架,专为构建高效的智能视频分析(IVA)应用而设计。它结合了深度学习、计算机视觉和视频处理技术,广泛应用于视频监控、自动驾驶、零售分析等领域。DeepStream 支持多种深度学习模型(如 TensorRT、PyTorch、TensorFlow 等),并提供了高效的硬件加速(利用 GPU 和 NVIDIA 的硬件编解码器)。
2025-01-17 09:42:00
1270
原创 智驾大模型应用
过去的十年自动驾驶在学术界和工业界都得到了快速发展。然而,其有限的可解释性仍然是一个悬而未决的重大问题,严重阻碍了自动驾驶汽车的商业化和进一步发展。以前用小语言模型的方法,由于缺乏灵活性、泛化能力和鲁棒性而未能解决这个问题。最近,多模态大语言模型(LLM)因其通过文本处理和推理非文本数据(如图像和视频)的能力而受到研究界的极大关注。
2025-01-02 15:48:24
152
原创 deepseek-v3 llm结构详解
在后训练阶段,包括监督微调(SFT)和强化学习(RL),以使模型与人类偏好对齐,并进一步释放其潜力.同时,从DeepSeek-R1系列模型中提取推理能力,并保持模型准确性和平衡。DeepSeek-V3是一个大型的专家混合(MoE)模型,拥有6710亿个参数,其中每个token激活37亿个参数.它采用多头潜在注意力(MLA)和DeepSeekMoE架构,以实现高效的推理和经济的训练成本,此外,DeepSeek-V3引入了无辅助损失的负载平衡策略和多token预测训练目标,以提高模型性能。
2024-12-30 12:08:16
265
原创 基于cursor+Sealos+devbox完成项目全流程开发部署
想要体验一个完整开发项目开始流程,需要提前做一些准备工作(下面所有操作只是为了展示,公司级别项目技术栈不完全相同,但是可以学习借鉴一下)
2024-12-27 17:35:59
881
原创 常见Attention模块
Attention-based方法因其可解释和有效性,受到了学术界和工业界的欢迎。但是,由于论文中提出的网络结构通常被嵌入到分类、检测、分割等代码框架中,导致代码比较冗余繁杂,如果是自己想要搭建一个网络结构想要插入这些模块的话就需要对上面代码进行梳理剥离核心代码块,下面对其日常使用的attention模块进行总结,尽量保证可以做到即插即用,简单快捷。
2024-12-23 16:16:03
63
原创 autogen+ollama+litellm实现本地部署多代理智能体
autogen 是一个专门为大语言模型 (LLMs) 驱动的自治代理 (autonomous agents) 设计的 Python 库,由 Microsoft 开发和维护。它通过高度模块化和可扩展的架构,支持用户快速构建和运行多代理系统,这些代理可以在没有明确人类干预的情况下协作完成复杂任务。AutoGen 支持以最少的工作量构建基于多代理对话的下一代 LLM 应用程序。它简化了复杂的 LLM。它最大限度地提高了 LLM并克服了它们的弱点。
2024-11-23 20:52:54
775
原创 python协程学习笔记
语法,可以实现高效的并发处理,适合 I/O 密集型任务(如网络请求、文件读写)而非 CPU 密集型任务。让你在单线程中实现高效并发,非常适合需要处理大量异步 I/O 操作的场景。是 Python 的内置异步 I/O 库,用于编写异步程序。
2024-11-18 15:12:15
975
原创 手把手带你本地构建自己的RAG模型
对于大模型而言,为了增强模型在特定领域的性能,常见的做法有基于rag和finetune两种模式,当数据量较小时,一般采用前者,这样能保证模型的效果且成本小。而finetune的方式也有很多,比如sft,lora等。
2024-11-14 12:09:36
276
yolo系列预训练权重.txt
2021-03-03
matrixcookbook.pdf
2020-08-23
rufus_files.7z
2020-05-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人