自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 训练后数据集后部署PaddleOCR转trt流程

摘要:本文详细介绍了PaddleOCR模型从训练到部署的完整流程。首先通过conda创建虚拟环境并安装PaddlePaddle和PaddleOCR,然后导出Paddle推理模型并转换为ONNX格式。接着使用自定义脚本对ONNX模型进行优化,包括重命名输入输出节点和模型简化。最后将优化后的ONNX模型转换为TensorRT引擎,支持FP16加速和动态shape处理。整个过程涵盖了从PaddleOCR训练到多种推理框架部署的关键步骤,适用于OCR模型在多种平台上的应用部署。

2025-08-21 18:21:32 1559

原创 基于Pytochvideo训练自己的的视频分类模型

X3D 的设计思路受到机器学习中特征选择方法的启发,它基于 X2D 图像分类模型,通过一种逐步扩展的方式,将 2D 空间建模拓展为 3D 时空建模。具体来说,X3D 在网络的宽度、深度、帧率、帧数和分辨率等维度上,依次只对单一维度进行扩展,并在每一步中综合考虑计算量与精度表现,从而选择最优的扩展策略。

2025-08-20 23:12:13 951 1

原创 PaddleOCR字符识别,训练自己的数据集全流程(环境、标注、训练、推理)

PaddleOCR是基于百度飞桨框架的开源OCR工具,支持80多种语言,适用于复杂文本场景。本文介绍了PaddleOCR的环境配置、数据集制作和模型训练流程。首先通过conda创建虚拟环境并安装PaddlePaddle和PaddleOCR,然后使用PPOCRLabel工具标注数据集,划分训练集、验证集和测试集。接着下载预训练权重,分别训练文本检测和识别模型,最后评估模型性能并导出静态图模型。整个过程涵盖了从数据准备到模型部署的完整OCR开发流程,适用于票据识别、文档数字化等应用场景。

2025-08-17 14:34:22 1884 4

原创 深度学习ubuntu系统常用指令和技巧

本文整理了常用Linux命令与开发环境操作指南,涵盖8个核心方面:1)Conda/Python环境管理(创建/删除虚拟环境、包安装等);2)文件操作(创建/删除/压缩/解压文件);3)系统变量配置(环境变量编辑与刷新);4)资源监控(GPU/CPU/内存查看);5)终端技巧(历史命令搜索、字体调整);6)进程管理(挂起/终止进程);7)远程操作(SCP文件传输、SSH连接);8)Git操作(克隆项目、子模块更新)。特别包含清华源加速、环境导出等实用技巧,为开发者提供一站式命令行参考手册。

2025-08-14 23:26:58 597

原创 X-AnyLabeling--AI自动标注标签软件Windows安装使用教程

X-AnyLabeling是一款支持AI辅助的数据标注工具,提供便捷的安装和使用体验。用户可从GitHub下载对应系统版本,直接运行GUI界面。标注时支持快捷键操作(R键绘制普通框/O键绘制旋转框),并可将标注结果导出为YOLO等格式。此外,文章还提供了数据集分割的Python脚本,可自动将标注数据划分为训练集和验证集,支持自定义验证集比例和随机种子设置。该工具能有效提升数据标注效率,特别适合计算机视觉项目的开发需求。

2025-08-12 16:44:29 1169

原创 Autudl华为昇腾系列NPU简介和部署推理yolo11 yolov8 yolov5分割模型

本文介绍了在昇腾AI处理器上部署YOLO系列模型的完整流程。首先概述了华为昇腾芯片(Ascend 310/910/910C)和MindSpore框架的特性,以及CANN计算架构的作用。然后详细说明了环境配置步骤:1)创建conda环境并安装依赖库;2)准备YOLO源码和模型权重;3)模型转换过程(.pt→.onnx→.om);4)编写推理代码,包括预处理、推理和后处理模块;5)运行推理命令。重点介绍了如何利用ais_bench工具进行高性能推理,并处理了可能出现的环境配置问题。该方案实现了YOLO模型在昇腾

2025-08-11 21:13:42 1557 4

原创 Autudl+xterminal云服务器显卡跑深度学习的全流程

《AutoDL云GPU租用与远程开发简明指南》:1.登录AutoDL官网选择合适显卡和镜像创建实例;2.使用XTerminal连接SSH(需复制账号、密码、端口号信息);3.通过拖拽上传文件至指定目录;4.运行nvidia-smi命令查看显卡状态。全文详细介绍了从租用GPU到远程开发的完整流程,重点说明了SSH连接配置和文件传输方法。(149字)

2025-08-07 16:57:41 1702

原创 Autudl华为昇腾系列NPU简介和部署推理yolo11 yolov8 yolov5目标检测模型

本文介绍了在昇腾AI处理器上部署YOLO目标检测模型的完整流程。首先配置Autodl环境并安装必要的工具库,包括创建conda环境、安装ultralytics库和ais_bench推理工具。接着进行模型转换:将.pt模型转为ONNX格式,再通过ATC工具转换为昇腾专用的.om格式。文中提供了详细的推理代码实现,包含预处理、推理和后处理全流程,支持YOLOv5/v8/v10等多种版本的后处理方式。最后通过命令行启动推理,可指定输入输出路径、置信度阈值等参数。整个方案实现了从模型转换到推理部署的完整链路,适用于

2025-08-04 19:56:59 1086 9

原创 Nano-owl开放词汇目标检测项目安装及推理流程

Nano-OWL是一个轻量化的开放词汇目标检测模型,支持通过文本描述检测任意类别目标。本文介绍了其环境搭建和部署流程:首先配置CUDA 11.8和PyTorch 2.0.1环境,安装相关依赖库如Transformers和Flash Attention;然后克隆项目代码并构建TensorRT引擎;最后演示了终端和Python两种推理方式,通过输入文本提示和图像即可实现目标检测。该项目由NVIDIA开发,适用于需要高效开放词汇检测的场景。

2025-08-02 10:02:12 792

原创 C++调用Python脚本实现PaddleOCR数字文字识别

本项目实现了在C++程序中调用Python的PaddleOCR功能,通过高效的图像数据传递机制,将 OpenCV读取的图像传递给Python Paddle OCR引擎处理,并返回结构化的识别结果。系统采用C++主程序与Python Paddle OCR模块分离的架构: C++层:负责图像加载、预处理和界面交互。Python层:封装PaddleOCR功能,提供OCR处理服务。

2025-08-02 02:24:02 1141

原创 视觉岗面试准备:DL视觉算法基础知识准备(持续更新)

本文总结了深度学习的核心知识点,包括:1)PyTorch和TensorFlow框架特性对比;2)卷积计算、激活函数、梯度问题等基础概念;3)BatchNorm、过拟合等训练优化技术;4)SGD、Adam等优化器特点;5)SVM、Transformer、CNN等模型的原理与比较;6)感受野、样本不均衡等实际问题。重点分析了各类技术的优缺点及适用场景,如PyTorch适合研究而TensorFlow利于部署,Adam收敛快但泛化能力弱于SGD等。同时探讨了残差连接、位置编码等设计思想的作用机制,为深度学习实践提供

2025-07-23 14:52:50 638

原创 YOLO11-包括obb全系列使用C++及trt进行推理(详细版)

本文介绍了使用TensorRT-YOLO项目进行YOLO模型推理的完整流程。主要包括:1. 环境配置与项目编译,包括安装pybind11、设置TensorRT路径和解决efficientRotatedNMSInference.cuh文件报错问题;2. 模型转换过程,将训练好的.pt文件转换为.onnx格式,再通过trtexec工具生成.engine文件;3. 模型推理执行步骤,包括编译示例代码和运行推理命令。文中提供了详细的命令参数说明和路径设置方法,并特别强调了使用本项目代码进行格式转换的必要性,指出官方

2025-07-22 14:27:47 1163

原创 视觉岗面试准备:视觉常见模型简介

本文摘要: YOLOv11支持多任务检测(实例分割、旋转框、姿态估计等),提供五种不同参数量模型,采用C3k2+GSConv等优化技术实现轻量化高精度。Vision Transformer通过Patch Embeddings处理图像,利用Multi-Head Self-Attention捕获全局依赖,但需注意计算复杂度。ResNet通过残差连接解决梯度消失问题,支持深层网络训练。SAM结合预训练与提示机制实现零样本分割,包含图像编码器、提示编码器和掩码解码器。PaddleOCR提供轻量化OCR解决方案,包含

2025-07-19 21:31:39 859

原创 训练一个自己数据集的yolo11s-obb(旋转矩形框)模型全过程

本文介绍了YOLOv11目标检测模型的完整使用流程:1)环境准备(CUDA、Cudnn、Conda等);2)下载YOLO官方源码并创建Python 3.10虚拟环境;3)使用X-AnyLabeling工具标注数据并导出YOLO格式;4)通过Python脚本自动划分训练集和验证集;5)配置YAML文件并训练模型;6)提供了图像和视频推理的代码示例。整个流程涵盖了从环境搭建到模型训练和部署的全过程,特别说明了数据标注、格式转换和训练参数配置等关键步骤。

2025-07-18 10:17:27 884 6

原创 视觉岗面试准备:目标检测评价指标

目标检测评价指标主要包括:TP(正确检测)、FP(错误检测)和FN(漏检)。核心指标有:1)精确率(Precision)衡量检测准确性;2)召回率(Recall)反映检测完整性;3)F1分数综合两者;4)平均精度(AP)通过PR曲线面积评估性能;5)mAP是多类别AP的平均值。其中IoU阈值(如0.5-0.95)决定检测是否匹配。这些指标共同评估模型在准确性和完整性上的表现,mAP是综合性能的重要指标。

2025-07-17 10:16:53 674

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除