范男-CSDN博客

原创训练后数据集后部署PaddleOCR转trt流程

摘要：本文详细介绍了PaddleOCR模型从训练到部署的完整流程。首先通过conda创建虚拟环境并安装PaddlePaddle和PaddleOCR，然后导出Paddle推理模型并转换为ONNX格式。接着使用自定义脚本对ONNX模型进行优化，包括重命名输入输出节点和模型简化。最后将优化后的ONNX模型转换为TensorRT引擎，支持FP16加速和动态shape处理。整个过程涵盖了从PaddleOCR训练到多种推理框架部署的关键步骤，适用于OCR模型在多种平台上的应用部署。

2025-08-21 18:21:32 1559

原创基于Pytochvideo训练自己的的视频分类模型

X3D 的设计思路受到机器学习中特征选择方法的启发，它基于 X2D 图像分类模型，通过一种逐步扩展的方式，将 2D 空间建模拓展为 3D 时空建模。具体来说，X3D 在网络的宽度、深度、帧率、帧数和分辨率等维度上，依次只对单一维度进行扩展，并在每一步中综合考虑计算量与精度表现，从而选择最优的扩展策略。

2025-08-20 23:12:13 951 1

原创 PaddleOCR字符识别，训练自己的数据集全流程（环境、标注、训练、推理）

PaddleOCR是基于百度飞桨框架的开源OCR工具，支持80多种语言，适用于复杂文本场景。本文介绍了PaddleOCR的环境配置、数据集制作和模型训练流程。首先通过conda创建虚拟环境并安装PaddlePaddle和PaddleOCR，然后使用PPOCRLabel工具标注数据集，划分训练集、验证集和测试集。接着下载预训练权重，分别训练文本检测和识别模型，最后评估模型性能并导出静态图模型。整个过程涵盖了从数据准备到模型部署的完整OCR开发流程，适用于票据识别、文档数字化等应用场景。

2025-08-17 14:34:22 1884 4

原创深度学习ubuntu系统常用指令和技巧

本文整理了常用Linux命令与开发环境操作指南，涵盖8个核心方面：1)Conda/Python环境管理（创建/删除虚拟环境、包安装等）；2)文件操作（创建/删除/压缩/解压文件）；3)系统变量配置（环境变量编辑与刷新）；4)资源监控（GPU/CPU/内存查看）；5)终端技巧（历史命令搜索、字体调整）；6)进程管理（挂起/终止进程）；7)远程操作（SCP文件传输、SSH连接）；8)Git操作（克隆项目、子模块更新）。特别包含清华源加速、环境导出等实用技巧，为开发者提供一站式命令行参考手册。

2025-08-14 23:26:58 597

原创 X-AnyLabeling--AI自动标注标签软件Windows安装使用教程

X-AnyLabeling是一款支持AI辅助的数据标注工具，提供便捷的安装和使用体验。用户可从GitHub下载对应系统版本，直接运行GUI界面。标注时支持快捷键操作（R键绘制普通框/O键绘制旋转框），并可将标注结果导出为YOLO等格式。此外，文章还提供了数据集分割的Python脚本，可自动将标注数据划分为训练集和验证集，支持自定义验证集比例和随机种子设置。该工具能有效提升数据标注效率，特别适合计算机视觉项目的开发需求。

2025-08-12 16:44:29 1169

原创 Autudl华为昇腾系列NPU简介和部署推理yolo11 yolov8 yolov5分割模型

本文介绍了在昇腾AI处理器上部署YOLO系列模型的完整流程。首先概述了华为昇腾芯片（Ascend 310/910/910C）和MindSpore框架的特性，以及CANN计算架构的作用。然后详细说明了环境配置步骤：1)创建conda环境并安装依赖库；2)准备YOLO源码和模型权重；3)模型转换过程（.pt→.onnx→.om）；4)编写推理代码，包括预处理、推理和后处理模块；5)运行推理命令。重点介绍了如何利用ais_bench工具进行高性能推理，并处理了可能出现的环境配置问题。该方案实现了YOLO模型在昇腾

2025-08-11 21:13:42 1557 4

原创 Autudl+xterminal云服务器显卡跑深度学习的全流程

《AutoDL云GPU租用与远程开发简明指南》：1.登录AutoDL官网选择合适显卡和镜像创建实例；2.使用XTerminal连接SSH（需复制账号、密码、端口号信息）；3.通过拖拽上传文件至指定目录；4.运行nvidia-smi命令查看显卡状态。全文详细介绍了从租用GPU到远程开发的完整流程，重点说明了SSH连接配置和文件传输方法。（149字）

2025-08-07 16:57:41 1702

原创 Autudl华为昇腾系列NPU简介和部署推理yolo11 yolov8 yolov5目标检测模型

本文介绍了在昇腾AI处理器上部署YOLO目标检测模型的完整流程。首先配置Autodl环境并安装必要的工具库，包括创建conda环境、安装ultralytics库和ais_bench推理工具。接着进行模型转换：将.pt模型转为ONNX格式，再通过ATC工具转换为昇腾专用的.om格式。文中提供了详细的推理代码实现，包含预处理、推理和后处理全流程，支持YOLOv5/v8/v10等多种版本的后处理方式。最后通过命令行启动推理，可指定输入输出路径、置信度阈值等参数。整个方案实现了从模型转换到推理部署的完整链路，适用于

2025-08-04 19:56:59 1086 9

原创 Nano-owl开放词汇目标检测项目安装及推理流程

Nano-OWL是一个轻量化的开放词汇目标检测模型，支持通过文本描述检测任意类别目标。本文介绍了其环境搭建和部署流程：首先配置CUDA 11.8和PyTorch 2.0.1环境，安装相关依赖库如Transformers和Flash Attention；然后克隆项目代码并构建TensorRT引擎；最后演示了终端和Python两种推理方式，通过输入文本提示和图像即可实现目标检测。该项目由NVIDIA开发，适用于需要高效开放词汇检测的场景。

2025-08-02 10:02:12 792

原创 C++调用Python脚本实现PaddleOCR数字文字识别

本项目实现了在C++程序中调用Python的PaddleOCR功能，通过高效的图像数据传递机制，将 OpenCV读取的图像传递给Python Paddle OCR引擎处理，并返回结构化的识别结果。系统采用C++主程序与Python Paddle OCR模块分离的架构： C++层：负责图像加载、预处理和界面交互。Python层：封装PaddleOCR功能，提供OCR处理服务。

2025-08-02 02:24:02 1141

原创视觉岗面试准备：DL视觉算法基础知识准备（持续更新）

本文总结了深度学习的核心知识点，包括：1）PyTorch和TensorFlow框架特性对比；2）卷积计算、激活函数、梯度问题等基础概念；3）BatchNorm、过拟合等训练优化技术；4）SGD、Adam等优化器特点；5）SVM、Transformer、CNN等模型的原理与比较；6）感受野、样本不均衡等实际问题。重点分析了各类技术的优缺点及适用场景，如PyTorch适合研究而TensorFlow利于部署，Adam收敛快但泛化能力弱于SGD等。同时探讨了残差连接、位置编码等设计思想的作用机制，为深度学习实践提供

2025-07-23 14:52:50 638

原创 YOLO11-包括obb全系列使用C++及trt进行推理（详细版）

本文介绍了使用TensorRT-YOLO项目进行YOLO模型推理的完整流程。主要包括：1. 环境配置与项目编译，包括安装pybind11、设置TensorRT路径和解决efficientRotatedNMSInference.cuh文件报错问题；2. 模型转换过程，将训练好的.pt文件转换为.onnx格式，再通过trtexec工具生成.engine文件；3. 模型推理执行步骤，包括编译示例代码和运行推理命令。文中提供了详细的命令参数说明和路径设置方法，并特别强调了使用本项目代码进行格式转换的必要性，指出官方

2025-07-22 14:27:47 1163

原创视觉岗面试准备：视觉常见模型简介

本文摘要： YOLOv11支持多任务检测（实例分割、旋转框、姿态估计等），提供五种不同参数量模型，采用C3k2+GSConv等优化技术实现轻量化高精度。Vision Transformer通过Patch Embeddings处理图像，利用Multi-Head Self-Attention捕获全局依赖，但需注意计算复杂度。ResNet通过残差连接解决梯度消失问题，支持深层网络训练。SAM结合预训练与提示机制实现零样本分割，包含图像编码器、提示编码器和掩码解码器。PaddleOCR提供轻量化OCR解决方案，包含

2025-07-19 21:31:39 859

原创训练一个自己数据集的yolo11s-obb（旋转矩形框）模型全过程

本文介绍了YOLOv11目标检测模型的完整使用流程：1）环境准备（CUDA、Cudnn、Conda等）；2）下载YOLO官方源码并创建Python 3.10虚拟环境；3）使用X-AnyLabeling工具标注数据并导出YOLO格式；4）通过Python脚本自动划分训练集和验证集；5）配置YAML文件并训练模型；6）提供了图像和视频推理的代码示例。整个流程涵盖了从环境搭建到模型训练和部署的全过程，特别说明了数据标注、格式转换和训练参数配置等关键步骤。

2025-07-18 10:17:27 884 6

原创视觉岗面试准备：目标检测评价指标

目标检测评价指标主要包括：TP（正确检测）、FP（错误检测）和FN（漏检）。核心指标有：1）精确率（Precision）衡量检测准确性；2）召回率（Recall）反映检测完整性；3）F1分数综合两者；4）平均精度（AP）通过PR曲线面积评估性能；5）mAP是多类别AP的平均值。其中IoU阈值（如0.5-0.95）决定检测是否匹配。这些指标共同评估模型在准确性和完整性上的表现，mAP是综合性能的重要指标。

2025-07-17 10:16:53 674

wwwwww7733的博客