自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(153)
  • 收藏
  • 关注

原创 大模型超详细解读汇总

https://zhuanlan.zhihu.com/p/625926419https://zhuanlan.zhihu.com/p/626163710

2024-09-04 16:20:10 147

原创 Python数据可视化神器pyecharts

百度开源了一个Echarts数据可视化库,支持绘制各种主流的图表。Python在数据分析方面是十分强大的,于是,pyecharts就应运而生了。pyecharts简介及安装pyecharts继承了Echarts的优点,有如下特点:囊括了 30+ 种常见图表,应有尽有高度灵活的配置项,可轻松搭配出精美的图表多达 400+ 地图,为地理数据可视化提供强有力的支持简洁的 API 设计,使用如丝滑般流畅,支持链式调用详细内容可见:pyecharts官方文档。

2024-09-03 18:31:37 219

原创 三种相机模型总结(针孔、鱼眼、全景)

我们最常见的投影模型Perspective Projection Model描述的就是针孔相机的成像原理。从上面的图根据相似三角形可以得出参考链接 https://zhuanlan.zhihu.com/p/540969207。

2024-08-21 16:23:17 490

原创 RGB与YUV格式详解

在图像的世界里,一般使用RGB作为存储格式。而在视频的世界里,一般使用YUV作为压缩存储格式。有时候面试官会问:为什么视频使用YUV来压缩存储,而不用RGB?YUV与RGB有什么区别,两者如何转换的?常见的RGB格式有哪些,常见的YUV格式又有哪些?手机摄像头的预览格式是什么,如何转换为YUV420P的?我们带着这些问题,来揭开RGB与YUV格式的面纱。

2024-08-20 16:11:54 1793

原创 开源软件YUView的使用和编译

经常做音视频相关的开发都知道,经常需要查看yuv文件,rgb这类原始图片数据文件,所以非常需要一个好用的软件,而且支持ubuntu等linux系统的,这里极力推荐YUView这个开源的软件,有源码可以自己进行编译使用。

2024-08-20 14:20:14 709

原创 高效的PNG编码与解码库LodePNG

它提供了无损PNG图片的编码和解码功能,并以简单、高效和高度灵活的设计而受到开发者们的欢迎。总之,无论你是初次接触图像处理,还是正在寻找一个新的PNG库,LodePNG都值得一试。其简洁高效的设计和丰富的功能,无疑会为你的项目增添一份色彩。项目中的示例程序是很好的入门指南,可以帮助你快速理解如何进行PNG的读写和颜色转换等操作。嵌入式系统:对于内存有限或者计算能力有限的环境,LodePNG的简洁性和效率显得尤为重要。游戏开发:需要轻量级且高效的图像资源管理时,LodePNG是一个不错的选择。

2024-08-13 10:25:50 338

原创 CUDA编程之grid和block详解

然而,GPU硬件是专门设计来支持这种并行计算模型的,所以虽然线程在物理硬件上可能不是独立存在的,但是它们通过硬件架构和调度机制得到了有效的支持。总体来说,这两行代码定义了内核的执行配置,将整个计算空间划分为2个block,每个block包含4个线程。因此,整个执行配置定义了2x2的grid,其中包括4个2x2的block,总共16个线程。你可以将grid视为三维数组,其中x方向有2个元素,y方向有2个元素,z方向有2个元素。整体布局可以视为8个3x4x2的block,排列为2x2x2的grid。

2024-07-29 15:05:56 1166

原创 Python游戏脚本开发之大漠插件

大漠插件是集前后台,文字识别,图色,键鼠,窗口,内存,DX,Call等功能于一身的综合插件, 作者开发维护多年, 现在常见的自动化软件多依赖此插件实现.

2024-07-01 14:10:07 1554

原创 汇编程序入门指南

对比英语的祈使句 Give me money 和汇编语言的语句,就可以看出在英语的祈使句中,一 开头放置了一个表示“做什么”的动词,这个动词就相当于汇编语言中的操作码。原因就是机器语言是一堆的0和1的组合,但是每个组合都是有特定的含义的指令或数据,所以对人来说,如果只看0和1的话很难判断出各个组合都表示什么。学习汇编语言,能让你更深刻的理解计算机的运行机制和原理,使你犹如拨云见日, 找到长期困惑着自己的问题的答案,不仅能因“我能看懂程序了”而获得成就感,更能因发现“计算机原来很简单啊”而信心倍增。

2024-06-20 16:06:23 555

原创 彻底卸载Ubuntu双系统

我们卸载Ubuntu双系统,可能出于以下原因:1、Ubuntu系统内核损坏无法正常进入2、Ubuntu系统分配空间不足,直接扩区较为复杂3、以后不再使用Ubuntu,清理留出空间无论出于哪种原因,我们都是要卸载干净它。下面教大家如何将Ubuntu系统卸载干净,让电脑磁盘重新回到安装前的清爽状态。我的电脑现状是联想拯救者Y7000 512G固态硬盘 Ubuntu18.04 Win10。

2024-06-19 14:10:08 5478

原创 YUV格式与RGB格式详解

像素格式描述了像素数据存储所用的格式,定义了像素在内存中的编码方式。RGB 和 YUV 为两种经常使用的像素格式。/ 1024 / 1024 = 2.63 MB 存储空间。RGB 和 RGBA 格式RGB 图像具有三个通道 R、G、B,分别对应红、绿、蓝三个分量,由三个分量的值决定颜色,一般也叫做 RGB24;RGBA 是 RGB 图像加一个通道 alpha,即透明度,于是共有四个分量共同控制颜色,一般也叫做 RGB32。

2024-06-14 17:02:54 1137

原创 NVIDIA MPS详解

MPS多进程服务(Multi-Process Scheduling)是CUDA应用程序编程接口(API)的替代二进制兼容实现。从Kepler的GP10架构开始,NVIDIA就引入了MPS(基于软件的多进程服务),这种技术在当时实际上是称为HyperQ ,允许多个 流(stream)或者CPU的进程同时向GPU发射Kernel函数,结合为一个单一应用程序的上下文在GPU上运行,从而实现更好的GPU利用率。在单个进程的任务处理,对GPU利用率不高的情况下是非常有用的。

2024-06-13 15:54:09 1565

原创 基于帧捕获的图形调试器RenderDoc

该项目的目标是提供一个简单易用、功能齐全的工具,帮助图形程序员深入理解他们的游戏或应用程序中的渲染流程,定位并解决问题。它采用模块化设计,允许你独立分析特定的图形阶段,如顶点着色器、像素着色器等,并提供了丰富的数据可视化工具。无论你是资深的游戏开发者,还是对图形编程充满热情的学生,RenderDoc 都是你不可或缺的工具之一。它以其高效、易用和全面的功能,为图形渲染领域的探索与创新提供了强大助力。性能优化:通过对渲染流水线的深度剖析,你可以发现潜在的效率问题,比如冗余的计算或者过度复杂的着色器。

2024-06-13 14:21:08 630

原创 盘点17个C++17的高级特性

C++17是目前比较常用的版本之一,今天花时间来梳理一下17个重要特性,所有的特性也不止这么点。

2024-06-12 16:30:39 893

转载 Python游戏脚本开发-大漠插件调用

大漠插件是集前后台,文字识别,图色,键鼠,窗口,内存,DX,Call等功能于一身的综合插件, 作者开发维护多年, 现在常见的自动化软件多依赖此插件实现.

2024-05-21 10:54:26 1144

原创 windows系统CUDA的详细安装教程

hello,大家好,之前一直在ubuntu系统上做开发,今天给大家分享如何在windows系统上安装CUDA。首先需要下载两个安装包,CUDA toolkit 和 cuDNN,CUDA(Compute Unified Device Architecture)是由NVIDIA开发的并行计算平台和编程模型。它利用了NVIDIA的GPU(图形处理器)来加速计算任务,使得许多复杂的计算任务可以在GPU上并行处理,从而提高计算性能。

2024-04-23 14:14:48 8726 1

原创 windows平台游戏外挂实现原理

windows游戏外挂泛滥的根本原因就是太容易,只需要明白windows的原理。我们都知道windows下的可执行文件的扩展名为exe(executable file)。exe文件是一个二进制文件,是由0、1构成的数据流(stream),把这个数据流想象成一条有固定长度的纸带,纸带上有等分的格子,每个格子上有一个符号,要么是0,要么是1,然后按照一定的要求来读取上面的内容,比如每8个格子代表一个信息如:01000101。

2024-04-15 10:07:39 988

原创 基于TensorRT在jetson nx中部署yolov5目标检测模型

Jetson Xavier NX是nvidia开发的体型超小(只有70mm*45mm)的AI超级计算机,适用于嵌入式系统和边缘系统。NVIDIA® Jetson Xavier™ NX 是外形小巧的模组系统 (SOM),可为边缘系统提供超级计算机性能。借助高达 21 TOPS 的加速计算能力,它可以并行运行现代神经网络并处理来自多个高分辨率传感器的数据,这是完整 AI 系统的要求。Jetson Xavier NX 是生产就绪型产品,可支持所有热门 AI 框架。

2024-04-09 18:11:55 1423 1

原创 基于c++onnxruntime部署yolov5模型

最近因业务需要需要使用yolo模型来做目标检测的任务,翻了网上的各种博客没有比较完整的教程,在部署过程踩了不少坑,特别是在装英伟达驱动和cuda\cudnn版本时,甚至把ubuntu系统搞坏。于是想把训练及部署过程记录下来,并留给后来者方便使用。实验的系统是ubuntu20.04。

2024-04-09 17:40:57 2804

原创 windows系统搭建OCR半自动标注工具PaddleOCR

PaddleOCR是一个基于飞桨开发的OCR(Optical Character Recognition,光学字符识别)系统。其技术体系包括文字检测、文字识别、文本方向检测和图像处理等模块。

2024-04-09 15:04:35 2068

原创 ubuntu下修改硬盘名字和开机挂载硬盘

ubuntu下修改硬盘名字和开机挂载硬盘。

2024-03-14 14:07:19 708

原创 Ubuntu系统安装docker

Docker是一种流行的容器化平台,它能够简化应用程序的部署和管理。本文将介绍在Ubuntu操作系统上安装Docker的步骤,以便我们可以开始使用Docker来构建和运行容器化应用程序。获取更多技术资料,请点击!系统版本本文以Ubuntu20.05系统为例安装docker,Ubuntu官方下载地址。检查卸载老版本dockerubuntu下自带了docker的库,不需要添加新的源。但是ubuntu自带的docker版本太低,需要先卸载旧的再安装新的。

2024-03-13 10:21:42 912

原创 基于Pytorch搭建分布式训练环境

随着近几年大模型的问世,传统的单机单卡模式已经无法满足超大模型进行训练的要求,如何更好地、更轻松地利用多个 GPU 资源进行模型训练成为了人工智能领域的热门话题。我们今天为大家带来的这篇文章详细介绍了一种名为 DDP(Distributed Data Parallel)的并行训练技术,作者认为这项技术既高效又易于实现。(1) DDP 的核心思想是将模型和数据复制到多个 GPU 上并行训练,然后汇总平均梯度。

2024-03-08 17:02:02 1696

原创 KL散度和交叉熵的应用介绍

KL散度(Kullback-Leibler Divergence)和交叉熵(Cross Entropy)是在机器学习中广泛使用的概念。这两者都用于比较两个概率分布之间的相似性,但在一些方面,它们也有所不同。本文将对KL散度和交叉熵的详细解释和比较。在本文中,我们介绍了KL散度和交叉熵这两个概念,并比较了它们之间的异同。KL散度用于比较两个概率分布之间的差异,而交叉熵用于衡量模型预测和真实标签之间的差异。尽管它们有一定的联系,但它们在使用和应用上还是有所区别。

2024-03-07 17:06:59 976

原创 通过实验验证GAP、GMP、FC性能表现

简单来说,就是在卷积层之后,用GAP替代FC全连接层。有两个有点:一是GAP在特征图与最终的分类间转换更加简单自然;二是不像FC层需要大量训练调优的参数,降低了空间参数会使模型更加健壮,抗过拟合效果更佳。我们再用更直观的图像来看GAP的工作原理:假设卷积层的最后输出是h × w × d 的三维特征图,具体大小为6 × 6 × 3,经过GAP转换后,变成了大小为 1 × 1 × 3 的输出值,也就是每一层 h × w 会被平均化成一个值。

2024-02-29 11:23:57 1206

原创 Vision Transformer(VIT)模型介绍

这种映射方式的假设是,输入图像的特征可以被表示为低维空间中的点,这些点之间的距离可以捕捉到图像的局部和全局结构。在Vision Transformer(ViT)模型中,也存在着Inductive bias,它指的是ViT模型的设计中所假定的先验知识和偏见,这些知识和偏见可以帮助模型更好地学习和理解输入图像。Patch embedding是Vision Transformer(ViT)模型中的一个重要组成部分,它将输入图像的块转换为向量,以便输入到Transformer编码器中进行处理。

2024-01-18 18:09:23 997

原创 头部姿态估计算法原理

头部姿态估计是通过一幅面部图像来获得头部的姿态角.

2024-01-17 15:39:15 1950

原创 boost.circular_buffer的使用和介绍

如果达到容量上限,继续push_back方法压入元素时,原来begin处的元素就会被覆盖,原来begin + 1处的元素成为新的begin,push_front功能类似。这几种方式都有各自的缺点:用list构造无法实现随机访问,用vector构造移动数据头开销较大,用数组构造需要维护数据头指针和防止计数器溢出,计算位置和数据的移除也相对较麻烦。也就是说,circular_buffer的内部还是通过数组来实现,只不过给我们做好了封装工作,提供了vector类似的接口,用起来非常简便。

2024-01-17 10:27:43 1120

原创 最火的AI技术之NeRF三维重建

要说这两年哪个AI技术最火爆,NeRF绝对是其中最火爆的技术之一,随意截取了计算机视觉在哔哩哔哩发布的NeRF部分应用,可谓应用广泛,前景无限美好。NeRF(Neural Radiance Fields)是最早在2020年ECCV会议上的Best Paper,其将隐式表达推上了一个新的高度,仅用 2D 的 posed images 作为监督,即可表示复杂的三维场景。一石激起千层浪,自此之后NeRF迅速发展起来被应用到多个技术方向上例如新视点合成、三维重建等等,并取得非常好的效果,其影响力是十分巨大的。

2024-01-08 10:52:17 1179

原创 理解BatchNormalization层的作用

Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hinton对深层网络做Pre-Train开始就是一个经验领先于理论分析的偏经验的一门学问。本文是对论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》的导读。

2023-12-01 18:02:13 490

原创 AI虚拟主播开发实战(附源码)

https://blog.csdn.net/icemanyandy/article/details/124035967

2023-10-20 17:08:40 549

原创 无人直播系统开发实战(附源码)

你有看到过那种不间断型的、循环播放视频音乐的直播间吗?或者那种直播播放电影的直播间?还有层出不穷的文章,类似如下标题:“如何搭建一个24小时不间断的直播间?躺入xxxx元!“24小时电影直播间,每天到账xxx~xxxx,不出镜副业,人人可做!“50块的云服务器直播推流让我月入过千?轻轻松松打造一个属于自己的被动收入”“无人直播循环播放x个小时羊了个羊累计成交额xxxx元”看到这些文章标题,是不是心动了?慢着,本文不是要写如何使用这些技术赚钱,而是探索这些赚钱的技术到底是啥原理、是怎么做到的。

2023-10-20 17:05:32 2301

原创 如何查看onnx网络结构和参数

https://github.com/DefTruth/lite.ai.toolkithttps://www.zhihu.com/question/386526462

2023-10-19 17:26:55 631

原创 计算机视觉实战--直方图均衡化和自适应直方图均衡化

均衡化是数字图像处理中常用的一种技术,用于增强图像的视觉效果和对比度。,今天我们将实现对同一张图像的直方图均衡化和自适应直方图均衡化处理,学习一下两者的的基本原理和实现过程。直方图均衡化(Histogram Equalization)和自适应直方图均衡化(Adaptive Histogram Equalization)都是用于图像增强的技术,目的是改善图像的对比度和视觉效果。它们的主要区别在于处理图像的方式和局部性。直方图均衡化是一种全局的方法,它基于整个图像的灰度直方图来调整像素的灰度值分布。

2023-10-10 20:52:22 2474

原创 计算机视觉--通过HSV和YIQ颜色空间处理图像噪声

利用HSV和YIQ颜色空间处理图像噪声。在本次实验中,我们使用任意一张图片,通过RGB转HSV和YIQ的操作,加入了椒盐噪声并将其转换回RGB格式,最终实现对图像的噪声处理。在本文中,我们使用RGB转HSV和YIQ的操作,通过加入椒盐噪声并将其转换回RGB格式,对图像进行了噪声处理。我们展示了原始RGB图像以及其R、G、B通道的显示,接着将图像转换为HSV和YIQ格式,并在H通道和Y通道中分别加入了椒盐噪声。然后,我们将加入了噪声的H、S、V通道以及Y通道进行了显示。

2023-10-10 17:11:39 593

原创 计算机视觉--距离变换算法

计算机视觉CV是人工智能一个非常重要的领域。在本次的距离变换任务中,我们将使用D4距离度量方法来对图像进行处理。通过这次实验,我们可以更好地理解距离度量在计算机视觉中的应用。希望大家对计算机视觉和图像处理有了更深入的了解。让我们一起来看看实际的计算结果和可视化效果吧!距离变换是一种常用的方法,它可以帮助我们计算出每个像素点与最近的前景像素点之间的距离。这对于图像分析、目标检测和图像配准等任务至关重要。D4距离定义为两个像素点之间在水平和垂直方向上的绝对距离之和。

2023-10-10 10:15:52 602

原创 Linux环境变量LD_LIBRARY_PATH和LIBRARY_PATH

LIBRARY_PATH和LD_LIBRARY_PATH是Linux下的两个环境变量,二者的含义和作用分别如下:LIBRARY_PATH环境变量用于在程序编译期间查找动态链接库时指定查找共享库的路径,例如,指定gcc编译需要用到的动态链接库的目录。设置方法如下(其中,LIBDIR1和LIBDIR2为两个库目录)

2023-09-23 14:30:19 5979

原创 自动驾驶之高精地图介绍

高精地图(High Definitation Map,HD MAP),和普通导航电子地图的主要区别是精度更高、信息更丰富。精度更高主要体现在高精地图的绝对坐标精度更高(指的是地图上某个目标和外部的真实世界事物所在位置之间的精度),可以精确到厘米级别;信息更丰富主要体现在高精地图不仅包含了道路信息,还涵盖了几乎所有与交通相关的周围静态信息。相比于普通导航电子地图,高精度地图所包含的道路交通信息更丰富和准确。

2023-09-10 03:22:19 3895 1

原创 Vulkan图形开发简介

Vulkan 是 OpenGL 的下一代版本,和 DirectX 12 一样都是基于 AMD 私有的 Mantle API,不同的是 Vulkan 是开源的图形 API,它承诺通过给予开发者访问硬件底层的能力而大幅提升 3D 应用的性能。AMD 同时发布了支持 Vulkan API 的 beta 版驱动,竞争对手 Nvidia 也宣布将会发布新驱动支持 Vulkan。Vulkan 等新一代图形 API 让开发者自己去管理显存和指令,而不是将其留给驱动程序。

2023-09-07 20:22:12 328

原创 评估驾驶员头部姿态变化幅度的统计方法

评估驾驶员头部姿态变化幅度的统计方法可以帮助分析驾驶员的注意力和警觉性。这些统计方法可以根据具体的应用场景和数据类型进行选择和组合,以评估驾驶员头部姿态变化幅度,并从中获取有关驾驶员状态和行为的信息。

2023-09-06 15:42:32 283

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除