计算机视觉
文章平均质量分 74
工头阿乐
一起进步
展开
-
大模型超详细解读汇总
https://zhuanlan.zhihu.com/p/625926419https://zhuanlan.zhihu.com/p/626163710原创 2024-09-04 16:20:10 · 168 阅读 · 0 评论 -
三种相机模型总结(针孔、鱼眼、全景)
我们最常见的投影模型Perspective Projection Model描述的就是针孔相机的成像原理。从上面的图根据相似三角形可以得出参考链接 https://zhuanlan.zhihu.com/p/540969207。原创 2024-08-21 16:23:17 · 523 阅读 · 0 评论 -
基于TensorRT在jetson nx中部署yolov5目标检测模型
Jetson Xavier NX是nvidia开发的体型超小(只有70mm*45mm)的AI超级计算机,适用于嵌入式系统和边缘系统。NVIDIA® Jetson Xavier™ NX 是外形小巧的模组系统 (SOM),可为边缘系统提供超级计算机性能。借助高达 21 TOPS 的加速计算能力,它可以并行运行现代神经网络并处理来自多个高分辨率传感器的数据,这是完整 AI 系统的要求。Jetson Xavier NX 是生产就绪型产品,可支持所有热门 AI 框架。原创 2024-04-09 18:11:55 · 1460 阅读 · 1 评论 -
基于c++onnxruntime部署yolov5模型
最近因业务需要需要使用yolo模型来做目标检测的任务,翻了网上的各种博客没有比较完整的教程,在部署过程踩了不少坑,特别是在装英伟达驱动和cuda\cudnn版本时,甚至把ubuntu系统搞坏。于是想把训练及部署过程记录下来,并留给后来者方便使用。实验的系统是ubuntu20.04。原创 2024-04-09 17:40:57 · 2921 阅读 · 0 评论 -
windows系统搭建OCR半自动标注工具PaddleOCR
PaddleOCR是一个基于飞桨开发的OCR(Optical Character Recognition,光学字符识别)系统。其技术体系包括文字检测、文字识别、文本方向检测和图像处理等模块。原创 2024-04-09 15:04:35 · 2196 阅读 · 0 评论 -
Vision Transformer(VIT)模型介绍
这种映射方式的假设是,输入图像的特征可以被表示为低维空间中的点,这些点之间的距离可以捕捉到图像的局部和全局结构。在Vision Transformer(ViT)模型中,也存在着Inductive bias,它指的是ViT模型的设计中所假定的先验知识和偏见,这些知识和偏见可以帮助模型更好地学习和理解输入图像。Patch embedding是Vision Transformer(ViT)模型中的一个重要组成部分,它将输入图像的块转换为向量,以便输入到Transformer编码器中进行处理。原创 2024-01-18 18:09:23 · 1014 阅读 · 0 评论 -
最火的AI技术之NeRF三维重建
要说这两年哪个AI技术最火爆,NeRF绝对是其中最火爆的技术之一,随意截取了计算机视觉在哔哩哔哩发布的NeRF部分应用,可谓应用广泛,前景无限美好。NeRF(Neural Radiance Fields)是最早在2020年ECCV会议上的Best Paper,其将隐式表达推上了一个新的高度,仅用 2D 的 posed images 作为监督,即可表示复杂的三维场景。一石激起千层浪,自此之后NeRF迅速发展起来被应用到多个技术方向上例如新视点合成、三维重建等等,并取得非常好的效果,其影响力是十分巨大的。原创 2024-01-08 10:52:17 · 1253 阅读 · 0 评论 -
解决安装face_detection失败问题
安装retinaface,提示ERROR: Could not find a version that satisfies the requirement face_detection (from versions: none)原创 2023-07-27 14:17:33 · 885 阅读 · 0 评论 -
NVIDIA Deep Learning Accelerator (DLA) 输入输出的几种张量格式
DLA_LINEAR 是 NVIDIA Deep Learning Accelerator (DLA) 所支持的一种内存组织方式,它是一种行优先存储的连续内存块格式,用于存储卷积层和全连接层的输入输出数据。在 DLA_LINEAR 格式中,每个元素都是一个定点数,可以是 8 位或 16 位,具体取决于网络的精度要求。在 DLA_LINEAR 格式中,一维数组中的每个元素都是一个定点数,代表了卷积核或全连接层的一个输入或输出通道的值。原创 2023-07-14 21:37:31 · 926 阅读 · 0 评论 -
TextFuseNet:具有更丰富融合特征的场景文本检测
自然场景中任意形状文本的检测是一个极具挑战性的问题任务。不像现有的文本检测方法都是基于有限的特征表示,本文提出了一种新的文本检测框架TextFuseNet,以探索利用更丰富的特征融合进行文本检测。更具体地说,我们提出从字符、单词和全局三个层次的特征表示来感知文本,然后引入一种新的文本表示融合技术来实现鲁棒的任意文本检测。多层次特征表示可以在保持文本整体语义的同时,通过将文本分解为单个字符来精确地描述文本。原创 2023-07-06 15:56:22 · 351 阅读 · 0 评论