人工智能研究所
头条 人工智能研究所 ,计算机视觉,NLP
展开
-
YOLO对象检测模型更新无止境—— YOLOv9模型会不会是最终版本
自从yolov系列模型发布以来,平均按照每年更新一次的版本来更新yolov系列模型,但是yolo的作者已经参与其系列模型的更新了,而后期的模型更新都是不同的团队在yolo系列模型上来更新,只是大家按照一个约定俗成的做法,在前任的基础上,更新YOLO系列的版本号。原创 2024-05-17 18:14:54 · 4 阅读 · 0 评论 -
用于对象检测的OpenCV选择性搜索,是否可以代替YOLOV3算法
“选择性搜索”试图将超像素合并在一起,以找到可能包含对象的图像区域选择性搜索基于五个关键的相似度以分层方式合并超像素:原创 2024-05-11 10:30:08 · 6 阅读 · 0 评论 -
如何给视频实时添加马赛克,这个小技巧颠覆你的想象
上期文章,我们分享了如何给图片添加马赛克,但是很多时候,我们需要给视频添加马赛克。当然你能想到的是通过后期软件处理的方法来进行,本文教你使用简单的几行代码便可以很方便的给视频添加马赛克原创 2024-03-19 20:45:05 · 47 阅读 · 0 评论 -
自媒体创业,不愿意出镜,人工智能来帮你避免露脸的尴尬
本文利用人工智能技术,给图片或者视频添加马赛克,避免自己出镜的尴尬,再也不用担心朋友圈屏蔽老爸老妈了。原创 2024-03-13 07:00:00 · 150 阅读 · 0 评论 -
opencv深度学习人工智能技术打假抖音“伪娘“之性别实时检测
抖音的美颜功能强大到能把男人变成伪娘,甚至还有年轻小伙刷礼物,疯狂追求,殊不知,你追求的大美女在生活中却是一个油腻大叔。本期文章带你如何使用人工智能技术打假抖音伪娘原创 2024-02-10 13:45:07 · 90 阅读 · 2 评论 -
AnyText多语言文字生成与编辑模型——让AI绘图自由添加精美文字
随着AIGC的爆火,图片生成技术得到飞速发展,当前AI生成的图片已达到真假难辨的高保真度。例如stable diffusion与midjourney为代表的文生图大模型。不过,当合成图片中出现文字内容时,现存的AI技术依然无法驾驭文字内容。因此,modescope提出了一种新型的文字生成方法,此方法称之为AnyTex。AnyTex可以支持中文、英语、日语、韩语等多语言的文字生成,还支持对输入图片中的文字内容进行编辑。原创 2024-01-12 18:21:46 · 274 阅读 · 0 评论 -
keras 人工智能之VGGNet神经网络的图片识别
上期文章我们分享了如何使用VGGNet CNN网络结构搭建一个图片识别网络,以及训练了神经网络模型,利用上期训练好的神经模型,可以进行我们的图片识别原创 2023-12-27 18:17:40 · 383 阅读 · 0 评论 -
keras 人工智能之VGGNet神经网络的图片识别训练
本期我们基于VGGNet神经网络来进行图片的识别,且增加图片的识别种类,当然你也可以增加更多的种类,本期代码跟往期代码有很大的相识处,可以参考。原创 2023-12-25 18:10:26 · 396 阅读 · 0 评论 -
人工智能Keras图像分类器(CNN卷积神经网络的图片识别篇)
【代码】人工智能Keras图像分类器(CNN卷积神经网络的图片识别篇)原创 2023-12-18 18:14:19 · 449 阅读 · 0 评论 -
Yolo系列又新增一员人体姿态检测模型——基于Yolo-NAS的姿态检测
YOLO-NAS的发布在对象检测模型的推理性能和效率方面实现了重大飞跃,解决了传统模型的局限性,并为各种任务和硬件提供了前所未有的适应性。YOLO-NAS模型在速度与精度上都超过了Yolov8模型,这么强大的模型当然也可以进行人体姿态检测了。YOLOv8目标检测算法模型,不仅可以进行对象检测,对象分割,对象分类等任务,还支持姿态检测,目标追踪等任务。与Yolov8系列的对象检测与人体姿态估计对比,其所有YOLO-NAS Pose模型的准确性都高于YOLOv8 Pose模型。原创 2023-12-11 12:00:00 · 102 阅读 · 0 评论 -
人工智能Keras图像分类器(CNN卷积神经网络的图片识别篇)
【代码】人工智能Keras图像分类器(CNN卷积神经网络的图片识别篇)原创 2023-11-25 11:49:11 · 171 阅读 · 0 评论 -
人工智能Keras的第一个图像分类器(CNN卷积神经网络的图片识别)
CNN卷积神经网络是人工智能的开端,CNN卷积神经网络让计算机能够认识图片,文字,甚至音频与视频。LetNet体系结构是卷积神经网络的“第一个图像分类器”。我们也可以轻松地将其扩展到其他类型的图像上,本期使用小雪人的照片,来让神经网络识别雪人雪人的图片大家可以到网络上自行下载,当然也可以使用爬虫技术来下载。原创 2023-11-18 11:02:21 · 272 阅读 · 0 评论 -
YOLO对象检测算法也这么卷了吗——基于YOLOv8的人体姿态检测
YOLOv8开源了5个尺寸大小的人体姿态检测模型,YOLOv8n-pose是尺寸最小的模型,但是其速度也是最快的模型,但也是牺牲了精确度。然后我们导入YOLO库,并加载yolov8n-pose模型,这里直接选择需要的模型即可,代码运行时会自动下载相关的模型,无需其他额外的操作。其中包括新的骨干网络,新的无锚网络检测头和新的损失函数功能。前期的文章我们介绍了很多关于YOLO系列的对象检测算法,虽然YOLO系列是应用在目标检测算法上,但是最近更新的YOLO系列算法都加入了对象分割,人体姿态检测等模型。原创 2023-11-18 10:59:36 · 130 阅读 · 0 评论 -
使用dlib,OpenCV和Python进行人脸识别—人眼瞌睡识别
通过这6个数据点,可以来定位人眼的6个数据点的坐标,从下图可以看出当人眼睁眼时,人眼上的6个数据点的坐标与人眼闭眼时的数据点坐标不完全一样,通过计算6个数据点的坐标差异,便可以通过距离的计算来判断人眼是否闭眼了,通过设置一个阈值,当人眼闭眼的时间超过阈值时,我们定义为这个人已经瞌睡了,此方案用于高速行驶的司机特别有效,以便检查司机师傅是否瞌睡了,若瞌睡了,可以发生报警等措施来叫醒司机,避免大量的车祸的发生。定义人眼纵横比阈值(19行,根据自己人眼大小来设置)提取人眼坐标,来计算人眼纵横比(55-60行)原创 2023-10-26 20:42:08 · 111 阅读 · 0 评论 -
python+opencv神经网络风格迁移--你也可以拥有梵高一样的画作
什么是神经网络的风格迁移,简单来件就是输入1张照片(自己的照片),输出具备另外一张照片(例子梵高画作)风格的图片,同时保留原本自己图片的元素,如下图片表明了神经网络风格迁移的过程,当然你也可以使用自己的神经网络训练自己的模型,本期教程利用了已经训练好的模型来进行神经网络的风格迁移。通过以上便可以很容易的把自己的图片拥有很多名人画家的风格画作,但是要想训练自己的模型,需要写神经网络来训练,这个后期分享,当然你也可以使用前期分享过的视频目标检测教程,来优化本期代码来进行视频的风格迁移。原创 2023-09-25 18:27:04 · 152 阅读 · 0 评论 -
TrOCR——基于transformer模型的OCR手写文字识别
但是随着transformer模型attention注意力机制进入计算机视觉任务,我们同样可以使用transformer来进行计算机视觉方面的任务,比如对象检测,对象分类,对象分割等,这里毕竟著名的模型VIT,Swin便是成功的把transformer的注意力机制应用到了计算机视觉任务,那么基于transformer模型的OCR识别任务,便是理所当然的了。前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别,当然那里主要使用的是CNN卷积神经网络,利用CNN卷积神经网络来训练文字识别的模型。原创 2023-09-16 13:13:53 · 339 阅读 · 0 评论 -
python神经网络一键格式化黑白视频为彩色视频
以上知识点是图片上色的主要过程,当我们分享对象检测与人脸识别时,我们总是把图片检测与人脸识别的图片与视频分开,其视频识别过程其实就是图片视频的连续检测,再把图片合成视频(现在的视频一般1秒钟有60帧的画面),若你的电脑配置能够达到此计算速度,或者稍微差点,其识别的视频都可以很流畅的运行,上期文章分享了如何把一张黑白的图片转换为彩色照片,本期基于上次的代码来进行黑白视频的转换。此算法作者为了训练神经网络,从imageNet数据集上搜集大量的数据,并将所有搜集的图像从图片的RGB空间转换为Lab空间。原创 2023-09-09 05:30:00 · 63 阅读 · 0 评论 -
高大上的YOLOV3对象检测算法,使用python也可轻松实现
遍历out层,获取检测到的label值以及置信度,检测到这里YOLOV3以及把所有的检测计算完成,但是由于yolov3对重叠图片或者靠的比较近的图片检测存在一定的问题,使用YOLOV3使用非最大值抑制来抑制弱的重叠边界。进行视频识别的思路:从视频中提取图片,进行图片识别,识别完成后,再把识别的结果实时体现在视频中,这部分代码结合前期的视频识别,大家可以参考多进程视频实时识别篇,因为没有多进程,检测速度很慢,视频看着比较卡。输入识别的图片进行图片识别,这部分代码跟往期的SSD 以及RCNN目标检测算法类似。原创 2023-09-06 18:04:57 · 171 阅读 · 0 评论 -
使用Torchvision实现Deep SORT——实时对象检测与对象追踪
类似上图图片,我们使用对象检测算法,已经检测到了骑摩托车的人,但是每个骑摩托车的人都是独立的个体,若想实现对象追踪,我们就需要给每个人添加一个标签,或者一个ID,这样在对象检测的基础上,添加对象的ID标签,并能够实时进行对象的追踪,确保对象在可检测范围内,能够被算法实时识别,且ID唯一。初始化完成后,我们就可以进行对象检测与对象追踪了。根据我们以往对象检测的算法,对视频来讲,我们也是一帧一帧图片进行提取,并对图片进行检测,此算法也是一样的道理,我们直接使用图片对象检测算法来进行对象的检测(9行代码)。原创 2023-08-28 11:45:00 · 98 阅读 · 0 评论 -
5步实现深度学习OpenCV对象检测:Faster-RCNN图片识别
定义模型识别类型Faster R-CNN模型相比SSD来说,能够识别的种类,丰富了很多,大概有100个种类,几乎包含了生活中所能涉及的种类,当然,若你有强大的数据支撑,也可以来训练自己的模型(后期分享如何来训练自己的模型)原创 2023-08-25 11:45:00 · 150 阅读 · 0 评论 -
深度学习和OpenCV对象检测(MobileNet SSD多进程视频流实时识别)
以上便是完整的代码结构,opencv没有GPU加速,采用多进程的方式,也可以加快代码运行,使用多进程,大大提高了代码运行速度,也加速了图片检测的速度,我们观看实时生成的视频时,看着也比较流畅,没有了先前的卡顿感。当for循环结束后,我们把当前帧获取的图片检测结果实时显示出来,由于多进程的设计,当进程执行时,video_start函数可以继续执行,并不是阻塞式程序,便加快了图片检测的速度,# 初始化多进程,进程初始化,使用如下函数,特别注意:target 是多进程的函数名称,无小括号。原创 2023-08-19 11:48:00 · 110 阅读 · 0 评论 -
Focus-DETR利用双重注意力机制重建编码器,打造最强目标检测模型
然后根据标准Transformer模型的编码器与解码器进行注意力机制的计算,最后把计算后的数据进行图片对象的分类,并根据检测到的位置信息,提供对象box区域,方便我们画图。DETR模型无法有效利用多尺度特征信息,而Focus-DETR构建了具有自上而下分数调制的 FTS 模块,来充分使用多尺度特征信息,提高模型的运行效率。为了解决以上的问题,Focus-DETR利用双重注意力机制重建编码器,且使用了一个跨多尺度特征的自上而下分数调制的前景标记选择器(FTS),大大提高了模型的计算效率。原创 2023-08-19 11:31:23 · 200 阅读 · 0 评论 -
深度学习和OpenCV的对象检测(MobileNet SSD视频流实时识别)
上期文章,我们分享了如何使用opencv 与MobileNet SSD模型来检测给定的图片,有网友反馈能否提供一下视频流的实时检测代码,其实我们在分享人脸识别的时候,分享了如何使用cv2.videoCpature 类来从视频中实时提取视频中的图片,进行人脸的识别,视频流的对象检测跟opencv的人脸检测一致,也可以使用cv2.videoCpature 类来从视频中实时提取视频中的图片,进行图片的对象检测,此类代码可以参考往期文章。原创 2023-08-07 18:30:13 · 165 阅读 · 0 评论 -
深度学习和OpenCV的对象检测(MobileNet SSD图像识别)
提取默认框的6层为conv11, conv13, conv14_2, conv15_2, conv16_2, conv17_2,该6层feature map 每个cell产生的默认框个数分别为3,6,6,6,6,6。)的输出个数为3*21(类别为21类,3个默认框) = 63,126, 126, 126, 126, 126。在图像中检测到20个对象(背景类为+1),包括飞机,自行车,鸟类,船,瓶,公共汽车,汽车,猫,椅子,奶牛,餐桌,狗,马,摩托车,人,盆栽植物,绵羊,沙发,火车和电视监视器。原创 2023-08-07 18:23:27 · 568 阅读 · 0 评论 -
ViLT:基于transformer模型的计算机视觉与自然语言处理多模态模型
可以从模型框图上,我们可以看到ViLT把文本使用word embedding进行数据的特征转换,并加上位置编码传递给transformer模型的encoder编码器进行特征提取,图片部分使用VIT模型的patch embedding,并添加位置编码,最后同样传递给transformer模型的encoder编码器进行注意力机制的计算。成功下载完所有的配置文件,预训练模型等配置,模型进行图片的识别,并进行输入语句的解析,并最后给出结论,这里模型成功识别出了图片中的cat,并得到了cat的数量。原创 2023-08-07 18:07:38 · 133 阅读 · 0 评论 -
PP-Matting: AI高精度图像前景Matting,让抠图轻而易举
由于官方的例子都是一人的照片,我们这里上传一张多人的照片,看看模型的预测情况。这里我们唯一需要修改的是image_path,需要matting的图片地址,其他参数选择默认即可,当然,你若是修改了模型的config配置文件地址与下载的model_path预训练模型地址,只需要修改成自己的配置文件地址即可。MediaPipe,RVM,PP-matting,以上三家科技大公司开源的算法,到底哪家比较强,可以自行运行代码来进行速度精度以及最终效果的对比,这里可以参考往期的文章进行代码的学习。原创 2023-07-29 20:13:52 · 607 阅读 · 0 评论 -
基于transformer模型的DETR竟然也可以进行对象分割
最后我们把转换好的图片数据直接传递给model模型即可,模型进行预测。然后根据标准Transformer模型的编码器与解码器进行注意力机制的计算,最后把计算后的数据进行图片对象的分类,并根据检测到的位置信息,提供对象box区域,方便我们画图。可以看到模型识别出来的对象,已经高亮显示,但是这里的可视化都是模型识别出来的单个图片的mask,我们需要把这些mask图片全部展现在一张图片上,这里我们可以使用DETR的postprocessor预处理函数来得到mask结果,并进行相关的可视化操作。原创 2023-07-25 12:30:00 · 174 阅读 · 0 评论 -
基于transformer模型的对象检测算法——BETR模型
transformer模型是google在attention is all you need论文中提出的一个应用于NLP领域的模型,但是随着VIT模型的发布,把transformer模型应用到计算机视觉任务上成为了可能,本期介绍的DETR模型就是基于transformer模型与CNN卷积神经网络的结合打造出的一个对象检测模型,从对象检测的结果来看,其使用transformer模型的对象检测方案,也能跟CNN卷积神经网络媲美。以上初始化的工作完成后,我们就可以搭建我们的BETR模型了。原创 2023-07-10 12:00:00 · 666 阅读 · 0 评论 -
InsightFace一个用于2D与3D人脸检测与识别的python库
从检测的结果来看,模型不仅进行了人脸检测,还对人脸的性别与年龄进行了预测,当然insightface不仅可以进行人脸检测,还可以进行人脸识别,只不过需要我们自己搭建自己的数据集,并进行人脸模型的训练,这个我们后期进行分享吧。使用insightface前,我们需要安装相应的第三方库,insightface主要基于pytorch,在运行本期代码前,确保自己的电脑上安装了pytorch,且版本大于1.6。人脸的检测与识别,这方面的文章,我们前期的文章也有相关的介绍,主要涉及到。原创 2023-07-05 12:00:00 · 462 阅读 · 0 评论 -
NLP领域的transformer模型竟然也可以使用到计算机视觉任务上?
hugging face的transformers模型集成了很多对象检测的模型,当然还有NLP领域的模型,本次使用的是DETR模型,由于transformers模型的高度集成,我们对DETR模型的代码并没有详细了解,下期我们会详细分享DETR模型的代码实现过程。上成为了可能,本期介绍的DETR模型就是基于transformer模型与CNN卷积神经网络的结合打造出的一个对象检测模型,从对象检测的结果来看,其使用transformer模型的对象检测方案,也能跟CNN卷积神经网络媲美。上期图文教程,我们分享了。原创 2023-06-17 11:30:00 · 75 阅读 · 0 评论 -
Segment Anything Meta开源分割一切模型,为进军元宇宙更近一步
然后我们就可以把图片传递给模型了,这里我们使用sam_vit_h_4b8939.pth预训练模型中的vit模型,SamAutomaticMaskGenerator函数帮我们建立了一个自动分割的函数,此函数会自动分割图片中的所有检测到的分类,当然此模型可以根据自己输入的坐标信息,对象种类来单独分割某个单独的对象,此部分代码我们后期进行分享。模型提供了一键分割图片的方法,当然模型也可以运行我们输入一个坐标点,一个输入框,或者输入一个对象的文本来分割输入的对象。原创 2023-06-10 12:00:00 · 118 阅读 · 0 评论 -
使用Transformer模型进行计算机视觉任务的端对端对象检测
然后根据标准Transformer模型的编码器与解码器进行注意力机制的计算,最后把计算后的数据进行图片对象的分类,并根据检测到的位置信息,提供对象box区域,方便我们画图。例如,模型可能会查看图像的其他区域,以帮助对边界框中的对象做出检测。既然是Facebook发布的模型,那么其首当其冲的便是使用pytorch框架来实现,且pytorch模型的TorchHub已经集成了此模型,我们可以直接使用TorchHub模型来实现本期代码,当然若想了解DETR模型的框架,当然最好是源代码来实现,这个我们后期进行分享。原创 2023-06-05 14:15:00 · 501 阅读 · 0 评论 -
YOLO-NAS对象检测算法再一次颠覆YOLO系列算法——已超越YOLOv8
YOLO-NAS的发布在对象检测模型的推理性能和效率方面实现了重大飞跃,解决了传统模型的局限性,并为各种任务和硬件提供了前所未有的适应性。强大的神经网络推动了对象检测的进步,增强了计算机视觉的能力。虽然目前YOLO系列模型是目前对象检测算法最好的模型,但是未来随着深度学习框架的不断发展,相信还会出现越来越多,越来越好的对象检测模型。然后我们初始化一个对象检测model,并加载coco预训练模型,一旦我们配置好了模型,便可以进行对象检测了,对象检测可以使用如下类型进行图片或者视频的检测。原创 2023-05-28 18:04:03 · 1588 阅读 · 1 评论 -
hugging face开源的transformers模型可快速搭建图片分类任务
Vision Transformer完全copy了标准的Transformer模型框架,只是在计算机视觉任务中,VIT模型只是使用了标准Transformer模型的编码器部分,从VIT模型的框架可以看出,其模型的编码器部分跟标准Transformer模型一致,只是在进行注意力机制的计算时,VIT采用了12层的结构,而标准的Transformer模型采用的是6层的结构,但是光看一层的模型结构,其2个模型的结构是一致的,毕竟官方想使用Transformer模型进行模型大一统的工作,并不希望改模型结构。原创 2023-05-25 16:00:00 · 872 阅读 · 0 评论 -
人工智能-OpenCV+Python实现人脸识别(人脸检测)
在OpenCV中使用Haar特征检测人脸,那么需要使用OpenCV提供的xml文件(级联表)在haarcascades目录下。首先要采用样本的Haar特征训练分类器,从而得到一个级联的AdaBoost分类器。例如:脸部的一些特征能由矩形特征简单的描述,如:眼睛要比脸颊颜色要深,鼻梁两侧比鼻梁颜色要深,嘴巴比周围颜色要深等。使用OpenCV的自带的模型库检测人脸很容易实现,下期我们分享一下如何从视频中检测到人脸。上述xml分别是人脸不同的部位模型,我们使用如下模型来识别人脸。原创 2023-05-25 18:33:30 · 1731 阅读 · 0 评论 -
人工智能TensorFlow MNIST手写数字识别——训练篇
卷积核,tf.nn.conv2d函数是tensoflow里面的二维的卷积函数,x是图片的所有参数,W是此卷积层的权重,步长strides=[1,1,1,1],strides[0]和strides[3]的两个1是默认值,中间两个1代表padding时在x方向运动一步,y方向运动一步,padding采用的方式是SAME。同样的形式我们定义第二层卷积,本层我们的输入就是上一层的输出,本层我们的卷积核patch的大小是5x5,有32个featuremap所以输入就是32,输出定为64。原创 2023-05-24 06:15:00 · 347 阅读 · 0 评论 -
人工智能CNN 卷积神经网络结构(tensorflow代码实现)
通过上期的分享,我们了解了手写数字识别的基本原理以及CNN卷积神经网络的基本原理,本期我们结合MNIST数据集,来用代码来实现CNN。(手写数字识别是TensorFlow人工智能最基础的案例,这个跟学习编程语言的hello Word一样)具体每个步骤的含义,我们下期分享CNN如何来识别MNIST手写数字,来一起分享具体的过程。以上便是一个完整的CNN卷积神经网络的结构。原创 2023-05-23 06:30:00 · 351 阅读 · 0 评论 -
人工智能MINIST手写数字识别之MINIST概念
举个例子,一个模型当图片上的手写体数字是9时有80%的可能性识别的结果是9,还有5%的可能性识别出的结果是8。softmax回归的作用是可以将概率分配给几个不同的对象,softmax提供了一个值处于0到1之间的列表,而列表中的值加起来为1。在训练的过程中,我们必须单独保留一份没有用于机器训练的数据作为验证的数据,这才能确保训练的结果的可行性。训练数据集和测试数据集都是同样的结构,例如:训练的图片名为 mnist.train.images 而训练的标签名为 mnist.train.labels。原创 2023-05-22 12:09:18 · 1443 阅读 · 0 评论 -
人工智能之读懂CNN卷积神经网络
•归一化:幅度归一化到同样的范围,如下所示,即减少各维度数据取值范围的差异而带来的干扰,比如,我们有两个维度的特征A和B,A范围是0到10,而B范围是0到10000,如果直接使用这两个特征是有问题的,好的做法就是归一化,即A和B的数据都变为0到1的范围。我们可以看到,在最底层特征基本上是类似的,就是各种边缘,越往上,越能提取出此类物体的一些特征(轮子、眼睛、躯干等),到最上层,不同的高级特征最终组合成相应的图像,从而能够让人类准确的区分不同的物体。当然卷积层,Relu激励层与Pooling层可以多次使用。原创 2023-05-21 07:00:00 · 647 阅读 · 0 评论 -
号称分割一切的图片分割模型开源了——Segment Anything Meta SAM
第二种,自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(例如,数千甚至数万个分割猫的例子)。模型提供了一键分割图片的方法,当然模型也可以运行我们输入一个坐标点,一个输入框,或者输入一个对象的文本来分割输入的对象。在第一阶段,注释者使用预训练的 SAM 模型在浏览器中以交互方式分割图像中的对象,在第一阶段之后,数据集包含来自12 万张图像的430 万个掩码。SAM在面对被分割对象的歧义时可以输出多个有效掩码,这是解决现实世界中分割问题的重要且必要的能力。原创 2023-05-14 17:32:59 · 543 阅读 · 0 评论