人工智能研究所
头条 人工智能研究所 ,计算机视觉,NLP
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【视觉AI的基石】斯坦福大学笔记!带你吃透卷积神经网络 (CNN)
CNN:让计算机拥有“火眼金睛”的秘诀想象一下,你怎么认出一张图片里的是猫还是狗?你不会把图片所有像素点揉成一团再看。你会先注意到一些局部特征:猫有尖耳朵、胡须,狗可能有下垂的耳朵、突出的鼻子。然后,你会把这些局部特征组合起来:尖耳朵 + 胡须 + 圆脸 ≈ 猫。最后,你综合所有信息得出结论。原创 2025-04-30 07:15:00 · 36 阅读 · 0 评论 -
无人自动驾驶技术之使用OpenCV进行相机校准
照相机与摄像头,是机器人,人工智能,计算机视觉,工业自动化甚至娱乐行业等多个领域的组成部分。在我们使用此设备时,不仅要了解照相原理外,需要使用特殊的技术对摄像头进行相机校准,特别在自动化驾驶上,需要实时的对照相机进行校准操作原创 2025-03-11 07:00:00 · 41 阅读 · 0 评论 -
USRNet端到端深度学习网络实现图片视频的超分辨率与清晰度
上期文章我们分享了基于OpenCV的超分辨率的代码实现,哪里主要使用到了EDSR、ESPCN、FSRCNN、LapSRN等模型,虽然使用OpenCV能够实现超分辨率,但是图片的清晰图并没有增加,当有一张稍微模糊的图片时,增加分辨率的同时,我们也更希望提高图片的清晰图,如上图的图片,本期文章,我们介绍一下USRNet模型结构原创 2025-03-05 07:15:00 · 48 阅读 · 0 评论 -
一步一步带你实战 FLUX.1 文生图大模型,在线体验一键出图
上期图文教程,我们分享了 flux.1 文生图大模型以及flux.1 的最新工具集,但是有网友反馈代码运行提示错误,其实代码并没有问题,只是基于 hugging face 的第三方库需要获取相关的权限,然后代码才能正常下载对应的模型权重,本期我们首先先从头介绍一下如何使用代码,并能够正常出图。原创 2025-03-05 07:00:00 · 188 阅读 · 0 评论 -
使用opencv实现深度学习的图片与视频的超分辨率
什么是视频与图片的超分辨率,总结一下便是给一张分辨率比较低的图片,进行超分辨率的处理后,生成比较清晰的高分辨率的图片,上图图片完美解释了超分辨率的过程,由于不同的算法不同,处理的结果也不相同,本期我们介绍一下如何进行图片的超分辨率的处理。原创 2025-02-13 19:04:39 · 451 阅读 · 0 评论 -
opencv+python智能车道检测,助力无人驾驶
车道检测可通过使用单目摄像机、立体摄像机、激光雷达等实现[4]。相机因其丰富的内容功能和低廉的价格而最受欢迎。深度学习(DL)提出了一种新的数据驱动方法,并且比大多数基于特征的方法获得了更好的性能。虽然DL系统在许多应用中取得了优异的性能,但它们经常被用作"黑匣子",其性能没有保证。这限制了它们在安全关键任务中的应用,例如自动驾驶的车道检测。原创 2025-01-07 18:55:02 · 193 阅读 · 0 评论 -
Python人工智能使用OpenCV进行图片形状的中心检测
我们都知道正方形(长方形)的中心是2条对角线的交点,圆的中心是一个圆的圆心,如何在对象检测以及图片检测与识别领域,判断一个形状的中心,便是计算机视觉领域中的一个基础检测原创 2024-09-30 10:08:15 · 909 阅读 · 0 评论 -
Python代码使用OpenCV进行Blob检测
什么是Blob?blob是图像中一组共享的区域,它们具有一些共同的属性(例如灰度值,形状,尺寸等)blob检测的目的是识别并标记一些特定区域,blob检测在自动化工业领域比较常见。原创 2024-09-17 11:25:33 · 867 阅读 · 0 评论 -
使用python轻松实现高大上的YOLOV4对象检测算法
YOLO系列对象检测算法,算是人工智能技术领域的一匹黑马,当开发者宣布不再为YOLO系列检测算法更新时,很多开发者瞬间失去了”精神食粮“。突然,当YOLOV4检测算法发布的时候,让很多开发者喜出望外。原创 2024-08-13 18:13:21 · 221 阅读 · 0 评论 -
计算机视觉,opencv 圆形检测
今天我们介绍一个opencv 函数cv2.HoughCircles(),此函数主要用于检测图像中的圆形,我们知道3点可以画一个圆,学习CAD的同学肯定知道,opencv使用霍夫梯度的方法进行圆的检测原创 2024-07-29 19:05:16 · 823 阅读 · 0 评论 -
sklearn聚类算法用于图片压缩与图片颜色直方图分类
sklearn聚类算法用于图片压缩原创 2024-07-23 19:18:01 · 452 阅读 · 0 评论 -
基于OpenCv的快速图片颜色交换,轻松实现图片背景更换
当我们有2张图片,很喜欢第一张图片的颜色,第2张图片的前景照片,很多时候我们需要PS进行图片的颜色转换,这当然需要我们有强大的PS功底,当然小编这里不是介绍PS的,我们使用代码完全可以代替PS 进行图片的颜色转换原创 2024-07-06 16:23:27 · 402 阅读 · 0 评论 -
Yolo系列再次更新——清华发布Yolov10端到端实时对象检测模型
前期我们刚介绍过Yolo系列模型,还以为Yolov9刚刚发布,也许今年不会再有什么更新。但是没有想到打脸如此之快,Yolov10端到端实时对象检测模型强势回归发布。原创 2024-07-06 16:18:01 · 245 阅读 · 0 评论 -
YOLO对象检测模型更新无止境—— YOLOv9模型会不会是最终版本
自从yolov系列模型发布以来,平均按照每年更新一次的版本来更新yolov系列模型,但是yolo的作者已经参与其系列模型的更新了,而后期的模型更新都是不同的团队在yolo系列模型上来更新,只是大家按照一个约定俗成的做法,在前任的基础上,更新YOLO系列的版本号。原创 2024-05-17 18:14:54 · 326 阅读 · 0 评论 -
用于对象检测的OpenCV选择性搜索,是否可以代替YOLOV3算法
“选择性搜索”试图将超像素合并在一起,以找到可能包含对象的图像区域选择性搜索基于五个关键的相似度以分层方式合并超像素:原创 2024-05-11 10:30:08 · 104 阅读 · 0 评论 -
服务器上网友上传重复图片太多,几步操作检测重复图片并删除
电脑中重复图片很多,不删吧,占用电脑资源,删除吧,一个一个的找,很是麻烦。还好我们会python,毕竟python号称是世界上无所不能的编程语言(这里请不要讨论谁是世界上最好的编程语言)原创 2024-04-15 19:06:09 · 155 阅读 · 0 评论 -
Tesseract文字识别工具,可以本地直接运行
pytesseract 是python下的的文字识别库,但是pytesseract的运行,需要tesseract的软件,所以仍然需要安装esseract。这里是小编踩到的第一个坑。想着直接安装pytesseract,就可以运行图片识别。原创 2024-04-10 21:25:49 · 144 阅读 · 0 评论 -
如何给视频实时添加马赛克,这个小技巧颠覆你的想象
上期文章,我们分享了如何给图片添加马赛克,但是很多时候,我们需要给视频添加马赛克。当然你能想到的是通过后期软件处理的方法来进行,本文教你使用简单的几行代码便可以很方便的给视频添加马赛克原创 2024-03-19 20:45:05 · 236 阅读 · 0 评论 -
自媒体创业,不愿意出镜,人工智能来帮你避免露脸的尴尬
本文利用人工智能技术,给图片或者视频添加马赛克,避免自己出镜的尴尬,再也不用担心朋友圈屏蔽老爸老妈了。原创 2024-03-13 07:00:00 · 233 阅读 · 0 评论 -
自媒体创业,不愿意出镜,人工智能来帮你自动添加马赛克
本文利用人工智能技术,给图片或者视频添加马赛克,避免自己出镜的尴尬,再也不用担心朋友圈屏蔽老爸老妈了。原创 2024-02-26 09:27:39 · 266 阅读 · 0 评论 -
opencv深度学习人工智能技术打假抖音“伪娘“之性别实时检测
抖音的美颜功能强大到能把男人变成伪娘,甚至还有年轻小伙刷礼物,疯狂追求,殊不知,你追求的大美女在生活中却是一个油腻大叔。本期文章带你如何使用人工智能技术打假抖音伪娘原创 2024-02-10 13:45:07 · 356 阅读 · 2 评论 -
AnyText多语言文字生成与编辑模型——让AI绘图自由添加精美文字
随着AIGC的爆火,图片生成技术得到飞速发展,当前AI生成的图片已达到真假难辨的高保真度。例如stable diffusion与midjourney为代表的文生图大模型。不过,当合成图片中出现文字内容时,现存的AI技术依然无法驾驭文字内容。因此,modescope提出了一种新型的文字生成方法,此方法称之为AnyTex。AnyTex可以支持中文、英语、日语、韩语等多语言的文字生成,还支持对输入图片中的文字内容进行编辑。原创 2024-01-12 18:21:46 · 470 阅读 · 0 评论 -
keras 人工智能之VGGNet神经网络的图片识别
上期文章我们分享了如何使用VGGNet CNN网络结构搭建一个图片识别网络,以及训练了神经网络模型,利用上期训练好的神经模型,可以进行我们的图片识别原创 2023-12-27 18:17:40 · 470 阅读 · 0 评论 -
keras 人工智能之VGGNet神经网络的图片识别训练
本期我们基于VGGNet神经网络来进行图片的识别,且增加图片的识别种类,当然你也可以增加更多的种类,本期代码跟往期代码有很大的相识处,可以参考。原创 2023-12-25 18:10:26 · 485 阅读 · 0 评论 -
人工智能Keras图像分类器(CNN卷积神经网络的图片识别篇)
【代码】人工智能Keras图像分类器(CNN卷积神经网络的图片识别篇)原创 2023-12-18 18:14:19 · 572 阅读 · 0 评论 -
Yolo系列又新增一员人体姿态检测模型——基于Yolo-NAS的姿态检测
YOLO-NAS的发布在对象检测模型的推理性能和效率方面实现了重大飞跃,解决了传统模型的局限性,并为各种任务和硬件提供了前所未有的适应性。YOLO-NAS模型在速度与精度上都超过了Yolov8模型,这么强大的模型当然也可以进行人体姿态检测了。YOLOv8目标检测算法模型,不仅可以进行对象检测,对象分割,对象分类等任务,还支持姿态检测,目标追踪等任务。与Yolov8系列的对象检测与人体姿态估计对比,其所有YOLO-NAS Pose模型的准确性都高于YOLOv8 Pose模型。原创 2023-12-11 12:00:00 · 289 阅读 · 0 评论 -
人工智能Keras图像分类器(CNN卷积神经网络的图片识别篇)
【代码】人工智能Keras图像分类器(CNN卷积神经网络的图片识别篇)原创 2023-11-25 11:49:11 · 279 阅读 · 0 评论 -
人工智能Keras的第一个图像分类器(CNN卷积神经网络的图片识别)
CNN卷积神经网络是人工智能的开端,CNN卷积神经网络让计算机能够认识图片,文字,甚至音频与视频。LetNet体系结构是卷积神经网络的“第一个图像分类器”。我们也可以轻松地将其扩展到其他类型的图像上,本期使用小雪人的照片,来让神经网络识别雪人雪人的图片大家可以到网络上自行下载,当然也可以使用爬虫技术来下载。原创 2023-11-18 11:02:21 · 326 阅读 · 0 评论 -
YOLO对象检测算法也这么卷了吗——基于YOLOv8的人体姿态检测
YOLOv8开源了5个尺寸大小的人体姿态检测模型,YOLOv8n-pose是尺寸最小的模型,但是其速度也是最快的模型,但也是牺牲了精确度。然后我们导入YOLO库,并加载yolov8n-pose模型,这里直接选择需要的模型即可,代码运行时会自动下载相关的模型,无需其他额外的操作。其中包括新的骨干网络,新的无锚网络检测头和新的损失函数功能。前期的文章我们介绍了很多关于YOLO系列的对象检测算法,虽然YOLO系列是应用在目标检测算法上,但是最近更新的YOLO系列算法都加入了对象分割,人体姿态检测等模型。原创 2023-11-18 10:59:36 · 284 阅读 · 0 评论 -
使用dlib,OpenCV和Python进行人脸识别—人眼瞌睡识别
通过这6个数据点,可以来定位人眼的6个数据点的坐标,从下图可以看出当人眼睁眼时,人眼上的6个数据点的坐标与人眼闭眼时的数据点坐标不完全一样,通过计算6个数据点的坐标差异,便可以通过距离的计算来判断人眼是否闭眼了,通过设置一个阈值,当人眼闭眼的时间超过阈值时,我们定义为这个人已经瞌睡了,此方案用于高速行驶的司机特别有效,以便检查司机师傅是否瞌睡了,若瞌睡了,可以发生报警等措施来叫醒司机,避免大量的车祸的发生。定义人眼纵横比阈值(19行,根据自己人眼大小来设置)提取人眼坐标,来计算人眼纵横比(55-60行)原创 2023-10-26 20:42:08 · 235 阅读 · 0 评论 -
python+opencv神经网络风格迁移--你也可以拥有梵高一样的画作
什么是神经网络的风格迁移,简单来件就是输入1张照片(自己的照片),输出具备另外一张照片(例子梵高画作)风格的图片,同时保留原本自己图片的元素,如下图片表明了神经网络风格迁移的过程,当然你也可以使用自己的神经网络训练自己的模型,本期教程利用了已经训练好的模型来进行神经网络的风格迁移。通过以上便可以很容易的把自己的图片拥有很多名人画家的风格画作,但是要想训练自己的模型,需要写神经网络来训练,这个后期分享,当然你也可以使用前期分享过的视频目标检测教程,来优化本期代码来进行视频的风格迁移。原创 2023-09-25 18:27:04 · 259 阅读 · 0 评论 -
TrOCR——基于transformer模型的OCR手写文字识别
但是随着transformer模型attention注意力机制进入计算机视觉任务,我们同样可以使用transformer来进行计算机视觉方面的任务,比如对象检测,对象分类,对象分割等,这里毕竟著名的模型VIT,Swin便是成功的把transformer的注意力机制应用到了计算机视觉任务,那么基于transformer模型的OCR识别任务,便是理所当然的了。前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别,当然那里主要使用的是CNN卷积神经网络,利用CNN卷积神经网络来训练文字识别的模型。原创 2023-09-16 13:13:53 · 634 阅读 · 0 评论 -
python神经网络一键格式化黑白视频为彩色视频
以上知识点是图片上色的主要过程,当我们分享对象检测与人脸识别时,我们总是把图片检测与人脸识别的图片与视频分开,其视频识别过程其实就是图片视频的连续检测,再把图片合成视频(现在的视频一般1秒钟有60帧的画面),若你的电脑配置能够达到此计算速度,或者稍微差点,其识别的视频都可以很流畅的运行,上期文章分享了如何把一张黑白的图片转换为彩色照片,本期基于上次的代码来进行黑白视频的转换。此算法作者为了训练神经网络,从imageNet数据集上搜集大量的数据,并将所有搜集的图像从图片的RGB空间转换为Lab空间。原创 2023-09-09 05:30:00 · 147 阅读 · 0 评论 -
高大上的YOLOV3对象检测算法,使用python也可轻松实现
遍历out层,获取检测到的label值以及置信度,检测到这里YOLOV3以及把所有的检测计算完成,但是由于yolov3对重叠图片或者靠的比较近的图片检测存在一定的问题,使用YOLOV3使用非最大值抑制来抑制弱的重叠边界。进行视频识别的思路:从视频中提取图片,进行图片识别,识别完成后,再把识别的结果实时体现在视频中,这部分代码结合前期的视频识别,大家可以参考多进程视频实时识别篇,因为没有多进程,检测速度很慢,视频看着比较卡。输入识别的图片进行图片识别,这部分代码跟往期的SSD 以及RCNN目标检测算法类似。原创 2023-09-06 18:04:57 · 254 阅读 · 0 评论 -
使用Torchvision实现Deep SORT——实时对象检测与对象追踪
类似上图图片,我们使用对象检测算法,已经检测到了骑摩托车的人,但是每个骑摩托车的人都是独立的个体,若想实现对象追踪,我们就需要给每个人添加一个标签,或者一个ID,这样在对象检测的基础上,添加对象的ID标签,并能够实时进行对象的追踪,确保对象在可检测范围内,能够被算法实时识别,且ID唯一。初始化完成后,我们就可以进行对象检测与对象追踪了。根据我们以往对象检测的算法,对视频来讲,我们也是一帧一帧图片进行提取,并对图片进行检测,此算法也是一样的道理,我们直接使用图片对象检测算法来进行对象的检测(9行代码)。原创 2023-08-28 11:45:00 · 216 阅读 · 0 评论 -
5步实现深度学习OpenCV对象检测:Faster-RCNN图片识别
定义模型识别类型Faster R-CNN模型相比SSD来说,能够识别的种类,丰富了很多,大概有100个种类,几乎包含了生活中所能涉及的种类,当然,若你有强大的数据支撑,也可以来训练自己的模型(后期分享如何来训练自己的模型)原创 2023-08-25 11:45:00 · 259 阅读 · 0 评论 -
深度学习和OpenCV对象检测(MobileNet SSD多进程视频流实时识别)
以上便是完整的代码结构,opencv没有GPU加速,采用多进程的方式,也可以加快代码运行,使用多进程,大大提高了代码运行速度,也加速了图片检测的速度,我们观看实时生成的视频时,看着也比较流畅,没有了先前的卡顿感。当for循环结束后,我们把当前帧获取的图片检测结果实时显示出来,由于多进程的设计,当进程执行时,video_start函数可以继续执行,并不是阻塞式程序,便加快了图片检测的速度,# 初始化多进程,进程初始化,使用如下函数,特别注意:target 是多进程的函数名称,无小括号。原创 2023-08-19 11:48:00 · 181 阅读 · 0 评论 -
Focus-DETR利用双重注意力机制重建编码器,打造最强目标检测模型
然后根据标准Transformer模型的编码器与解码器进行注意力机制的计算,最后把计算后的数据进行图片对象的分类,并根据检测到的位置信息,提供对象box区域,方便我们画图。DETR模型无法有效利用多尺度特征信息,而Focus-DETR构建了具有自上而下分数调制的 FTS 模块,来充分使用多尺度特征信息,提高模型的运行效率。为了解决以上的问题,Focus-DETR利用双重注意力机制重建编码器,且使用了一个跨多尺度特征的自上而下分数调制的前景标记选择器(FTS),大大提高了模型的计算效率。原创 2023-08-19 11:31:23 · 396 阅读 · 0 评论 -
深度学习和OpenCV的对象检测(MobileNet SSD视频流实时识别)
上期文章,我们分享了如何使用opencv 与MobileNet SSD模型来检测给定的图片,有网友反馈能否提供一下视频流的实时检测代码,其实我们在分享人脸识别的时候,分享了如何使用cv2.videoCpature 类来从视频中实时提取视频中的图片,进行人脸的识别,视频流的对象检测跟opencv的人脸检测一致,也可以使用cv2.videoCpature 类来从视频中实时提取视频中的图片,进行图片的对象检测,此类代码可以参考往期文章。原创 2023-08-07 18:30:13 · 311 阅读 · 0 评论 -
深度学习和OpenCV的对象检测(MobileNet SSD图像识别)
提取默认框的6层为conv11, conv13, conv14_2, conv15_2, conv16_2, conv17_2,该6层feature map 每个cell产生的默认框个数分别为3,6,6,6,6,6。)的输出个数为3*21(类别为21类,3个默认框) = 63,126, 126, 126, 126, 126。在图像中检测到20个对象(背景类为+1),包括飞机,自行车,鸟类,船,瓶,公共汽车,汽车,猫,椅子,奶牛,餐桌,狗,马,摩托车,人,盆栽植物,绵羊,沙发,火车和电视监视器。原创 2023-08-07 18:23:27 · 688 阅读 · 0 评论