自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (4)
  • 收藏
  • 关注

原创 YOLOv10实时端到端目标检测

距离上次写YOLOv5已经过去了两年,正好最近用YOLOv10重构了项目,总结下YOLOv10。YOLOv10真正实时端到端目标检测,那么什么是端到端?端到端目标检测是一种从原始数据输入到最终结果输出的直接过程,无需分步骤处理或人工干预。在YOLOv10中移除非最大抑制(NMS),从而减少了推理延迟。

2024-08-19 10:09:34 2274

原创 EchoMimic—语音驱动图像

EchoMimic是阿里巴巴达摩院推出的一个AI驱动的口型同步技术项目。通过一段音频和一张人物的面部照片,生成一个看起来像是在说话的视频,其中的人物口型动作与音频中的语音完美匹配。EchoMimic优点:1.口型同步生成:能根据音频和面部照片,创造出口型动作与语音完美匹配的视频。2.自然逼真:它会融合音频和面部特征,生成的面部动画看起来很符合真实的面部运动和表情变化。3.多语言支持:不仅支持普通话,还能处理英语和歌唱等多种语言和风格。缺点:模型太大、生成时间比较久undefined。

2024-08-19 10:09:23 1190

原创 ER-NeRF对话数字人模型训练与部署

数字人也称为Digital Human或Meta Human,是运用数字技术创造出来的、与人类形象接近的数字化人物形象。应用包括但不限于直播、软件制作、教育、科研等领域。目前数字人模型效果最好的是ER-NeRF,其借鉴了nerf体渲染的思路,在输入维度上添加了音频特征,通过音频来影响渲染效果(控制嘴型)。即:给一段某人说话的视频,再给定一段音频,经过该模型后处理后,可将原视频的嘴型与音频保持一致。ER-NeRF的部署教程网上的教程虽然很多,但不是很全面,经过一番折腾,终于把算法跑起来了。

2024-08-13 11:32:44 1688 1

原创 face_recognition人脸检测

face_locations 返回图片上所有人脸的坐标位置,配合cv2库在图片上将所有坐标画出来。face_recognition是最简单的人脸识别库,该模型的准确率为 99.38%

2024-08-13 11:32:15 2362

原创 YOLOv5 目标检测算法

目标检测在生活中应用领域非常广泛,列如:道路违规抓拍、未戴口罩识别、工地未佩戴安全帽抓拍、厨房出现老鼠检测。还可以用在游戏辅助外挂。以枪战为例,在游戏过程中时刻检测有没有人头出现。当检测到目标人头,再调用鼠标把枪口焦点移动到人头的位置,实现爆头效果。本案例对yolov5官方代码进行了缩减,留下精华的部分,并封装成类。yolov5默认模型支持80种目标检测,具体类型在文章最后。如果需要检测其他的目标,就需要自己收集数据进行数据标注,再重新训练新的模型。

2024-08-12 14:49:06 4480 3

原创 PaddleOCR 图片文字提取

PaddleOCR 图片文字提取需求一.裁剪车牌号码区域二.对车牌小图进行处理三.填充边界四.识别步骤需求   工作上的一个需求,需要把图片中的车牌号码提取出来。如图,车牌在图片固定位置。开始使用pytesseract,对中文识别特别不友好,毕竟是外国人的东西。同事推荐使用PaddleOCR,国人开发的东西就是不一样,识别正确率居然可以达到90%以上。不过两者都存在共性问题,黑底白字无法识别/范围太小识别不准等。一.裁剪车牌号码区域# np.fromfil 从文本或二进制文件中的数据构造一个数

2024-08-12 14:45:31 3232 5

原创 基于paddlehub 未戴口罩检测算法

1.【模型种类丰富】涵盖CV、NLP、Audio、Video、工业应用主流五大品类的360+预训练模型,全部开源下载,离线可运行2.【超低使用门槛】无需深度学习背景、无需数据与训练过程,可快速使用AI模型3.【一键模型快速预测】通过一行命令行或者极简的PythonAPI实现模型调用,可快速体验模型效果4.【一键模型转服务化】一行命令,搭建深度学习模型API服务化部署能力5.【十行代码迁移学习】十行代码完成图片分类、文本分类的迁移学习任务6.【跨平台兼容性】...

2024-08-09 09:28:32 1605

原创 PixelLib图像分割

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。传统的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。本文重点的介绍基于深度学习的图像分割,PixelLib是深度学习图像分割的方法之一,官方给出了多个训练好的模型,适合新手使用;图像分割应用场景:虚拟背景、医学图像处理、自动驾驶、卫星遥感等等。

2024-08-09 09:27:48 1497 1

原创 OpenCV + CUDA + cuDNN模块编译

在追求高端性能与资源优化并重的应用场景中,如边缘计算设备或资源受限的开发板上运行YOLO等复杂深度学习模型,采用C++结合OpenCV与GPU加速技术相较于传统的Python环境展现出显著优势。这种策略不仅极大地提升了执行效率,还显著降低了运行时资源消耗,是实现实时物体检测与识别的理想选择。C++运行YOLO,安装环境稍微复杂些,不像Python一键安装pip包。本案例使用了GPU加速算法运行,所以编译OpenCV的时候需要开启CUDA和DNN模块。

2024-08-08 10:25:00 1455 4

原创 Supervision 计算机视觉工具

Supervision库是Python计算机视觉低代码工具,旨在为用户提供便捷高效的接口,以便处理数据集并直观地展示检测结果。绘制检测结果,统计指定区域内检测目标数量Supervision都提供了相应的接口。

2024-08-08 09:41:00 1467

原创 Real-ESRGAN—图像/视频修复算法

Real-ESRGAN是腾讯ARC实验室发表超分辨率算法,目标是开发出实用的图像/视频修复算法。ESRGAN 的基础上使用纯合成的数据来进行训练,以使其能被应用于实际的图片修复的场景。

2024-08-07 11:19:33 11990 2

原创 MediaPipe人体姿态、手指关键点检测

Mediapipe是google的一个开源项目,用于构建机器学习管道提供了16个预训练模型的案例:人脸检测、Face Mesh、虹膜、手、姿态、人体、人物分割、头发分割、目标检测、Box Tracking、Instant Motion Tracking、3D目标检测、特征匹配、AutoFlip、MediaSequence、YouTube-8M肢体识别本质上还是分类任务,该技术有很多应用场景,比如手势识别控制类应用、动作检测类应用、动作评测类应用、以及一些移动设备AR视频合成类应用。...

2024-08-07 11:18:34 7628

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除