不会代码的小林-CSDN博客

原创 YOLOv10实时端到端目标检测

距离上次写YOLOv5已经过去了两年，正好最近用YOLOv10重构了项目，总结下YOLOv10。YOLOv10真正实时端到端目标检测，那么什么是端到端？端到端目标检测是一种从原始数据输入到最终结果输出的直接过程，无需分步骤处理或人工干预。在YOLOv10中移除非最大抑制（NMS），从而减少了推理延迟。

2024-08-19 10:09:34 2747 1

EchoMimic是阿里巴巴达摩院推出的一个AI驱动的口型同步技术项目。通过一段音频和一张人物的面部照片，生成一个看起来像是在说话的视频，其中的人物口型动作与音频中的语音完美匹配。EchoMimic优点：1.口型同步生成：能根据音频和面部照片，创造出口型动作与语音完美匹配的视频。2.自然逼真：它会融合音频和面部特征，生成的面部动画看起来很符合真实的面部运动和表情变化。3.多语言支持：不仅支持普通话，还能处理英语和歌唱等多种语言和风格。缺点：模型太大、生成时间比较久undefined。

2024-08-19 10:09:23 2100

原创 ER-NeRF对话数字人模型训练与部署

数字人也称为Digital Human或Meta Human，是运用数字技术创造出来的、与人类形象接近的数字化人物形象。应用包括但不限于直播、软件制作、教育、科研等领域。目前数字人模型效果最好的是ER-NeRF，其借鉴了nerf体渲染的思路，在输入维度上添加了音频特征，通过音频来影响渲染效果（控制嘴型）。即：给一段某人说话的视频，再给定一段音频，经过该模型后处理后，可将原视频的嘴型与音频保持一致。ER-NeRF的部署教程网上的教程虽然很多，但不是很全面，经过一番折腾，终于把算法跑起来了。

2024-08-13 11:32:44 2558 6

原创 face_recognition人脸检测

face_locations 返回图片上所有人脸的坐标位置，配合cv2库在图片上将所有坐标画出来。face_recognition是最简单的人脸识别库，该模型的准确率为 99.38%

2024-08-13 11:32:15 2583

原创 YOLOv5 目标检测算法

目标检测在生活中应用领域非常广泛，列如：道路违规抓拍、未戴口罩识别、工地未佩戴安全帽抓拍、厨房出现老鼠检测。还可以用在游戏辅助外挂。以枪战为例，在游戏过程中时刻检测有没有人头出现。当检测到目标人头，再调用鼠标把枪口焦点移动到人头的位置，实现爆头效果。本案例对yolov5官方代码进行了缩减，留下精华的部分，并封装成类。yolov5默认模型支持80种目标检测，具体类型在文章最后。如果需要检测其他的目标，就需要自己收集数据进行数据标注，再重新训练新的模型。

2024-08-12 14:49:06 4961 4

原创 PaddleOCR 图片文字提取

PaddleOCR 图片文字提取需求一.裁剪车牌号码区域二.对车牌小图进行处理三.填充边界四.识别步骤需求工作上的一个需求，需要把图片中的车牌号码提取出来。如图，车牌在图片固定位置。开始使用pytesseract，对中文识别特别不友好，毕竟是外国人的东西。同事推荐使用PaddleOCR，国人开发的东西就是不一样，识别正确率居然可以达到90%以上。不过两者都存在共性问题，黑底白字无法识别/范围太小识别不准等。一.裁剪车牌号码区域# np.fromfil 从文本或二进制文件中的数据构造一个数

2024-08-12 14:45:31 3775 5

原创基于paddlehub 未戴口罩检测算法

1.【模型种类丰富】涵盖CV、NLP、Audio、Video、工业应用主流五大品类的360+预训练模型，全部开源下载，离线可运行2.【超低使用门槛】无需深度学习背景、无需数据与训练过程，可快速使用AI模型3.【一键模型快速预测】通过一行命令行或者极简的PythonAPI实现模型调用，可快速体验模型效果4.【一键模型转服务化】一行命令，搭建深度学习模型API服务化部署能力5.【十行代码迁移学习】十行代码完成图片分类、文本分类的迁移学习任务6.【跨平台兼容性】...

2024-08-09 09:28:32 1714 1

原创 PixelLib图像分割

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。传统的图像分割方法主要分以下几类：基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。本文重点的介绍基于深度学习的图像分割，PixelLib是深度学习图像分割的方法之一，官方给出了多个训练好的模型，适合新手使用；图像分割应用场景：虚拟背景、医学图像处理、自动驾驶、卫星遥感等等。

2024-08-09 09:27:48 1595

原创 OpenCV + CUDA + cuDNN模块编译

在追求高端性能与资源优化并重的应用场景中，如边缘计算设备或资源受限的开发板上运行YOLO等复杂深度学习模型，采用C++结合OpenCV与GPU加速技术相较于传统的Python环境展现出显著优势。这种策略不仅极大地提升了执行效率，还显著降低了运行时资源消耗，是实现实时物体检测与识别的理想选择。C++运行YOLO，安装环境稍微复杂些，不像Python一键安装pip包。本案例使用了GPU加速算法运行,所以编译OpenCV的时候需要开启CUDA和DNN模块。

2024-08-08 10:25:00 2438 4

原创 Supervision 计算机视觉工具

Supervision库是Python计算机视觉低代码工具，旨在为用户提供便捷高效的接口，以便处理数据集并直观地展示检测结果。绘制检测结果，统计指定区域内检测目标数量Supervision都提供了相应的接口。

2024-08-08 09:41:00 2369

原创 Real-ESRGAN—图像/视频修复算法

Real-ESRGAN是腾讯ARC实验室发表超分辨率算法，目标是开发出实用的图像/视频修复算法。ESRGAN 的基础上使用纯合成的数据来进行训练，以使其能被应用于实际的图片修复的场景。

2024-08-07 11:19:33 14536 2

原创 MediaPipe人体姿态、手指关键点检测

Mediapipe是google的一个开源项目，用于构建机器学习管道提供了16个预训练模型的案例：人脸检测、Face Mesh、虹膜、手、姿态、人体、人物分割、头发分割、目标检测、Box Tracking、Instant Motion Tracking、3D目标检测、特征匹配、AutoFlip、MediaSequence、YouTube-8M肢体识别本质上还是分类任务，该技术有很多应用场景，比如手势识别控制类应用、动作检测类应用、动作评测类应用、以及一些移动设备AR视频合成类应用。...

2024-08-07 11:18:34 9867