OpenVINO工具套件高级课程第一课：实验篇

最新推荐文章于 2024-06-21 11:29:01 发布

同学来啦

最新推荐文章于 2024-06-21 11:29:01 发布

阅读量2k

点赞数 1

分类专栏：工具套件文章标签： python 音视频深度学习

本文链接：https://blog.csdn.net/zhouqiping/article/details/123267097

版权

工具套件专栏收录该内容

12 篇文章 1 订阅

订阅专栏

一、3D Human Pose Estimation（3D人体姿态估计）

该演示用于检测多人的三维姿势，对人体姿势的理解是充分理解行为和动作的关键一步，但人体姿势的建立却并不容易。人类有很小甚至几乎看不见的关键点，比如眼睛、鼻子、耳朵、膝盖等，如果视频中有很多人，哪个关节属于哪个人就显得很复杂。
在这里插入图片描述

二、Colorization（着色）

在这里插入图片描述
1）a通道：每个像素红色与绿色之间的值；
2）b通道：每个像素黄色与蓝色之间的值；
3）L通道：从白到黑的亮度
该颜色使用RGB视频作为输入，可与最终结果进行比较，提取L通道并将用作预测a和b通道的模型输入，并且结合L通道最后重建完整的RGB或BGR图像。
在这里插入图片描述

三、Audio detection（音频检测）

音频信号有时需要大量的预处理，该演示的一个亮点是其中的输入音频文件此处为单声道的wav文件，用作神经网络的输入，几乎没有预处理，只是在所需要的时候重新采样至所需的速率，ACLnet用于池演示的神经网络。
在这里插入图片描述

四、Formula Recognition（公式识别）

目标： 检测自由格式的手写公式或NetIX编写的公式。
构成： 主要分为两个独立模型
1）编码器：卷积神经网络，用于图像中提取特征，识别字母或符号的边界框；
2）LSTM模型：记住之前符号的模型，并了解完整的序列和符号历史。
在这里插入图片描述

五、Mono-Depth（单目深度）

目标： 从2D图像中创建一个具有三维深度的3D图像。
对于人类来说，我们从三维视觉观察世界，我们都认为看到的深度是大脑判断的结果，大脑接收双眼捕捉的略有不同的图像并推断深度。但是，想一想，即使闭上一只眼睛也可以清楚得判断出深度，因为我们学会了根据阴影的相对大小来确定深度。
在这里插入图片描述