OpenVINO工具套件高级课程第一课:实验篇

一、3D Human Pose Estimation(3D人体姿态估计)

该演示用于检测多人的三维姿势,对人体姿势的理解是充分理解行为和动作的关键一步,但人体姿势的建立却并不容易。人类有很小甚至几乎看不见的关键点,比如眼睛、鼻子、耳朵、膝盖等,如果视频中有很多人,哪个关节属于哪个人就显得很复杂。
在这里插入图片描述

二、Colorization(着色)

在这里插入图片描述
1)a通道:每个像素红色与绿色之间的值;
2)b通道:每个像素黄色与蓝色之间的值;
3)L通道:从白到黑的亮度
该颜色使用RGB视频作为输入,可与最终结果进行比较,提取L通道并将用作预测a和b通道的模型输入,并且结合L通道最后重建完整的RGB或BGR图像。
在这里插入图片描述

三、Audio detection(音频检测)

音频信号有时需要大量的预处理,该演示的一个亮点是其中的输入音频文件此处为单声道的wav文件,用作神经网络的输入,几乎没有预处理,只是在所需要的时候重新采样至所需的速率,ACLnet用于池演示的神经网络。
在这里插入图片描述
在这里插入图片描述

四、Formula Recognition(公式识别)

目标: 检测自由格式的手写公式或NetIX编写的公式。
构成: 主要分为两个独立模型
1)编码器:卷积神经网络,用于图像中提取特征,识别字母或符号的边界框;
2)LSTM模型:记住之前符号的模型,并了解完整的序列和符号历史。
在这里插入图片描述
在这里插入图片描述

五、Mono-Depth(单目深度)

目标: 从2D图像中创建一个具有三维深度的3D图像。
对于人类来说,我们从三维视觉观察世界,我们都认为看到的深度是大脑判断的结果,大脑接收双眼捕捉的略有不同的图像并推断深度。但是,想一想,即使闭上一只眼睛也可以清楚得判断出深度,因为我们学会了根据阴影的相对大小来确定深度。
在这里插入图片描述

六、Object Detection(目标检测)

准备工作:
1)选择合适的架构(SSD/Yolo/…);
2)下载对应的模型
在这里插入图片描述

七、BERT-Question Answering(NLP)

举例:
以有关巴黎的维基百科页面为例,需要做的是加载模型并将其转换为IR文件格式并运行演示。
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

同学来啦

原创不易,打赏随意。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值