1计算机视觉概述-----《人工智能导论》—计算机视觉

本文链接：https://blog.csdn.net/weixin_44505214/article/details/120658015

什么是计算机视觉？

计算机视觉是一门研究如何对数字图像或者视频进行高层理解的交叉学科。
人工智能视角：感知智能
工程视角：用机器自动实现人类视觉系统功能（对视频或图像获取、处理、分析、理解）

计算机视觉概述

计算机视觉需要完成的视觉任务：
1.距离估计：计算输入图像中的每个点距离摄像机的物理距离
2.前背景分割和物体分割：将图像视频中前景物体所占据的区域或轮廓勾勒出来
3.目标检测、跟踪和定位：在图像视频中发现感兴趣的目标并给出其位置和区域
4.目标分类和识别：为图像视频中出现的目标分配其所属类别的标签
5.场景分类与识别：根据图像视频内容对拍摄环境进行分类
6.场景文字检测与识别
7.事件检测与识别：分析视频中的人、物和场景等，识别行为和正在发生的事件
8.3D重建：对画面中的场景和物体进行自动3D建模
9.图像编辑：对图像的内容或者风格进行修改，产生具有真实感的其他图像
10.自动图题：分析输入图像或视频的内容并用自然语言进行描述
11.视觉问答：给定图像或视频，回答特定的问题

计算机视觉系统：

指纹识别 2. 车辆识别 3. 人脸识别
视频监控 5. 自动驾驶 6. 增强现实

计算机视觉（A）与其他学科：

数字图像处理（B）：B可以看作偏低级的A，多数情况下其输入和输出都是图像；而A系统的输出一般是模型、结构或符号信息
模式识别（C）：在C中，以图像为输入的任务多数可以看做是A的研究范畴
机器学习（D）：D为A提供了分析、识别和理解的方法和工具，近年来统计机器学习和深度学习都成了A领域占主导地位的研究方法
计算机图形学（E）：E研究如何从模型生产视频或图像的“正”问题；A研究从输入图像中解析出模型的“反”问题
计算摄影学（F）：F关注的焦点是采用数字信号处理而非光学过程实现新的成像可能，典型的如光场相机、高动态成像、全景成像等经常用到A的算法
脑科学领域（G）：如认知科学、神经科学、心理学等；这些学科一方面极大受益于图像处理、计算摄影学、计算机视觉等学科带来的图像处理和分析工具，另一方面它们所揭示的视觉认知规律、视皮层神经机制等对于计算机视觉领域的发展也起到了积极的推动作用

数字图像的类型及机内表示

数字图像：
由一个个点组成，这些点称为像素pixel
每个像素的亮度、颜色或距离等属性在计算机内表示为一个或多个数字
1.黑白图像（灰度图像）
每个像素由一个亮度值表示，通常用1个字节表示
最小值为0（最低亮度，黑色），最大值为255（最高亮度，白色）
2.彩色图像
每个像素的颜色通常用分别代表红绿蓝的三个字节表示
蓝色分量若是0，表示该像素点吸收了全部蓝色光；255全反射
3.RGBD图像
对每个像素除了赋予红绿蓝彩色信息外，还有一个值表达深度
即该像素距离摄像机的距离depth，单位取决于相机测量精度，至少2字节
深度信息反映3D形状信息，应用于体感游戏、自动驾驶、机器人导航等
4.处理的视频或图像为超出人眼感知范围的电磁波段信号
如红外、紫外、X光成像等，来自超越人眼的成像设备
这些成像设备及其后续的视觉处理算法在医疗、军事、工业等领域有非常广泛的应用，可用于缺陷检测、目标检测、机器人导航等
如医疗领域：计算机断层X光扫描（CT），获得人体器官内部组织结构