CV 复习（大纲）

最新推荐文章于 2021-08-08 17:31:11 发布

pjiang000

最新推荐文章于 2021-08-08 17:31:11 发布

阅读量247

点赞数 1

分类专栏：机器学习文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_44412864/article/details/118197480

版权

机器学习专栏收录该内容

48 篇文章 3 订阅

订阅专栏

文章目录

计算机视觉导论
- 1：提出
7：文字检测和识别
- 1：OCR
6：行人检测，重识别和姿态估计
5：人脸检测和识别

计算机视觉课程完全不知道怎么复习，由于没有咋读过论文，所以PPT里面的东西基本都看不懂。
以后碰到PPT里面有论文的，还是要提前读一读

计算机视觉导论

1：提出

1966年的MIT的一个暑假项目，构建视觉系统的主体部分
20世纪70年代
- 在解决推理和规划等问题之前，视觉输入的处理
- 与数字图像处理相区别的是从图像中恢复场景的三维结构并更好的理解场景
- 数字图像处理，计算机图像处理，将图像信号转变为数字信号并且利用计算机进行处理的过程，通过计算机对图像进行去除噪声，增强，复原，分割，提取特征。
- Block word
- 线条标注（line labeling）
- 边缘检测（edge detection）
- 非多边形的三维建模
  - 采用广义锥作为部件，通过图案结构弹性安排部件
- 图像分割
20实际80年代
- 利用本征图像，理解亮度和阴影的变化
- 立体视觉对应
- 基于亮度的光流
- 图像金字塔
- 由X到形状
- 更好的边缘检测算法：动态演化轮廓跟踪器
- 三维数据的处理
- 利用变分优化的思想，是用正则化来加强鲁棒性
- 马尔可夫随机场来表达
20世界90年代
- 光流
- 多视角重建
- 跟踪：粒子滤波
- SIFT（手工提取的一个巅峰，基于局部匹配，能够找到图片的稳定点和关键点）
- 统计学习方法，CV技术首先使用在照相机上，用于对焦
21世纪
- 图割

7：文字检测和识别

1：OCR

purpose：识别图像中的文字信息
input：一张图像
output：图像中的文字
evaluation：
- 平均编辑距离：衡量整篇文章的指标，反映顺序，多识别，漏识别
- 字符识别准确率：所以字符的正确率，但是无法反应漏识别
- 文本行识别成功率：
简单理解
- 汉字，十万个字
- 阿拉伯数字：10
- 英语52 大小写
- 特征提取（还是是用滑动窗口或者是候选框吗？分割）
- 字符分类器，不同语种的字符数量差异巨大，并且相似度不同
印刷体文字识别
- 字符排列规整：易于检测
  - 基于模板
手写体文字识别
- 联机手写文字识别 / 实时手写识别 / 在线手写体识别
- 人在手写文字的时候，及其根据所书写文字的比划，笔顺等特征
脱机手写 / 离线手写文字识别
- 先写在纸上，然后扫描成图像，再识别文字
- 脱机识别和印刷体识别相似，但是手写随意性太大，对字符检测和识别都很难
STR （Scene Text recognition）
- 多种语言文本混合
- 方向
- 模糊，变形
传统文本检测 + 识别
- 先进行壁画和字符的检测，基于连接组件和基于滑动窗口的两种方法，再进行非文本过滤。
- 手工特征SWT，MSER无法利用上下文的信息
- 预测过程中，前端使用标准的CNN提取文本图像的特征，利用BLSTM将特征向量进行融合以提取字符序列的上下文特征，然后将每列的特征改了吧分布，最后通过转录层CTC进行预测得到文本的序列。
SegLink
- 角度的灵活检测，模型不仅能够学习和输出边框的位置，还能够输出文本框的旋转角度谁他
- 切片，然后连接各个字的中心点，得到旋转角度
- 增加了对于角度的检测，使得对于各种角度的文本都具有鲁棒性
基于候选框
基于分割
CRNN
端到端的

6：行人检测，重识别和姿态估计

基于手工提取特征
基于部件检测
基于深度学习
- joint
行人的重识别
- 基于手工特征
- 深度学习
姿态估计
- 单人姿态估计
- 多人姿态估计

5：人脸检测和识别

基于模板的方法
基于ADBOOST
非约束环境下的人脸检测
深度学习
人脸识别
- 基于特诊匹配基于深度学习
- 人脸的对其
美颜
GAN

pjiang000

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
CV 复习（大纲）

文章目录计算机视觉导论1：提出7：文字检测和识别1：OCR6：行人检测，重识别和姿态估计5：人脸检测和识别计算机视觉课程完全不知道怎么复习，由于没有咋读过论文，所以PPT里面的东西基本都看不懂。以后碰到PPT里面有论文的，还是要提前读一读计算机视觉导论1：提出1966年的MIT的一个暑假项目，构建视觉系统的主体部分20世纪70年代在解决推理和规划等问题之前，视觉输入的处理与数字图像处理相区别的是从图像中恢复场景的三维结构并更好的理解场景数字图像处理，计算机图像处理，将图像信号
复制链接

扫一扫

专栏目录