(最后一周,列举一下上课的重要知识点。)
一、机器学习流水线pipeline
1.1 photo OCR 图像识别
- Optical Character Recognition光学文字识别,有三个主要特点:包括了多种机器学习的重要知识、涉及机器学习流水线、融合了计算机视觉CV和人工数据合成
- OCR流水线-文字区域检测、字符分割、字符辨认
1.2 OCR流水线工作原理:滑动窗sliding windows
- 固定宽高比的矩形,用于图像中人身影的检测
- 文字区域检测:首先用神经网络模型训练数据,得到识别文字区域片段的参数,然后去确定目标数据的可能为文字区域
- expansion扩展区域,抛弃宽高比例不对(正常文字区为宽>高)的区域,组合得到文字的最可能出现区域
- 字符分割-同理,利用了 神经网络训练字符分割线的特征分类器
1.3 人工数据合成
- 方式一:从头创造新数据,用其他资料粘贴上随机背景等方法创造新数据
- 方式二:将数据(文字)进行弯曲等处理,从旧数据中获得新数据。
- 增加数据的要求:已经为低偏差分类器,模型参数正常
- 通过Crowd source众包系统可以获得新数据
1.4 Ceiling analysis上限分析
- 做好单个过程