吴恩达ML课程笔记（Chapter 18：OCR）

最新推荐文章于 2024-06-19 21:37:28 发布

阿袁的小园子

最新推荐文章于 2024-06-19 21:37:28 发布

阅读量132

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuanren201/article/details/103889093

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

18-1 问题描述与OCR pipeline

1.OCR工作流程：文本检测，字符分割，字符分类
在这里插入图片描述

18-2 滑动窗口

1.我们用滑动窗口来检测文本+分割字符，用监督算法来进行字符分类

18-3 获取大量数据和人工数据

1.获取人工数据：对自然数据进行等分、缩放或者旋转

2.比如说，人工拉伸：
在这里插入图片描述
3.再比如语音样本，我们可以在获取了一个干净的语音样本的基础上，通过人为添加噪音来获得更多的样本

4.人工添加噪音后，得到的样本应该是要有代表性的
在这里插入图片描述
5.当然，在人为添加大量数据前，需要先保证我们的模型是底偏差的，这样我们人为制造的大量训练数据才有意义

6.人为添加数据的方法：
1）人为添加失真
2）人为收集数据/标记数据
3）众包服务（也就是花钱让别人来帮你标记数据，比如亚马逊的mechanical Turk）

18-4 上限分析

1.我用OCR来举个例子，比如现在整个系统的准确率是72%，那么我现在就改一下文本检测模块的方法：直接用测试集去训练我们的文本检测模块的模型，看看这样得到的系统总准确度提升了多少，如果提升得多，那就说明花大力气在这方面是值得的，其它模块也是类似
在这里插入图片描述

阿袁的小园子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。