吴恩达ML课程笔记(Chapter 18:OCR)

18-1 问题描述与OCR pipeline

1.OCR工作流程:文本检测,字符分割,字符分类
在这里插入图片描述

18-2 滑动窗口

1.我们用滑动窗口来检测文本+分割字符,用监督算法来进行字符分类

18-3 获取大量数据和人工数据

1.获取人工数据:对自然数据进行等分、缩放或者旋转

2.比如说,人工拉伸:
在这里插入图片描述
3.再比如语音样本,我们可以在获取了一个干净的语音样本的基础上,通过人为添加噪音来获得更多的样本

4.人工添加噪音后,得到的样本应该是要有代表性的
在这里插入图片描述
5.当然,在人为添加大量数据前,需要先保证我们的模型是底偏差的,这样我们人为制造的大量训练数据才有意义

6.人为添加数据的方法:
1)人为添加失真
2)人为收集数据/标记数据
3)众包服务(也就是花钱让别人来帮你标记数据,比如亚马逊的mechanical Turk)

18-4 上限分析

1.我用OCR来举个例子,比如现在整个系统的准确率是72%,那么我现在就改一下文本检测模块的方法:直接用测试集去训练我们的文本检测模块的模型,看看这样得到的系统总准确度提升了多少,如果提升得多,那就说明花大力气在这方面是值得的,其它模块也是类似
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值