文章目录
- 1.1 为什么是ML策略
- 1.2 正交化
- 1.3 单一数字评估指标
- 1.4 满足和优化指标
- 1.5 训练、开发、测试集的划分
- 1.6 开发集和测试集的大小
- 1.7 什么时候应该改变开发、测试集和指标
- 1.8 为什么是人的表现
- 1.9 可避免偏差available bias
- 1.10 理解人的表现
- 1.11 超越人的表现
- 1.12 改善你的模型的表现
- 2.1 进行误差分析
- 2.2 清除标注错误的数据
- 2.3 快速搭建你的第一个系统,并迅速迭代
- 2.4 在不同的划分上进行训练和测试
- 2.5 不匹配数据划分的偏差和方差
- 2.6 定位数据不匹配
- 2.7 迁移学习transfer learning
- 2.8 多任务学习
- 2.9 什么是端到端的深度学习
- 2.10 是否要使用端到端的深度学习
1.1 为什么是ML策略
1.2 正交化
1.3 单一数字评估指标
precision:查准率 确认为猫的图片是猫的概率
recall:查全率 猫的图片确认为猫的概率
单实数评估指标,提出明确的选择标准,快速判断分类器的好坏。
classifier | precision | recall | F1 score |
---|---|---|---|
A | 95% | 90% | 92.4% |
B | 98% | 85% | 91% |
通过precision和recall两个指标得到的结果是相反的,所以提出
F 1 = 2 1 P + 1 R F_1 = \frac{2}{\frac{1}{P}+\frac{1}{R}} F1=P1+R12调和平均数作为单一评估指标
1.4 满足和优化指标
classifier | accuracy | running time |
---|---|---|
A | 90% | 80ms |
B | 92% | 95ms |
C | 95% | 1500ms |
在所有指标中规划出optimizing和satisficing,比如时间项就是一个好的满足项,比如只需要控制时间在100ms之内即可,然后优化项是accuracy。
1.5 训练、开发、测试集的划分
建议将所有数据随机洗牌,放入开发集和测试集
1.6 开发集和测试集的大小
机器学习早期(小数据量):训练集:测试集 = 7:3
训练集:开发集:测试集 = 3:1:1
现代(大数据):训练集:开发集:测试集 = 98:1:1
1.7 什么时候应该改变开发、测试集和指标
评估指标无法正确衡量算法之间的优劣排序时
1.8 为什么是人的表现
bayes optimal error/bayes error:x映射到y的理论最优函数
机器学习能很快赶上并超过人的表现的一个可能原因是:当它不如人的表现时,往往可以通过人为标记等方法提升性能
1.9 可避免偏差available bias
humans | 1% | 7.5% |
---|---|---|
training error | 8% | 8% |
Dev error | 10% | 10% |
focus on bias | focus on variance |
1.10 理解人的表现
1.11 超越人的表现
1.12 改善你的模型的表现
-
You can fit the training set pretty well.
-
The training set performance generalizes pretty well to the dev/test set.
h u m a n − l e v e l → t r a i n i n g e r r o r → d e v e r r o r a v a i l a b l e b i a s v a r i a n c e human-level \rightarrow training\quad error \rightarrow dev \quad error\\ available \quad bias \quad \quad variance human−level→trainingerror→deverroravailablebiasvariance
2.1 进行误差分析
2.2 清除标注错误的数据
DL algorithms are quite robust to random errors in the training set,but they are not robust to symmetric errors.
是否清除标注错误的数据取决于这些数据对于总体的错误率的影响
- 同时检查开发集和测试集
- 同时检查正确和 错误的例子
- 训练集和开发/测试集略有不同是合理的
2.3 快速搭建你的第一个系统,并迅速迭代
2.4 在不同的划分上进行训练和测试
2.5 不匹配数据划分的偏差和方差
2.6 定位数据不匹配
错误分析
人工数据合成:容易发生过拟合
2.7 迁移学习transfer learning
迁移来源问题有很多数据,但迁移目标问题没有太多数据,
transfer A—B
- Task A and B have the same input x.
- You have a lot more data for Task A than Task B.
- Low level features from A could be helpful for learning B.
2.8 多任务学习
迁移学习:串行学习
多任务学习:并行学习
2.9 什么是端到端的深度学习
speech recognition example
audio——feature——phonemes——words——transcript
end-to-end learning audio——————————transcript
face recognition、machine translation