第一周：和平之城中的鸟类识别(案例研究)

最新推荐文章于 2024-10-10 11:54:20 发布

SuperFeHanHan

最新推荐文章于 2024-10-10 11:54:20 发布

阅读量361

点赞数

分类专栏：结构化机器学习(Andrew Ng) 文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44495738/article/details/107745976

版权

结构化机器学习(Andrew Ng) 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第一周：和平之城中的鸟类识别案例研究

1.1 为什么是ML策略？
1.2 正交化(Orthogonalization)
1.3 单一数字评估指标
1.4 满足和优化指标
1.5 训练 / 开发 / 测试集划分
- 设立Dev/Test的方法
1.6 开发集和测试集的大小
1.7 ⚠️ 什么时候改变开发/测试集和指标
- 步骤：
1.8 为什么是人的表现
1.9 可避免偏差
1.10 理解人的表现
1.11 超过人的表现
1.12 改善模型表现
- 改进方向
第一周测试总结：

本文是结构化机器学习的笔记。

1.1 为什么是ML策略？

快速判断那些方向比较适合继续研究，以免浪费时间。

1.2 正交化(Orthogonalization)

正交化的含义：各个分量互不影响。所以可以分开来考虑。

我们需要达到4个目标

训练集上好
Dev集上好
Test集上好
现实情况下好

因此我们的目的是为这4种情况，设计4个独立的按钮，从而可以在降低训练集准确率的前提下，提升Dev集的准确率。

1.3 单一数字评估指标

问题：如果一个分类器在Precision里面比较好，另一个在Recall里面比较好，该怎么选？
Sol:
- F1 Score: $F1\text{ }Score=\frac{2}{\frac{1}{Precision}+\frac{1}{Recall}}$
例子2：
- 不同地区的错误率不同
Sol: 计算平均错误率

1.4 满足和优化指标

问题：准确率+时间的指标
设优化指标"Accuracy"（需要最值的指标），满足指标"Running Time"（不等式的指标）
Sol:
$\text{ and } runningTime\leq100ms$
问题：“准确率”+“False Positive”
Sol:
$\text{ and } False Positive\leq1次/天$

1.5 训练 / 开发 / 测试集划分

如何设立Dev Set和Test Set?

Dev Set: hold out cross validation set
例子：
假设哦我们有以下地区的数据:
- US
- UK
- India
- China
一种划分开发/测试数据的方法是US/UK作为开发数据，另外的两个国家作为测试集。
这是一个糟糕的想法，因为我们可能根据Dev Set的数据设计了一效果很好的模型，但是因为开发集和测试集并没有同样的分布，所有会有问题。
这就好比是一个人训练射中50m的靶，然后真正使用的时候是100m的靶。

设立Dev/Test的方法

关键⚠️ ：确保开发集和训练集来自同一个分布。（在上面例子中，各个数据集里都需要有这4个地区的数据）
所以我们可以将所有数据随机洗牌，放入开发集和测试集。

1.6 开发集和测试集的大小

可以只有Train+Dev集，而没有Test集合。

1.7 ⚠️ 什么时候改变开发/测试集和指标

当没有达到预期目的的常见解决思路：

及时改变Metric以适应目的
改变Dev/Test数据集，以确保两者为相同的分布。

如果发现选出来的算法存在缺陷，则需要及时改变Metric的定义。
例子：

算法	错误率	其他
A	3%	会有一定几率传递不良图片
B	5%	无

此时，为了避免传递不良信息这个巨大的错误，我们需要及时修改metric。
$Error=\frac{1}{\sum_iw^{(i)}}\sum_{i=1}^{m_{dev}}w^{(i)} I(y_{pred}^{(i)} \neq y^{(i)})$

其中

$m_{dev}$ 表示dev集的样本数量
$w^{(i)}=\left\{\begin{matrix} 1 \text{ 如果x不是不良信息}\\ 100 \text{ 如果x是不良信息} \end{matrix}\right.$ 相当于一个乘法项目
$I(y_{pred}^{(i)} \neq y^{(i)})=1$ 如果 $y_{pred}$ 预测错误

步骤：

确定Metric（放靶）
达到目标（放箭），可以通过微调Cost Function的定义。我们总是可以适时地观察我们已经训练的模型，从而根据我们的需要修改模型，从而达到我们的预期目的。

1.8 为什么是人的表现

贝叶斯最优误差(Bayes Optimal Error):准确率的上限。（ $x\to y$ 映射的最优上限）
我们观察到当准确率超过人类时，准确率上升速率就变慢了
可能的解释：
- 人的表现已经贝叶斯最优误差很接近了。
- 只要Algs比人类能力强，一些方法就不再有效了。
当Algs不比人类强，有一些可能有效的方法：
- 获得更多有标签的数据
- 人工对算法误差进行分析
- 对Bias和Variance方差进行分析

1.9 可避免偏差

用人类水平的误差估计来代替贝叶斯最优误差，这在计算机视觉里面比较常见。
Avoidable Bias= Human-level error
Variance= Training error
例子：

1.10 理解人的表现

Recap:

用人类水平的误差估计来代替贝叶斯最优误差

问题：怎么定义人类水平？
例子：医疗影响分析
Hyp:

我们看的是最高水平，因为人类（或者任何系统）都只能趋近于（小于等于）贝叶斯最优误差。如果能超过人类水平，则可以部署我们训练的模型了。

当算法水平很高的时候，我们不太确定是否要继续改善模型（减小Bias）还是减小方差。因为我们不知道怎么估计贝叶斯最优误差。

1.11 超过人的表现

例如：

人的表现 0.5%
Train Error 0.3%
这时候我们不知道贝叶斯最优误差是否小于0.3%，因为有过拟合的风险。

目前算法比人类强的地方：
这些都是从Structed Data中得到的结果，并不是自然感知任务（如计算机视觉）。

开车路线的时间
贷款
广告投放

1.12 改善模型表现

对Train Set拟合很好 -> Bias
在dev/test Set上也很好 -> Variance

改进方向

Avoidable Bias改善方法：

训练一个更大的模型
多训练一会
改善网络结构

Variance改善方法：

输入更多的数据
正则化(L2,Dropout)
改善网络结构

第一周测试总结：

我们需要确定一个评估指标，否则会降低工作效率。我们可以通过优化指标和满足指标将多个指标缩小为一个指标。例如 $\text{ and } 内存\leq10Mb$
这里准确率就是优化指标，内存就是满足指标。
深度学习领域一般数据集的划分为

训练集	开发集	测试集
95%	2.5%	2.5%

应该用人类最高水平来估计贝叶斯最优误差。但这里有一个前提，即统计的人数足够多，这样的百分数才比较准确。
学习算法的性能可以优于人类表现，但它永远不会优于贝叶斯错误的基准线。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

SuperFeHanHan CSDN认证博客专家 CSDN认证企业博客

码龄6年

149: 原创

3万+: 周排名

135万+: 总排名

9万+: 访问

: 等级

1641: 积分

950: 粉丝

46: 获赞

30: 评论

309: 收藏

私信

关注

热门文章

分类专栏

最新评论

ROS从入门到放弃——用TurtleBot3做Navigation模拟
qq_45501854: 这个地图重合之后点2D nav goal之后又变不重合了是咋弄
强化学习实践 | DQN和OpenAI Gym中的CartPole
B.RLBL: 博主您好，遇到这个问题是什么原因呢？ "D:\Program Files (x86)\python.exe" E:/19-python/reinforcementv4/main.py Collecting experience... i=0 memory_counter = 0 E:\19-python\reinforcementv4\main.py:57: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at C:\actions-runner\_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\utils\tensor_new.cpp:233.) x = torch.unsqueeze(torch.FloatTensor(x),0) # shape [N_STATES]->[1,N_STATES] Traceback (most recent call last): File "E:\19-python\reinforcementv4\main.py", line 111, in <module> a = dqn.choose_action(s) File "E:\19-python\reinforcementv4\main.py", line 57, in choose_action x = torch.unsqueeze(torch.FloatTensor(x),0) # shape [N_STATES]->[1,N_STATES] ValueError: expected sequence of length 4 at dim 1 (got 0)
ROS从入门到放弃 —— 玩一玩F1TENTH
喜欢刀刀的来来: 225 degrees为啥是7*pi/4呀
DEPRECATION: Python 2.7 reached the end of its life on January 1st, 2020.
weixin_52075343: 按：wq退出那步先按下esc键
DEPRECATION: Python 2.7 reached the end of its life on January 1st, 2020.
m0_71748864: 好像没有解决

大家在看

【C】C语言数据类型与变量 (看了就懂版）

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。