【小白学机器学习14】确定零假设h0的技巧：先根据错误的严重程度确定第1类错误α，再确定零假设h0

奔跑的犀牛先生

已于 2024-04-18 13:35:50 修改

阅读量1.2k

点赞数 7

文章标签：算法机器学习人工智能

于 2024-04-18 13:31:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuemanqianshan/article/details/137915508

版权

本文探讨了在统计假设检验中如何确定零假设(H0)的逻辑思路，强调了优先降低最不能接受的错误(如第1类错误)的重要性，并通过实例分析了无罪推定、新药测试和ATM识别的应用。作者指出自然语言在描述这类错误时的局限性，提倡使用统计学语言进行精确表述。

摘要由CSDN通过智能技术生成

目录

1 前言: 如何确定H0的逻辑思路

1.1 推导的原理

2 假设检验的2类错误

2.1 什么叫2类错误

2.2 这两类错误的计算公式

2.2.1 计算公式

2.2.2 第1类错误和第2类错误的特点

3 如何设计H0的一些例子和思考

3.1 很多书上的原则1：备择假设通常才是研究者最想证明的。这个原则有道理，但是可执行性不强

3.2 同1个事情不同人的看法和预设的想法判断，很可能相反。

3.3 自然语言也很不严谨，不靠谱，不能用“弃真，纳伪” 这样的自然语言去判断

3.4 因此，我总结了下：相比自然语言，根据可接受的严重程序，求判断第一类弃真概率更重要这个原则来设计一些检验，特别是有价值判断的那些

4.1无罪推定例子

4.2 检验例子

4.3 新药测试是否有效

4.4 新药测试副作用时

5 总结确定H0的步骤

1 前言: 如何确定H0的逻辑思路

关于如何确定假设H0，我一直比较困惑，经过最近的总结和思考，我摸索到一条规律，哪就是先确定，什么是我们最不愿意接受的错误，把这个作为第1类错误，然后就可以顺利的确定H0假设了。

1.1 推导的原理

因为第1类错误和第2类错误，往往是此消彼长，不能同时都降到最低‘
先判断两类里，哪一类是我们最不能接受的错误误差
所以我们只能选择，优先降低我们最不能接受的错误误差，当成第1类错误/弃真错误
然后顺势就可以确定H0

2 假设检验的2类错误

2.1 什么叫2类错误

但是在检验的过程中，我们通过样本数据来判断总体参数的假设是否成立，但样本是随机的，因而有可能出现小概率的错误。这种错误分两种，一种是弃真错误，另一种是取伪错误。
弃真错误也叫第I类错误或α错误：它是指原假设实际上是真的，但通过样本估计总体后，拒绝了原假设。明显这是错误的，我们拒绝了真实的原假设，所以叫弃真错误，这个错误的概率我们记为α。
取伪错误也叫第II类错误或β错误：它是指原假设实际上假的，但通过样本估计总体后，接受了原假设，这个错误的概率我们记为β。

2.2 这两类错误的计算公式

2.2.1 计算公式

第1类错误 / 弃真错误 / 假阳性：其概率p=α
第2类错误/ 取伪错误 / 假阴性：其概率p=β

2.2.2 第1类错误和第2类错误的特点

type 1 error和type 2 error的概率相加肯定远远比1=100%要小，
第1类错误和第2类错误，很难同时都降到最低
因此，只能优先选择一个我们最不能接受的当第1类错误，把这个降低到最低/ 或接近最低的一个限度比如α，第2类错误只能暂时任其放大一些
所以我们主要目标是减少第1类错误α的概率！如果只能选1个的话

3 如何设计H0的一些例子和思考

3.1 很多书上的原则1：备择假设通常才是研究者最想证明的。这个原则有道理，但是可执行性不强

记住：备择假设通常才是研究者最想证明的。
但这条也很模糊，但是可执行性不强
为什么？因为每个人的想法并不同
- 如果两个研究者的想法相反呢？？？

3.2 同1个事情不同人的看法和预设的想法判断，很可能相反。

比如一些具体问题，大家预设立场可能就是对立相反的
- 有的人想证明a<b，有些人想证明a>b
- 有些人出发预设认为所有人都是好人，有些人认为所有人都是坏人

3.3 自然语言也很不严谨，不靠谱，不能用“弃真，纳伪” 这样的自然语言去判断

哪种错误，符合自然语言里的弃真，就算第1类错误？这个也不像
比如ATM机器，就是宁愿错误拒绝真币，也要降低接受假币的概率：纳伪。我们要优先降低纳伪的概率？所以自然语言的“弃真，纳伪” 并不靠谱
后面还有具体的例子，请见下文关于 ATM机的弃真，纳伪的例子

3.4 因此，我总结了下：相比自然语言，根据可接受的严重程序，求判断第一类弃真概率更重要这个原则来设计一些检验，特别是有价值判断的那些

原则：先根据那种错误更严重，来确定第一类弃真概率更重要这个原则,然后来确定H0

因为第1类错误和第2类错误，往往是此消彼长，不能同时都降到最低‘
先判断两类里，哪一类是我们最不能接受的错误误差
所以我们只能选择，优先降低我们最不能接受的错误误差，当成第1类错误/弃真错误
然后顺势就可以确定H0

4 具体例子

4.1无罪推定例子

比如我们经常说，无罪推定更重要。我们更愿意容忍坏人被放跑，但是不愿意被容忍好人被误判。

假设人人无罪推定，那么第一类错误就是人无罪但是被拒绝了无罪的假设被误判了，所以h0就应该是此人无罪的推定。
无罪的被判有罪算是弃真还是纳伪？算弃真概率，让这个尽量低，这个社会成本太高了
有罪的暂时被判无罪，这个社会成本是相对低的

4.2 检验例子

疫情检测时，倾向于宁愿假阳性更多，可以二次筛，一定要假阴性少，放跑阳性危害大

体验时也应该是相同的思路把，不过这样确实会造成假阳性很多（因为目的是降低假阴性），而且因为即使一个准确率很高的检测，也会因为检查健康人群而非等比例人群而出现大量的假阳性误判。这个其他地方也讨论过。

错误的思路，先确定H0，这是碰运气
H0假设人是阴性
第1类错误，弃真错误，把阴性的人当成了阳性，
这个是因为思考的次序错了
正确思考的次序，先思考什么是最不能接受的，把这个当成第1类弃真错误，再去设计H0
第1类错误/弃真错误，把阴性的人当成了阳性更能接受-二次检查可排除，成本较低，不能接受把阳性的人当成阴性，会造成更大危害，成本太高。
所以H0应该是此人为阳性
第1类错误，弃真错误成本太高，是他是阳性被误认为阴性，这个要尽量的低。

4.3 新药测试是否有效

这两种误差，我们思考下：有效药被认为无效的误差，而不是无效药被认为有效，哪个成本更高？
无效药被认为有效，这个成本太高，我们更不愿意接受，我们把这个当第1类错误
那么H0就是这个新药是无效的

4.4 新药测试副作用时

先比较没有副作用被认为是有副作用的错误，有副作用的被认为没有副作用的错误，哪个更严重？成本更高？
有副作用的被认为没有副作用的错误更严重，所以这个是第1类错误
那么H0就应该是新药有副作用

银行的ATM存款纸币识别的思路

1 先考虑，ATM接受假币错误的成本，ATM拒绝真币的错误成本
2 显然，ATM接受假币，把假币当真币错误的成本很高，错误严重
3 所以 H0就是假设钱币为假币
从这个例子看，这个第1类错误的弃真概率，是把假币当真币的概率，用日常语言来说，反而是纳伪的概率。所以日常语言是不准确的。
而第2类错误，把真币当假币给拒绝，这个再假设检验这里是第2类错误，纳伪错误，但对应到真实日常生活的语言，这应该是“弃真”
所以要警惕日常语言对我们的误导。
在什么语言环境就用当下语境更精确的语言来说话！比如这里就要在统计学假设检验的语言环境下考虑弃真，纳伪。而不是口语化的“弃真，纳伪”。

5 总结确定H0的步骤

step1：先确定第1类错误。
- 先根据能接受的两类错误里，考虑哪一类错误是我们更不愿意接受的，更严重的，成本更高的，先确定第1类错误。
step2: 确定H0 零假设
- 确定了第1类错误后，就可以顺势确定H0的假设了。
step3: 根据H0，确定与之矛盾的H1假设

奔跑的犀牛先生

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【小白学机器学习14】确定零假设h0的技巧：先根据错误的严重程度确定第1类错误α，再确定零假设h0

关于如何确定假设H0，我一直比较困惑，经过最近的总结和思考，我摸索到一条规律，哪就是先确定，什么是我们最不愿意接受的错误，把这个作为第1类错误，然后就可以顺利的确定H0假设了。原则：先根据那种错误更严重，来确定第一类弃真概率更重要这个原则,然后来确定H0因为第1类错误和第2类错误，往往是此消彼长，不能同时都降到最低‘先判断两类里，哪一类是我们最不能接受的错误误差所以我们只能选择，优先降低我们最不能接受的错误误差，当成第1类错误/弃真错误然后顺势就可以确定H0step1：先确定第1类错误。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。