【小白学机器学习14】确定零假设h0的技巧:先根据错误的严重程度确定第1类错误α,再确定零假设h0

目录

1 前言: 如何确定H0的逻辑思路

1.1 推导的原理

2 假设检验的2类错误

2.1 什么叫2类错误

2.2 这两类错误的计算公式

2.2.1 计算公式

 2.2.2 第1类错误和第2类错误的特点

3  如何设计H0的一些例子和思考

3.1 很多书上的原则1:备择假设通常才是研究者最想证明的。这个原则有道理,但是可执行性不强

3.2 同1个事情不同人的看法和预设的想法判断,很可能相反。

3.3 自然语言也很不严谨,不靠谱,不能用“弃真,纳伪” 这样的自然语言去判断

3.4 因此,我总结了下:相比自然语言,根据可接受的严重程序,求判断第一类弃真概率更重要这个原则来设计一些检验,特别是有价值判断的那些

4 具体例子

4.1无罪推定例子

4.2 检验例子

4.3 新药测试是否有效

4.4 新药测试副作用时

5 总结确定H0的步骤


1 前言: 如何确定H0的逻辑思路

关于如何确定假设H0,我一直比较困惑,经过最近的总结和思考,我摸索到一条规律,哪就是先确定,什么是我们最不愿意接受的错误,把这个作为第1类错误,然后就可以顺利的确定H0假设了。

1.1 推导的原理

  • 因为第1类错误和第2类错误,往往是此消彼长,不能同时都降到最低‘
  • 先判断两类里,哪一类是我们最不能接受的错误误差
  • 所以我们只能选择,优先降低我们最不能接受的错误误差,当成第1类错误/弃真错误
  • 然后顺势就可以确定H0

2 假设检验的2类错误

2.1 什么叫2类错误

  • 但是在检验的过程中,我们通过样本数据来判断总体参数的假设是否成立,但样本是随机的,因而有可能出现小概率的错误。这种错误分两种,一种是弃真错误,另一种是取伪错误。       
  • 弃真错误也叫第I类错误或α错误:它是指原假设实际上是真的,但通过样本估计总体后,拒绝了原假设。明显这是错误的,我们拒绝了真实的原假设,所以叫弃真错误,这个错误的概率我们记为α。        
  • 取伪错误也叫第II类错误或β错误:它是指原假设实际上假的,但通过样本估计总体后,接受了原假设,这个错误的概率我们记为β。        

2.2 这两类错误的计算公式

2.2.1 计算公式

  • 第1类错误 / 弃真错误 / 假阳性:其概率p=α
  • 第2类错误/ 取伪错误 / 假阴性:其概率p=β

 2.2.2 第1类错误和第2类错误的特点

  • type 1 error和type 2 error的概率相加肯定远远比1=100%要小,
  • 第1类错误和第2类错误,很难同时都降到最低
  • 因此,只能优先选择一个我们最不能接受的当第1类错误,把这个降低到最低/ 或接近最低的一个限度比如α,第2类错误只能暂时任其放大一些
  • 所以我们主要目标是减少第1类错误α的概率!如果只能选1个的话

3  如何设计H0的一些例子和思考

3.1 很多书上的原则1:备择假设通常才是研究者最想证明的。这个原则有道理,但是可执行性不强

  • 记住:备择假设通常才是研究者最想证明的。
  • 但这条也很模糊,但是可执行性不强
  • 为什么? 因为每个人的想法并不同
    • 如果两个研究者的想法相反呢???

3.2 同1个事情不同人的看法和预设的想法判断,很可能相反。

  • 比如一些具体问题,大家预设立场可能就是对立相反的
    • 有的人想证明a<b,有些人想证明a>b 
    • 有些人出发预设认为所有人都是好人,有些人认为所有人都是坏人

3.3 自然语言也很不严谨,不靠谱,不能用“弃真,纳伪” 这样的自然语言去判断

  • 哪种错误,符合自然语言里的弃真,就算第1类错误?这个也不像
  • 比如ATM机器,就是宁愿错误拒绝真币,也要降低接受假币的概率:纳伪。我们要优先降低纳伪的概率?所以自然语言的“弃真,纳伪” 并不靠谱
  • 后面还有具体的例子,请见下文关于 ATM机的弃真,纳伪的例子

3.4 因此,我总结了下:相比自然语言,根据可接受的严重程序,求判断第一类弃真概率更重要这个原则来设计一些检验,特别是有价值判断的那些

原则:先根据那种错误更严重,来确定第一类弃真概率更重要这个原则,然后来确定H0

  • 因为第1类错误和第2类错误,往往是此消彼长,不能同时都降到最低‘
  • 先判断两类里,哪一类是我们最不能接受的错误误差
  • 所以我们只能选择,优先降低我们最不能接受的错误误差,当成第1类错误/弃真错误
  • 然后顺势就可以确定H0

4 具体例子

4.1无罪推定例子

比如我们经常说,无罪推定更重要。我们更愿意容忍坏人被放跑,但是不愿意被容忍好人被误判。

  • 假设人人无罪推定,那么第一类错误就是人无罪但是被拒绝了无罪的假设被误判了,所以h0就应该是 此人无罪的推定。
  • 无罪的被判有罪算是弃真 还是纳伪?算弃真概率,让这个尽量低,这个社会成本太高了
  • 有罪的暂时被判无罪,这个社会成本是相对低的

4.2 检验例子

疫情检测时,倾向于宁愿假阳性更多,可以二次筛,一定要假阴性少,放跑阳性危害大

体验时也应该是相同的思路把,不过这样确实会造成假阳性很多(因为目的是降低假阴性),而且因为即使一个准确率很高的检测,也会因为检查健康人群而非等比例人群而出现大量的假阳性误判。这个其他地方也讨论过。

  • 错误的思路,先确定H0,这是碰运气
    • H0假设人是阴性
    • 第1类错误,弃真错误,把阴性的人当成了阳性,
    • 这个是因为思考的次序错了
  • 正确思考的次序,先思考什么是最不能接受的,把这个当成第1类弃真错误,再去设计H0
    • 第1类错误/弃真错误,把阴性的人当成了阳性更能接受-二次检查可排除,成本较低,不能接受把阳性的人当成阴性,会造成更大危害,成本太高。
    • 所以H0应该是此人为阳性
    • 第1类错误,弃真错误成本太高,是他是阳性被误认为阴性,这个要尽量的低。

4.3 新药测试是否有效

  • 这两种误差,我们思考下:有效药被认为无效的误差,而不是无效药被认为有效,哪个成本更高?
  • 无效药被认为有效,这个成本太高,我们更不愿意接受,我们把这个当第1类错误
  • 那么H0就是 这个新药是无效的

4.4 新药测试副作用时

  • 先比较没有副作用被认为是有副作用的错误,有副作用的被认为没有副作用的错误,哪个更严重?成本更高?
  • 有副作用的被认为没有副作用的错误更严重,所以这个是第1类错误
  • 那么H0就应该是 新药有副作用

银行的ATM存款纸币识别的思路

  • 1 先考虑,ATM接受假币错误的成本,ATM拒绝真币的错误成本
  • 2 显然,ATM接受假币,把假币当真币错误的成本很高,错误严重
  • 3 所以 H0就是假设钱币为假币
  • 从这个例子看,这个第1类错误的 弃真概率,是把 假币当真币的概率,用日常语言来说,反而是 纳伪的概率。所以日常语言是不准确的。
  • 而第2类错误,把真币当假币给拒绝,这个再假设检验这里是第2类错误, 纳伪错误,但对应到真实日常生活的语言,这应该是“弃真”
  • 所以要警惕日常语言对我们的误导。
  • 在什么语言环境就用当下语境更精确的语言来说话!比如这里就要在统计学假设检验的语言环境下考虑弃真,纳伪。而不是口语化的“弃真,纳伪”。

5 总结确定H0的步骤

  • step1:先确定第1类错误。
    • 先根据能接受的两类错误里,考虑哪一类错误是我们更不愿意接受的,更严重的,成本更高的,先确定第1类错误。
  • step2: 确定H0 零假设
    • 确定了第1类错误后,就可以顺势确定H0的假设了。
  • step3: 根据H0,确定与之矛盾的H1假设
  • 7
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值