关于P值与假设检验

P值操纵

  • 部分研究人员采取一些方法或策略不断尝试,使 P 值小于预先确定的标准,以得到统计显著性结论,这种现象通常被称为P 值操纵(P-hacking)。
P值操纵的种种表现:
  • 通过探索性分析确定研究假设,而不是先确定研究假设再开展探索性分析,把本应带着质疑眼光审视的探索性分析结论变得确定无疑,实际上造成结论的难以重复;
  • 科研人员在实验或调查中途根据分析结果决定是否继续收集数据,若发现 P 值已达到统计显著性要求,便立即停止收集数据,以避免之后数据的加入使分析结果不再显著;
  • 在实验或调查过程中记录很多变量,但数据分析中根据结果对其进行取舍,只选取那些结果具有统计显著性的变量开展最终的分析与呈现;
  • 根据分析结果来决定是包含还是删除异常值,保证结论通过显著性检验;
  • 根据 P 值结果反过来决定如何定义对照组即对实验/调查对象进行合并或拆分,选择那些达到显著性要求的结果;
  • 倾向于选择最小 P 值的结果,当实验或调查出现多个结果时,研究人员只选择报告最小 P 值的结果或通过显著性检验的结果;
  • 通过增加样本容量使 P值通过显著性检验,对于一般的假设检验,只要样本量足够大,总能使 P值小于预先确定的显著性水平,得到统计显著性结果。
如何判断是否存在P值操纵:
  • P 值曲线 (p-curve) 是一组研究的 P 值分布,可用来界定研究者是否对P值进行了人为操纵。
  • 不论原假设正确与否,P 值操纵都会导致在接近0.05这个阈值时,P值的频率骤然增大。
P值操纵产生的原因:
  • P 值易受样本量的影响。对于同一假设检验,不管自变量影响效应的大小,样本容量越大其自由度也越大,更容易拒绝原假设而得到具有统计显著性的结论。
  • P 值显著性不代表结论的实际意义。P 值结果只能判断统计学意义,并不代表研究的实际意义。
  • 对P值存在一些认识上的误区。
  • 科学论文的发表偏倚。
P值操纵的后果:

P 值操纵则使得分析结论容易出现假阳性、不可重复,从而阻碍科学研究的发展甚至误导决策。

应对策略:
  • 正确认识和使用P值,尽可能遵循美国统计学会提出的P值使用六准则;
    • P值只是某样本数据出现的概率,而原假设成立的概率则是模型概率,两者的意义是不一样的。
  • 采用 P 值的补充或替代指标,可以同时考察效应量、统计功效、置信区间、贝叶斯因子和错误发现率等指标,来判断结论的实际意义,增强结果的可靠性;
  • 开展研究结果的重复性检验。

假设检验

单侧检验的一致性与矛盾性
  • 在单侧检验中,同一个问题在交换原假设检验方向后,得到的结论可能相同,也可能不同。
    在这里插入图片描述

参考文献:
[1]李金昌.p值的困惑[J].中国统计,2019(06):19-21.
[2]程开明,李泗娥.科学研究中的P值:误解、操纵及改进[J].数量经济技术经济研究,2019,36(07):117-136.
[3]程开明,李泗娥.P值操纵:不可忽视的统计现象[J].中国统计,2019(02):30-32.
[4]孙廷哲.以方差分析为例探讨p值决策的局限性[J].鲁东大学学报(自然科学版),2022,38(02):152-157.
[5]张晓琴,王昭元,李宇.单侧假设检验中统计量值对检验结论的影响[J].大学数学,2020,36(06):93-96.

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据分析技术:数据差异的显著性检验 数据分析技术:数据差异的显著性检验 数据差异的显著性检验是的重要技术之⼀。然⽽,如何正确选择检验⽅法是很多初学者困惑和容易出现错误的地⽅。下⾯为⼤家总结⼀ 下数据差异显著性检验的⽅法及适⽤范围。 显著性检验 ⾸先需要理解什么是数据差异的显著性检验。在数据分析中,如果仅仅基于个案(某个数据)的采样数据是没有很强说服⼒的。例如: ⼀种新药,不能因为⼀个⼈使⽤后,效果良好就⼤⾯积地推⼴,⽽应该基于⼤规模的样本判定这种新药是否有效,这就需要验证在⼤规模样 本中实验组数据是否优于对照组数据,⼆者是否存在显著性的差别。显著性检验的理论就是在这种具体需求下提出来的。 所谓数据差异的显著性检验,是⾯向两组或多组数据的⼀种⽅法,其⽬的是对两组数据之间是否存在显著的差异进⾏判断。⼀般来说, 两组观测数据不可能完全相同,肯定存在或多或少的差异,但研究者关⼼的是两组数据的差异是否显著。如果差异显著,就可以说两组数据 之间存在显著性差异;否则,它们之间的差异不显著,甚⾄可以说是⽆差别。 数据差异的显著性可以运⽤在各类科学研究中,例如,在教学研究中,研究者可以研究某种教学法是否有效。在医学领域,可以研究某 种新药是否对患者有效等等。 数据的分类 数据类型的不同,将直接影响到差异显著性检验的使⽤⽅法。数据主要可以分成三类:定距变量,定序变量和定类变量。 定类变量:根据定性的原则区分总体中个案类别的变量。定类变量的只能把研究对象分类,只能决定研究对象是同类或不同类,例 如:性别分为男性和⼥性两类;出⽣地区分为农村、城市、城镇三类;民族背景分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况分为未 婚、已婚、分居、离婚、丧偶等类。 定序变量:区别同⼀类的个案中等级次序的变量。变量的能把研究对象排列⾼低或⼤⼩,它是⽐定类变量层次更⾼的变量,也具有定类 变量的特点,例如:⽂化程度可以分为⼤学、⾼中、初中、⼩学、⽂盲;⼯⼚规模可以分为⼤、中、⼩;年龄可以分为⽼、中、青。这些变 量的,既可以区分异同,也可以区别⾼低或⼤⼩。但是,各个定序变量的之间没有确切的间隔距离,⽐如⼤学究竟⽐⾼中⾼出多少,是 没有确切的尺度来测量的。 定距变量:区别同⼀类别个案中等级次序及其距离的变量。它除了包括定序变量的特性外,还能确切测量出个案之间⾼低、⼤⼩次序之 间的距离。 定距变量是最常见、区分度最⾼的变量,这类变量可以被求取均、⽅差、标准差和标准误等描述性信息,在中最受欢迎,被称为⾼测 度数据。定序变量和定类变量则因为数据的特点,通常⽆法求取它们的均和⽅差等信息,被称为低测度数据,需要采⽤与定距变量不同的 分析技术。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值