在诊断试验中,研究者希望考察不同诊断方法在诊断结果上是否具有一致性。如评价两个医务工作者对同一组病人的诊断结论的一致性、同一医务工作者对同一组病人前后进行两次观察作出诊断的一致性。1960年Cohen等提出用Kappa值作为评价判断的一致性程度的指标。实践证明,它是一个描述诊断的一致性较为理想的指标,因此在临床试验中得到广泛的应用。下文给出的例子也都是基于医疗诊断的,可见其提出背景。除此之外,kappa系数也可用于衡量分类精度,在kaggle竞赛中经常被用作评价指标,如2019 data science bowl和PetFinder.my Adoption Prediction等等。
由于诊断试验一致性的大小不完全取决于研究者的临床经验和诊断能力,还可能是由于机遇因素的作用,致使不同研究者得出相同的诊断结论。即没有受过专业医疗教育的人对患者进行诊断也可能会得出与专业医生一样的结论,而这种一致性结论完全是由于机遇因素导致的。kappa系数即是在一致性判断中剔除机遇因素的影响。kappa取值为[0,1],值越大代表一致性越强/分类精度越高。
kappa系数的计算分为以下几类,下面将通过例子介绍这几种kappa系数如何计算。
- 简单kappa(simple kappa)
- 加权kappa(weighted kappa)
- 线性加权(linear weighted k