- 博客(5)
- 收藏
- 关注
原创 相关性分析——肯德尔系数(Tau-a与Tau-b)
例如,我们可以将一个特征的值与某个阈值进行比较,高于阈值的赋值为1,低于阈值的赋值为0。Tau-a忽略了平局的影响,而Tau-b则调整了平局的情况,通常Tau-b的结果会更准确地反映变量之间的真实关系,尤其是在数据中存在大量平局时。Tau-a 适用于没有平局情况的数据集,而 Tau-b 则修正了平局的影响,适用于更广泛的数据场景。:(df['MedInc'] > df['MedInc'].median()).astype(int) 将收入高于中位数的赋值为1,低于或等于中位数的赋值为0。
2024-06-27 20:45:08 2137
原创 特征工程——相关性分析(皮尔逊和斯皮尔曼)
皮尔逊相关系数是用来衡量两个变量之间线性相关程度的统计量,记作,其取值范围为 [-1, 1]。公式如下:其中:是两个变量的观测值是两个变量的均值。
2024-06-26 19:35:27 5410
原创 异常值检测(2)——Z-score和Grubbs假设检验
如果数据中存在多个异常值,或者数据不服从正态分布,Grubbs检验的效果可能不太理想,此时可以考虑使用其他异常值检测方法。在Z分数方法中,Z分数为3的点对应的实际值是μ+3 *σ,Z分数为-3的点对应的实际值是μ+3 *σ。如果 g_stat ≤ g_crit,则无法拒绝原假设,认为不存在异常值。如果计算得到 g_stat = 3.045,由于 g_stat > g_crit,我们可以认为存在异常值。如果 g_stat > g_crit,则拒绝原假设,认为存在异常值。3.定义异常值的阈值。
2024-06-22 16:12:53 1327
原创 异常值检测(1)——箱线图四分位距和3σ
异常值就是那些偏离多数样本值过多的值,比如我用机器学习在做房价预测时,获取的沈阳浑南区数据普遍都在11000左右,结果有那么一两个楼盘是20000(管他是不是碧桂园),那么这两个值就是异常值。
2024-06-21 19:24:42 2545 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人