自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 相关性分析——肯德尔系数(Tau-a与Tau-b)

例如,我们可以将一个特征的值与某个阈值进行比较,高于阈值的赋值为1,低于阈值的赋值为0。Tau-a忽略了平局的影响,而Tau-b则调整了平局的情况,通常Tau-b的结果会更准确地反映变量之间的真实关系,尤其是在数据中存在大量平局时。Tau-a 适用于没有平局情况的数据集,而 Tau-b 则修正了平局的影响,适用于更广泛的数据场景。:(df['MedInc'] > df['MedInc'].median()).astype(int) 将收入高于中位数的赋值为1,低于或等于中位数的赋值为0。

2024-06-27 20:45:08 2137

原创 特征工程——相关性分析(皮尔逊和斯皮尔曼)

皮尔逊相关系数是用来衡量两个变量之间线性相关程度的统计量,记作,其取值范围为 [-1, 1]。公式如下:其中:是两个变量的观测值是两个变量的均值。

2024-06-26 19:35:27 5410

原创 异常值检测(2)——Z-score和Grubbs假设检验

如果数据中存在多个异常值,或者数据不服从正态分布,Grubbs检验的效果可能不太理想,此时可以考虑使用其他异常值检测方法。在Z分数方法中,Z分数为3的点对应的实际值是μ+3 *σ,Z分数为-3的点对应的实际值是μ+3 *σ。如果 g_stat ≤ g_crit,则无法拒绝原假设,认为不存在异常值。如果计算得到 g_stat = 3.045,由于 g_stat > g_crit,我们可以认为存在异常值。如果 g_stat > g_crit,则拒绝原假设,认为存在异常值。3.定义异常值的阈值。

2024-06-22 16:12:53 1327

原创 异常值检测(1)——箱线图四分位距和3σ

异常值就是那些偏离多数样本值过多的值,比如我用机器学习在做房价预测时,获取的沈阳浑南区数据普遍都在11000左右,结果有那么一两个楼盘是20000(管他是不是碧桂园),那么这两个值就是异常值。

2024-06-21 19:24:42 2545 1

原创 记一次SVN信息泄露挖掘过程(附工具)

svn漏洞利用

2023-04-10 13:18:01 4104 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除