通过 3sigma原则定义异常值 3sigma原则 找到平均值sigma 标准差 3.1 例子 假设:男生的平均身高是为170 标准差: 5cm 按照大数定律我们所有可统计的自然现象 都符合正态分布 65.26%的人 一个标准差之间 165-175 95.44%的人 两个标准差之内 160-180 99.74%的人 三个标准差之内 165-195 当你超过了这三个标准差 那就是小概率事件发生 即异常值 箱线图去除异常值 上边缘 用上4分位点的值, 减去 下4分位点的值 假设一个上4 分位点值为 94 下4 分位点值为 84 差为 10 上边缘 = 上4