一、异常值判断 (一)看箱线图 在两根线外的是离群点[ Q1-1.5IQR,Q3+1.5IQR ],在此范围外的是异常值 (二)正态分布:3σ准则 当样本服从正态分布,[ mean-3σ,mean-3σ ] 在此范围外的是离群点 二、异常值处理 (一)删除 一般情况下根据箱线图删除异常值 (二)长尾截断 【例】大于400全部赋值为400 (三)box-cox变换为正态分布 如果需要构建线性模型,则因变量y需要符合线性、正态、方差齐性的假设,如果不符合,需要用box-cox变换。