数据描述的数值方法
集中趋势
集中趋势:一组数据向中心值靠拢的倾向和程度。
- 均值:平均数(注意数学表达式的写法)。
- 中位数:排序后的数,中间的数或中间的两个的平均数。
- 众数:出现次数最多的数。
离散程度
均值一致时,不能反应数据特征。
离散程度:数据远离中心值的程度。
- 极差:最大值减最小值
- 方差(variance):描述数据离散程度
分布的形状
- 偏态(skewness)
左偏分布(负偏分布)SK<0
对称分布
右偏分布(正偏分布)SK>0 - 峰度(kurtosis)
偏差(bias)与方差(variance)
- 偏差:实际打靶目标与期望目标的差距。(重在:差距)
- 方差:实际打靶目标本身的集中程度。(重在:分散性)
- 泛化误差:
欠拟合
多训练,加特征。
过拟合
期望预测值
离散程度
偏态(skewness)
- s:标准差=方差的算术平方根