一、特征选择原因
- 避免维数灾难
- 去除不相关特征可以降低学习难度
二、特征选择方法
常见的特征选择方法主要有三种:过滤式(Filter)、包裹式(Wrapper)、嵌入式(Embedding)
1. 过滤式选择
先对特征进行选择,然后再训练学习器,这里介绍一个著名的过滤式选择方法:Relief
训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\} {
(x1,y1),(x2,y2),...,(xm,ym)},对每个 x i x_i xi,在 x i x_i xi的同类样本中找到最近的样本 x i , n h x_{i,nh} xi,nh,称为猜中近邻(near-hit),在 x i x_i xi的异类样本中找到最近的样本 x i , n m x_{i,nm} xi,nm,称为猜错近邻(near-miss)。属性j的相关统计量大小根据如下公式计算:
∑ i = 1 m − d i f f ( x i j , x i , n h j ) 2 + d i f f ( x i j , x i , n m