树模型
树模型对数据倾斜相对不敏感
特征选择
- 如果一个特征的方差接近于0,说明几乎没什么变化,就没用,
- Filter过滤:根据设定阈值过滤方差
- wrapper包装:每次选择若干特征进行学习
- Embedded嵌入:先使用机器学习算法得到特征的权重系数
SVD奇异值分解
将一个矩阵data分解为多个矩阵相乘,data是m*n
U E UT ,分别为 mm mn nn 其中E是对角阵,对角元素是datadata^T特征值的平方根
优点:简化数据,去除噪声,提高算法的结果
缺点:数据转换之后可能难以理解
标准化 归一化
都是线性变换
- 归一化一般缩放到 [0,1],标准化服从正态分布 数据大小顺序没变
- 归一化主要受两个极值影响,标准化里每个数据都会影响
编码
序号编码:适合类别间具有大小关系的数据
one-hot:处理类别间不具有大小关系 (用稀疏向量节省空间,配合特征选择降低维度)
不需要归一化的机器学习模型
概率模型不需要归一化,不关心变量的值,关心变量的分布、变量之间的条件概率
如:决策树、随机森林
数值缩放不影响分类点的位置,因为第一步是按照特征值排序,排序不变,不能进行梯度下降,求导没有意义,寻找最优点是通过寻找最优分裂点