1、特征:描述物体的属性。分为相关特征、无关特征和冗余特征(其所包含信息能由其他特征推演出来)
为什么要做特征选择?
①简化模型,便于理解
②缩短训练时间
③避免维度灾难
④提高模型的泛化性能(可通过减少过拟合)
2、特征过滤:对各个特征按照发散性或者相关性进行评分,对分数设定阈值或选择靠前的特征。
优点:简单,快速
缺点:对于排序靠前的特征,若他们相关性较强,则引入了冗余特征,浪费了计算资源。
对于排序靠后的特征,独立作用不显著,损失了有价值的特征。
代表方法:皮尔逊相关系数、卡方检验。
特征选择过程与后续学习器无关
3、信息增益Gaint(A)越大,喜味着特征子集A包含的有助于分类的信息越多。
特征筛选:通过不断排除或者不断选择特征,并对训练得到的模型效果进行打分,通过预测效果评分来决定特征的去留。
优点:能较好的保留有价值的特征。
缺点:消耗巨大的计算资源和计算时间。
代表方法:前向选择法,后向剃除法,迭代剃除法。
辛普森悖论:数据结合和数据分离得到的预测(推荐)结果不同。
4、嵌入法:有不少特征筛选和特征过滤的共性,通过不同的方法去计算不同特征对于模型的贡献。
代表方法:Lasso、Elastic Net、Ridge Regression
5、数据降准 特征降维:将数据压缩到一个低维的子空间中,从而获得更有利分析或者更本质,更少的特征。
重要性:好的特征+一般分类器≥坏的特征+好的分类器
6、目标驱动的特征表示(存在语义鸿沟问题)
一种好的表示:
①数据编码:唯一性、简洁性、重构性。
①流型模型(图嵌入模型)
②任务用途:判别性,几何结构
③适用性:鲁棒性(不变性)
模型:
①流型模型(图嵌入模型)
②矩阵分解模型
③隐变量模型
7、主成分分析(PCA):将原有n维特征映射到K维上
步骤:①对所有样本进行去中心化(减去平均值)
②计算样本斜方差矩阵
③对斜方差矩阵进行特征值分解
④取最大的d(低维样本空间维数)个特征值所对应的特征向量。
8、非负矩阵分解/图嵌入
常见的文本表示模型
①词袋模型:无法处理一义多词和一词多义问题。
②主题模型:概率生成模型:根据概率选主题,得到主题后以一定概率选词。
③词嵌入模型:通过机器学习方法提高准确率。