计算思维与数据科学④

1、特征:描述物体的属性。分为相关特征、无关特征和冗余特征(其所包含信息能由其他特征推演出来)

为什么要做特征选择?

        ①简化模型,便于理解

        ②缩短训练时间

        ③避免维度灾难

        ④提高模型的泛化性能(可通过减少过拟合)

2、特征过滤:对各个特征按照发散性或者相关性进行评分,对分数设定阈值或选择靠前的特征。

优点:简单,快速

缺点:对于排序靠前的特征,若他们相关性较强,则引入了冗余特征,浪费了计算资源。

           对于排序靠后的特征,独立作用不显著,损失了有价值的特征。

代表方法:皮尔逊相关系数、卡方检验。

特征选择过程与后续学习器无关

3、信息增益Gaint(A)越大,喜味着特征子集A包含的有助于分类的信息越多。

特征筛选:通过不断排除或者不断选择特征,并对训练得到的模型效果进行打分,通过预测效果评分来决定特征的去留。

                优点:能较好的保留有价值的特征。

                缺点:消耗巨大的计算资源和计算时间。

代表方法:前向选择法,后向剃除法,迭代剃除法。

辛普森悖论:数据结合和数据分离得到的预测(推荐)结果不同。

4、嵌入法:有不少特征筛选和特征过滤的共性,通过不同的方法去计算不同特征对于模型的贡献。

代表方法:Lasso、Elastic Net、Ridge Regression

5、数据降准  特征降维:将数据压缩到一个低维的子空间中,从而获得更有利分析或者更本质,更少的特征。

重要性:好的特征+一般分类器≥坏的特征+好的分类器

6、目标驱动的特征表示(存在语义鸿沟问题)

一种好的表示:

①数据编码:唯一性、简洁性、重构性。

①流型模型(图嵌入模型)

②任务用途:判别性,几何结构

③适用性:鲁棒性(不变性)

模型:

①流型模型(图嵌入模型)

②矩阵分解模型

③隐变量模型

7、主成分分析(PCA):将原有n维特征映射到K维上

步骤:①对所有样本进行去中心化(减去平均值)

           ②计算样本斜方差矩阵

           ③对斜方差矩阵进行特征值分解

           ④取最大的d(低维样本空间维数)个特征值所对应的特征向量。

8、非负矩阵分解/图嵌入

  常见的文本表示模型

  ①词袋模型:无法处理一义多词和一词多义问题。

  ②主题模型:概率生成模型:根据概率选主题,得到主题后以一定概率选词。

  ③词嵌入模型:通过机器学习方法提高准确率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值