计算思维与数据科学④

最新推荐文章于 2024-07-16 20:46:02 发布

田园将芜胡不归

最新推荐文章于 2024-07-16 20:46:02 发布

阅读量242

点赞数

文章标签：数据分析机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47280837/article/details/118025894

版权

1、特征：描述物体的属性。分为相关特征、无关特征和冗余特征（其所包含信息能由其他特征推演出来）

为什么要做特征选择？

①简化模型，便于理解

②缩短训练时间

③避免维度灾难

④提高模型的泛化性能（可通过减少过拟合）

2、特征过滤：对各个特征按照发散性或者相关性进行评分，对分数设定阈值或选择靠前的特征。

优点：简单，快速

缺点：对于排序靠前的特征，若他们相关性较强，则引入了冗余特征，浪费了计算资源。

对于排序靠后的特征，独立作用不显著，损失了有价值的特征。

代表方法：皮尔逊相关系数、卡方检验。

特征选择过程与后续学习器无关

3、信息增益Gaint(A)越大，喜味着特征子集A包含的有助于分类的信息越多。

特征筛选：通过不断排除或者不断选择特征，并对训练得到的模型效果进行打分，通过预测效果评分来决定特征的去留。

优点：能较好的保留有价值的特征。

缺点：消耗巨大的计算资源和计算时间。

代表方法：前向选择法，后向剃除法，迭代剃除法。

辛普森悖论：数据结合和数据分离得到的预测（推荐）结果不同。

4、嵌入法：有不少特征筛选和特征过滤的共性，通过不同的方法去计算不同特征对于模型的贡献。

代表方法：Lasso、Elastic Net、Ridge Regression

5、数据降准 特征降维：将数据压缩到一个低维的子空间中，从而获得更有利分析或者更本质，更少的特征。

重要性：好的特征＋一般分类器≥坏的特征＋好的分类器

6、目标驱动的特征表示（存在语义鸿沟问题）

一种好的表示：

①数据编码：唯一性、简洁性、重构性。

①流型模型（图嵌入模型）

②任务用途：判别性，几何结构

③适用性：鲁棒性（不变性）

模型：

①流型模型（图嵌入模型）

②矩阵分解模型

③隐变量模型

7、主成分分析（PCA）:将原有n维特征映射到K维上

步骤：①对所有样本进行去中心化（减去平均值）

②计算样本斜方差矩阵

③对斜方差矩阵进行特征值分解

④取最大的d（低维样本空间维数）个特征值所对应的特征向量。

8、非负矩阵分解／图嵌入

常见的文本表示模型

①词袋模型：无法处理一义多词和一词多义问题。

②主题模型：概率生成模型：根据概率选主题，得到主题后以一定概率选词。

③词嵌入模型：通过机器学习方法提高准确率。

田园将芜胡不归

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
计算思维与数据科学④

1、特征：描述物体的属性。分为相关特征、无关特征和冗余特征（其所包含信息能由其他特征推演出来）为什么要做特征选择？①简化模型，便于理解②缩短训练时间③避免维度灾难④提高模型的泛化性能（可通过减少过拟合）2、特征过滤：对各个特征按照发散性或者相关性进行评分，对分数设定阈值或选择靠前的特征。优点：简单，快速缺点：对于排序靠前的特征，若他们相关性较强，则引入了冗余特征，浪费了计算资源。对于排序靠后的特征，独立作用不显著，损失了有价值的特征。代表方法：皮尔逊相关系数、卡方检验。特征选择过
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。