机器学习复习笔记（2）数据清洗与特征选择

最新推荐文章于 2024-08-15 09:22:12 发布

大叔爱学习.

最新推荐文章于 2024-08-15 09:22:12 发布

阅读量213

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43716712/article/details/120122699

版权

主要内容
在这里插入图片描述
赔率问题

在这里插入图片描述
Fuzzywuzzy
FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。github 上 5K 星，它依据 Levenshtein Distance 算法计算两个序列之间的差异。

一个处理文字距离的包：Levenshtein distance边际距离
在这里插入图片描述

在这里插入图片描述

如果我们想显示数据，一般都需要将数据特征降维，降维的方式我们可以选择PCA，t-sne, MDS 等。

PCA就是谁能够使得x投影之后最离散，方差最大，那个方向就是主方向。
下面就是一个应用PCA的例子，蓝色是给的数据，如果我们一开始就按蓝色做分类，可能会分错，但是如果先把他们降维到水平轴，就会分的更好。
在这里插入图片描述
所以，并不是我们将数据做降维了，数据的信息就都丢失了，并不是这样。可能重要的数据反而显现出来了。

老师讲了一个将本来的线性分类器通过对x1和x2求出新的特征x12和x22以及x1*x2，可以最终成为一个非线性的分类器。这个想法我之前没想到。本质是将特征升维。我们当然可以升高到3次方，100次方等。但是要考虑过拟合问题。
在这里插入图片描述
过拟合是个非常重要的问题，欠拟合可以增加模型难度，添加更多数据。但是过拟合的话，就很难办了。看技术了

有些特征值不能当作数值去参与计算，所以我们要给他们做分类，然后用One-hot独热编码。尤其是在参与有关距离的算法模型计算中时。
One-hot会让特征变得急剧膨胀，变为稀疏矩阵。