机器学习 复习笔记(2)数据清洗与特征选择

主要内容
在这里插入图片描述
赔率问题
在这里插入图片描述

在这里插入图片描述
Fuzzywuzzy
FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。github 上 5K 星,它依据 Levenshtein Distance 算法 计算两个序列之间的差异。

一个处理文字距离的包:Levenshtein distance边际距离
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
如果我们想显示数据,一般都需要将数据特征降维,降维的方式我们可以选择PCA,t-sne, MDS 等。
在这里插入图片描述
PCA就是谁能够使得x投影之后最离散,方差最大,那个方向就是主方向。
下面就是一个应用PCA的例子,蓝色是给的数据,如果我们一开始就按蓝色做分类,可能会分错,但是如果先把他们降维到水平轴,就会分的更好。
在这里插入图片描述
所以,并不是我们将数据做降维了,数据的信息就都丢失了,并不是这样。可能重要的数据反而显现出来了。

老师讲了一个将本来的线性分类器通过对x1和x2求出新的特征x12和x22以及x1*x2,可以最终成为一个非线性的分类器。这个想法我之前没想到。本质是将特征升维。我们当然可以升高到3次方,100次方等。但是要考虑过拟合问题。
在这里插入图片描述
过拟合是个非常重要的问题,欠拟合可以增加模型难度,添加更多数据。但是过拟合的话,就很难办了。看技术了
在这里插入图片描述
有些特征值不能当作数值去参与计算,所以我们要给他们做分类,然后用One-hot独热编码。尤其是在参与有关距离的算法模型计算中时。
One-hot会让特征变得急剧膨胀,变为稀疏矩阵。

在这里插入图片描述
老师留了个问题:为什么决策树不需要做one-hot编码?
我的想法:决策树在节点分类的时候,会算交叉熵损失,如果是分类的问题,那么每一类算出来的值应该是相同的。
模糊——需要查资料)
在这里插入图片描述
在这里插入图片描述
AUC和ROC
(模糊——需要查资料)
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值