主要内容
赔率问题
Fuzzywuzzy
FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。github 上 5K 星,它依据 Levenshtein Distance 算法 计算两个序列之间的差异。
一个处理文字距离的包:Levenshtein distance边际距离
如果我们想显示数据,一般都需要将数据特征降维,降维的方式我们可以选择PCA,t-sne, MDS 等。
PCA就是谁能够使得x投影之后最离散,方差最大,那个方向就是主方向。
下面就是一个应用PCA的例子,蓝色是给的数据,如果我们一开始就按蓝色做分类,可能会分错,但是如果先把他们降维到水平轴,就会分的更好。
所以,并不是我们将数据做降维了,数据的信息就都丢失了,并不是这样。可能重要的数据反而显现出来了。
老师讲了一个将本来的线性分类器通过对x1和x2求出新的特征x12和x22以及x1*x2,可以最终成为一个非线性的分类器。这个想法我之前没想到。本质是将特征升维。我们当然可以升高到3次方,100次方等。但是要考虑过拟合问题。
过拟合是个非常重要的问题,欠拟合可以增加模型难度,添加更多数据。但是过拟合的话,就很难办了。看技术了
有些特征值不能当作数值去参与计算,所以我们要给他们做分类,然后用One-hot独热编码。尤其是在参与有关距离的算法模型计算中时。
One-hot会让特征变得急剧膨胀,变为稀疏矩阵。
老师留了个问题:为什么决策树不需要做one-hot编码?
我的想法:决策树在节点分类的时候,会算交叉熵损失,如果是分类的问题,那么每一类算出来的值应该是相同的。
(模糊——需要查资料)
AUC和ROC
(模糊——需要查资料)