Machine Learning Theory Review

Skylar_626

已于 2023-03-14 20:01:38 修改

阅读量112

点赞数

分类专栏：数据分析之旅学习历程文章标签：机器学习 python

于 2023-03-08 01:10:17 首次发布

本文链接：https://blog.csdn.net/yule_626/article/details/129385082

版权

学习历程同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

数据分析之旅

3 篇文章 0 订阅

订阅专栏

Catalogue

提问

ID3，C4.5，CART的区别
XGboost如何处理不平衡数据集
Sklearn计算相关系数的几种方式

离散与离散变量之间的相关性——卡方检验、信息墒/信息增益
连续与连续变量之间的相关性——协方差、Pearson相关系数（corrcoef）

SQL如何优化解决数据倾斜问题
数据倾斜即指在大数据计算任务中某个处理任务的进程（通常是一个JVM进程）被分配到的任务量过多，导致任务运行时间超长甚至最终失败，进而导致整个大任务超长时间运行或者失败。外部表现的话，在HiveSQL任务里看到map或者reduce的进度一直是99%持续数小时没有变化；在SparkSQL里则是某个stage里，正在运行的任务数量长时间是1或者2不变。
1）读倾斜。即某个map（HiveSQL）或者task（SparkSQL）在读取数据阶段长期无法完成。这通常是因为文件分块过大或者此分块数据有异常。这种场景出现频率较小。

2）算倾斜。即在某个需要排序（如开窗函数或者非广播关联时）或者聚合操作的时候，同一个key（通常是一个或者多个字段或者表达式的组合）的处理耗时过长。这通常是最多的情况，情况也较为复杂。

3）写倾斜。即某个操作需要输出大量的数据，比如超过几亿甚至几十亿行。主要出现在关联后数据膨胀及某些只能由一个task来操作（如limit）的情况。

4）文件操作倾斜。即数据生成在临时文件夹后，由于数量巨大，重命名和移动的操作非常耗时。这通常发生在动态分区导致小文件的情况。目前在国内和印度区域已经因为我们默认进行小文件合并而不再存在这个情况，新加坡还有（我们在推动解决）。

map数据倾斜
做好分区剪裁，尽量先用where过滤其他，分段跑

join数据倾斜
大小表关联，且小表是从表，使用map join
都是大表时，将空值变成随机值

reduce数据倾斜
用两次 group by 代替 count distinct
不同指标的 count distinct 放到多段 SQL 中执行，执行后再 UNION 或 JOIN 合并

rand(7)构造rand(20)

假如有了一个从自然数中随机取一个数的函数rand(0,7)——从0到7中随机取一个自然数出来，问如何用这个函数构造rand(0,20)——随机从0到20中取一个自然数出来。

参考发现如果直接结果相加确实不符合rand()分布
思路：1/20
P(ABC)=1/20=1/21/21/5
第一次：1~6中的奇和偶数是一样多，所以可以看成奇数和偶数是一样的，也就是0.5，那么7就可以丢弃。
第二次：我们可以挑选1~5，[6，7]丢弃，那么1 ~5的每个数字的概率都是0.2;
第三次：我们继续可以挑选1~5，[6，7]丢弃，那么1 ~5的每个数字的概率都是0.2;
最后一次：挑选大于6的，条件等于7，那么概率就是1

会有bug，就是不符合条件的值会变成None，做一个条件要求

1. Decision Tree

决策树算法的核心是要解决两个问题：
1）如何从数据表中找出最佳节点和最佳分枝？
Ans: Gini, Entropy

Gini越小越好, GINI为不纯度
Entropy，熵是对不确定性的度量，在信息世界，熵越高，则能传输越多的信息，熵越低，则意味着传输的信息越少。
Information_Entropy越大越好（sklearn计算的就是信息增益）

信息墒更敏感，生成树更精细，速度更慢，高维容易过拟合

在这里插入图片描述

2）如何让决策树停止生长，防止过拟合？
ans: 剪枝
在这里插入图片描述
使用确定超参数的曲线来进行判断，填写参数，以查找max_depth为例

import matplotlib.pyplot as plt
test = []
for i in range(10):
clf = tree.DecisionTreeClassifier(max_depth=i+1
,criterion="entropy"
,random_state=30
,splitter="random"
)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)
test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()

每个模型都有自己的决策上限，所以一个怎样调整都无法提升表现的可能性也是有的。当一个模型怎么调整都不行的时候，我们可以选择换其他的模型使用，不要在一棵树上吊死。

最擅长月亮型数据的是最近邻算法，RBF支持向量机和高斯过程；最擅长环形数据的是最近邻算法和高斯过程；最擅长对半分的数据的是朴素贝叶斯，神经网络和随机森林。

2. RandomForest

集成算法会考虑多个评估器的建模结果，汇总之后得到一个综合的结果，以此来获取比单个模型更好的回归或
分类表现。
在这里插入图片描述 n_estimators越大，模型的效果往往越好。但是相应的，任何模型都有决策边界，n_estimators达到一定的程度之后，随机森林的精确性往往不在上升或开始波动，并且，n_estimators越大，需要的计算量和内存也越大，训练的时间也会越来越长。对于这个参数，我们是渴望在训练难度和模型效果之间取得平衡。

一般而言，单个决策树表现越好，随机森林也越好

交叉验证：是数据集划分为n分，依次取每一份做测试集，每n-1份做训练集，多次训练模型以观测模型稳定性的方法

随机森林中有三个非常重要的属性：.estimators_，.oob_score_以及.feature_importances_。

.estimators_是用来查看随机森林中所有树的列表。

oob_score_指的是袋外得分。随机森林为了确保林中的每棵树都不尽相同，所以采用了对训练集进行有放回抽样的
方式来不断组成信的训练集，在这个过程中，会有一些数据从来没有被随机挑选到，他们就被叫做“袋外数据”。这
些袋外数据，没有被模型用来进行训练，sklearn可以帮助我们用他们来测试模型，测试的结果就由这个属性
oob_score_来导出，本质还是模型的精确度。

而.feature_importances_和决策树中的.feature_importances_用法和含义都一致，是返回特征分数。

随机森林的接口与决策树完全一致，因此依然有四个常用接口：apply, fit, predict和score。除此之外，还需要注
意随机森林的predict_proba接口，这个接口返回每个测试样本对应的被分到每一类标签的概率，标签有几个分类
就返回几个概率。如果是二分类问题，则predict_proba返回的数值大于0.5的，被分为1，小于0.5的，被分为0。

传统的随机森林是利用袋装法中的规则，平均或少数服从多数来决定集成的结果，而sklearn中的随机森林是平均
每个样本对应的predict_proba返回的概率，得到一个平均概率，从而决定测试样本的分类