机器学习流程及详细内容（4）

最新推荐文章于 2024-02-04 17:34:39 发布

xghdxdb

最新推荐文章于 2024-02-04 17:34:39 发布

阅读量274

点赞数 1

文章标签：机器学习概率论 python pycharm jupyter

本文链接：https://blog.csdn.net/xghdxdb/article/details/120332715

版权

本文介绍了机器学习的一般流程，接着深入讲解了三种模型：决策树（DT）、k近邻算法（KNN）和多层感知器（神经网络）。在决策树中，讨论了关键参数如criterion、splitter和max_depth等。对于KNN，提到了n_neighbors、weights和algorithm等参数。最后，神经网络部分涉及了hidden_layer_sizes、activation和solver等重要概念。这些模型各有优缺点，适用于不同的应用场景。

摘要由CSDN通过智能技术生成

一般流程：数据收集、整理→数据预处理与特征工程（数据清理、集成、规约、变换、特征提取、筛选）→模型的选择与建立→模型的评估与优化。

定义模型：

前文详细描述了四种算法模型的实现（线性回归，逻辑回归，朴素贝叶斯，支持向量机）

5.决策树DT

from sklearn import tree
# 分类函数
model = tree.DecisionTreeClassifier(criterion='gini', max_depth=None, min_samples_split=2,
 min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None,
 max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None,
 class_weight=None)

# 回归函数
model = tree.DecisionTreeRegressor(criterion='mse', max_depth=None, min_samples_split=2,
 min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None,
 max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None)

criterion: 特征选取方法，可以是gini（基尼系数），entropy（信息增益），通常选择gini，即CART算法，如果选择后者，则是ID3和C4,.5
splitter: 特征划分点选择方法，可以是best或random，前者是在特征的全部划分点中找到最优的划分点，后者是在随机选择的部分划分点找到局部最优的划分点，一般在样本量不大的时候，选择best，样本量过大，可以用random
max_depth: 树的最大深度，默认可以不输入，那么不会限制子树的深度，一般在样本少特征也少的情况下，可以不做限制，但是样本过多或者特征过多的情况下，可以设定一个上限，一般取10~100
min_samples_split:节点再划分所需最少样本数，如果节点上的样本树已经低于这个值，则不会再寻找最优的划分点进行划分，且以结点作为叶子节点，默认是2，如果样本过多的情况下，可以设定一个阈值，具体可根据业务需求和数据量来定
min_samples_leaf: 叶子节点所需最少样本数，如果达不到这个阈值，则同一父节点的所有叶子节点均被剪枝，这是一个防止过拟合的参数，可以输入一个具体的值，或小于1的数（会根据样本量计算百分比）
min_weight_fraction_leaf: 叶子节点所有样本权重和，如果低于阈值，则会和兄弟节点一起被剪枝，默认是0，就是不考虑权重问题。这个一般在样本类别偏差较大或有较多缺失值的情况下会考虑
max_features: 划分考虑最大特征数，不输入则默认全部特征，可以选 log2N,sqrt(N),auto或者是小于1的浮点数（百分比）或整数（具体数量的特征）。如果特征特别多时如大于50，可以考虑选择auto来控制决策树的生成时间
max_leaf_nodes:最大叶子节点数，防止过拟合，默认不限制，如果设定了阈值，那么会在阈值范围内得到最优的决策树，样本量

最低0.47元/天解锁文章

xghdxdb

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习流程及详细内容（4）

一般流程：数据收集、整理→数据预处理与特征工程（数据清理、集成、规约、变换、特征提取、筛选）→模型的选择与建立→模型的评估与优化。定义模型：前文详细描述了四种算法模型（线性回归，逻辑回归，朴素贝叶斯，支持向量机）5.决策树DT...
复制链接

扫一扫