PySpark入门十八：ML之评估器

最新推荐文章于 2021-05-13 14:18:50 发布

Roc Huang

最新推荐文章于 2021-05-13 14:18:50 发布

阅读量319

点赞数

分类专栏： PySpark从入门到放弃数据分析文章标签： python 神经网络 spark hadoop

本文链接：https://blog.csdn.net/weixin_43790705/article/details/108545364

版权

49 篇文章 58 订阅

订阅专栏

23 篇文章 43 订阅

订阅专栏

评估器被视为需要评估的统计模型，对数据做预测或分类。包含了七种分类。

LogisticRegresssion: 逻辑斯蒂回归，实际作用于二分类场景；
DecisionTreeClassifier：决策树，适用于分类场景。maxDepth：限制树的深度，minInstancePerNode：树节点观察数据的最小数量，maxBins：参数指定连续变量将被分割的Bin的最大数量，impurity:测量并计算来自分割信息的度量；
GBTClassifier: 用于分类的梯度提升决策树模型，集合多个弱分类的模型形成一个强健的模型，支持二进制标签、连续特征和分类特征；
RandomForestClassifier：随机森林，支持二元标签和多项标签，对观察对象进行分类；
NaiveBayes：贝叶斯定理，条件概率理论对数据分类，支持二元标签和多项标签；
MultilayerPerceptronClassifier：多层感知机分类器，模仿人类大脑本质的分类器，理论基础为神经网络理论，该模型通常包含三层：输入层（需要和训练数据中特征的数量一样）、多个隐藏层、输出层，其中，神经元个数等于标签中的类别数量。输入层和隐藏层中的所有神经元都有sigmod激活函数，输出层的激活函数为softmax；
OneVsRest：将多元分类问题简化为二分类问题。在多标签情况下，模型可以训练成多个二元逻辑回归模型，所有模型分别积分，具有最高概率的模型获胜。如果label==2，模型将构建一个逻辑回归，将label为2的转换为1，其余标签值转化为0，然后训练二元模型。

这就是今天学习的ML的7个评估器，对多层感知机的理解更加清晰了一些，之前学习深度学习的时候，一直处于懵懂的状态，之后会分享数据建模案例。学习数据建模，先弄明白模型的逻辑和使用场景是十分必要的。

关注

专栏目录