PySpark入门十九:ML评估器之回归与聚类

回归

ML中可用于回归的有七种模型:

  1. AFTSurvivalRegression:适合加速失效时间回归模型。是一个参数化模型,假设其中一个特征的边际效应加速或减缓了预期寿命。适用于具有明确阶段的过程。
  2. DecisionTreeRegressor:类似于分类模型,明显不同的是其标签是连续的而不是多项的。
  3. GBTRegressor: 与 DecisionTreeRegressor 一样,区别在于标签的数据类型。
  4. GeneralizedLinearRegression: 广义线性回归是具有不同内核功能的线性模型家族。与假设误差项的常态性的线性回归相反,GLM允许标签具有不同的误差项分布:gaussian、binomial、gamma和poisson家族的误差分布;
  5. IsotonicRegression: 这种回归拟合一个形式自由、非递减的行到数据中。对于拟合有序的和递增的数据集是有用的;
  6. LinearRegression:最简单的线性回归模型,假设了特征与连续标签以及误差项的常态之间的线性关系;
  7. RandomForestRegressor: 适合连续标签,而不是离散标签

聚类

无监督学习模型,用于查找数据中的关系。包含了四种模型:

  1. BisectingKMeans:二分K均值算法,该算法结合了k均值聚类算法和层次聚类算法。该算法将所有观察点作为一个簇,然后将数据迭代地分解为k个簇;
  2. KMeans:K均值算法,将数据分成k个簇,迭代的搜索那些使每个观察点和它所属簇的质点之间距离平方和最小的那些质点;
  3. GaussianMixture: 高斯混合模型,使用具有未知参数的k个高斯分布来剖析数据集。使用的是期望最大化算法,通过最大化对数似然函数找到高斯函数;
  4. LDA:改模型用于自然语言处理应用程序中的主题生成。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值