回归
ML中可用于回归的有七种模型:
- AFTSurvivalRegression:适合加速失效时间回归模型。是一个参数化模型,假设其中一个特征的边际效应加速或减缓了预期寿命。适用于具有明确阶段的过程。
- DecisionTreeRegressor:类似于分类模型,明显不同的是其标签是连续的而不是多项的。
- GBTRegressor: 与 DecisionTreeRegressor 一样,区别在于标签的数据类型。
- GeneralizedLinearRegression: 广义线性回归是具有不同内核功能的线性模型家族。与假设误差项的常态性的线性回归相反,GLM允许标签具有不同的误差项分布:gaussian、binomial、gamma和poisson家族的误差分布;
- IsotonicRegression: 这种回归拟合一个形式自由、非递减的行到数据中。对于拟合有序的和递增的数据集是有用的;
- LinearRegression:最简单的线性回归模型,假设了特征与连续标签以及误差项的常态之间的线性关系;
- RandomForestRegressor: 适合连续标签,而不是离散标签
聚类
无监督学习模型,用于查找数据中的关系。包含了四种模型:
- BisectingKMeans:二分K均值算法,该算法结合了k均值聚类算法和层次聚类算法。该算法将所有观察点作为一个簇,然后将数据迭代地分解为k个簇;
- KMeans:K均值算法,将数据分成k个簇,迭代的搜索那些使每个观察点和它所属簇的质点之间距离平方和最小的那些质点;
- GaussianMixture: 高斯混合模型,使用具有未知参数的k个高斯分布来剖析数据集。使用的是期望最大化算法,通过最大化对数似然函数找到高斯函数;
- LDA:改模型用于自然语言处理应用程序中的主题生成。