聚类（Clustering）

最新推荐文章于 2024-07-02 10:45:45 发布

young_-_

最新推荐文章于 2024-07-02 10:45:45 发布

阅读量1.4k

点赞数

本节主要描述MLlib中的聚类算法，基于RDD API的聚类指南中，也包括这些算法的相关信息。

K-means（聚类）
- Input Columns
- Output Columns
Latent Dirichlet allocation (LDA，潜在狄利克雷分布)
Bisecting k-means（二分K均值）
Gaussian Mixture Model (GMM，高斯混合模型)
- Input Columns
- Output Columns

K-means

k-means是一种最常用的聚类算法，该算法可以按照预定义的类别数量，实现数据点的聚类。MLlib中实现包括一个被叫做kmeans||聚类算法，其包含k-means++方法的一个并行化变体。

KMeans被作为Estimator实现，产生一个KMeansModel，作为基本模型。

输入列

参数名称	类型	默认	描述
featuresCol	Vector	"features"	Feature vector

输出列

参数名称	类型	默认	描述
predictionCol	Int	"prediction"	Predicted cluster center

实例

import org.apache.spark.ml.clustering.KMeansModel;
import org.apache.spark.ml.clustering.KMeans;
import org.apache.spark.ml.linalg.Vector;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

// 加载数据
Dataset<Row> dataset = spark.read().format("libsvm").load("data/mllib/sample_kmeans_data.txt");

// 训练K-means模型
KMeans kmeans = new KMeans().setK(2).setSeed(1L);
KMeansModel model = kmeans.fit(dataset);

// 通过计算误差的平法和来评估聚类算法
double WSSSE = model.computeCost(dataset);
System.out.println("Within Set Sum of Squared Errors = " + WSSSE);

// 展示结果
Vector[] centers = model.clusterCenters();
System.out.println("Cluster Centers: ");
for (Vector center: centers) {
  System.out.println(center);
}

详细信息参考Java API docs。

在Spark Repo中“examples/src/main/java/org/apache/spark/examples/ml/JavaKMeansExample.java”，可以找到实例代码。

Latent Dirichlet allocation (LDA)

LDA被作为一个Estimator实现，可以同时支持EMLDAOptimizer和OnlineLDAOptimizer，并生成一个LDAModel作为基础模型。如果有需要，可以将基于EMLDAOptimitzer产生LDAModel映射成一个DistributedLDAModel.

实例

import org.apache.spark.ml.clustering.LDA;
import org.apache.spark.ml.clustering.LDAModel;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

// 加载数据
Dataset<Row> dataset = spark.read().format("libsvm")
  .load("data/mllib/sample_lda_libsvm_data.txt");

// 训练LDA模型
LDA lda = new LDA().setK(10).setMaxIter(10);
LDAModel model = lda.fit(dataset);

double ll = model.logLikelihood(dataset);
double lp = model.logPerplexity(dataset);
System.out.println("The lower bound on the log likelihood of the entire corpus: " + ll);
System.out.println("The upper bound on perplexity: " + lp);

// 描述话题
Dataset<Row> topics = model.describeTopics(3);
System.out.println("The topics described by their top-weighted terms:");
topics.show(false);

// 展示结果
Dataset<Row> transformed = model.transform(dataset);
transformed.show(false);

详细信息参考Java API docs。

在Spark Repo中“examples/src/main/java/org/apache/spark/examples/ml/JavaLDAExample.java”，可以找到实例代码。

Bisecting k-means

二分k-means是一种使用分裂方式（自上而下）的层次聚类算法：开始所有的观测值都作为一个类，迭代地执行分裂，移动到下一个层级。

二分K-means通常比正规化的K-means快，但是也会产生一个不同聚类。

BisectingKMeams被作为一种Estimator实现，生成一个BisectingKMeansModel，作为基础模型。

实例

import org.apache.spark.ml.clustering.BisectingKMeans;
import org.apache.spark.ml.clustering.BisectingKMeansModel;
import org.apache.spark.ml.linalg.Vector;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

// 加载数据
Dataset<Row> dataset = spark.read().format("libsvm").load("data/mllib/sample_kmeans_data.txt");

// 训练二分k-means模型
BisectingKMeans bkm = new BisectingKMeans().setK(2).setSeed(1);
BisectingKMeansModel model = bkm.fit(dataset);

// 评估聚类算法
double cost = model.computeCost(dataset);
System.out.println("Within Set Sum of Squared Errors = " + cost);

// 展示结果
System.out.println("Cluster Centers: ");
Vector[] centers = model.clusterCenters();
for (Vector center : centers) {
  System.out.println(center);
}

详细信息参考Java API docs。

在Spark Repo中“examples/src/main/java/org/apache/spark/examples/ml/JavaBisectingKMeansExample.java”，可以找到实例代码。

Gaussian Mixture Model (GMM)

高斯混合模型表示一种复合分布，所有的点都来至于k个高斯子分部中的一个，并且具有各自的概率。spark.ml算法实现是在给定样本集上，通过使用期望最大化算法来推导最大似然模型。

GaussianMixture被作为一个Estimator实现，其生成一个基础模型GaussianMixtureModel。

输入列

参数名	参数类型	默认值	描述
featuresCol	Vector	"features"	Feature vector

输出列

参数名	参数类型	默认值	描述
predictionCol	Int	"prediction"	Predicted cluster center
probabilityCol	Vector	"probability"	Probability of each cluster

实例

import org.apache.spark.ml.clustering.GaussianMixture;
import org.apache.spark.ml.clustering.GaussianMixtureModel;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class JavaGaussianMixtureExample{

    public static void main(String[] args){
        // 创建SparkSession
        SparkSession spark = SparkSession
            .builder()
            .master("local[*]")
            .appName("JavaGaussianMixtureExample")
            .getOrCreate();

        // 加载数据，format指定读取文件的格式
        Dataset<Row> dataset =         
        spark.read().format("libsvm").load("data/mllib/sample_kmeans_data.txt");
        dataset.show(false);

        // 训练高斯混合模型
        GaussianMixture gmm = new GaussianMixture().setK(2);
        GaussianMixtureModel model = gmm.fit(dataset);

        // Output the parameters of the mixture model
        for (int i = 0; i < model.getK(); i++) {
          System.out.printf("Gaussian %d:\nweight=%f\nmu=%s\nsigma=\n%s\n\n",
           i, model.weights()[i], model.gaussians()[i].mean(), model.gaussians()[i].cov());
        }
    }
}

详细信息参考Java API docs。

在Spark Repo中“examples/src/main/java/org/apache/spark/examples/ml/JavaGaussianMixtureExample.java”，可以找到实例代码。