【SCAU_educoder数据挖掘】scau数据挖掘实验3-2基础聚类算法

稷_

于 2024-05-20 20:12:14 发布

阅读量604

点赞数 18

分类专栏： scau数据挖掘文章标签：数据挖掘算法聚类

本文链接：https://blog.csdn.net/weixin_53762564/article/details/139073791

版权

scau数据挖掘专栏收录该内容

10 篇文章 2 订阅

订阅专栏

任务描述

本关任务： 1.k-means聚类； 2.hcluster聚类。

编程要求

根据提示，在右侧编辑器补充的相关函数代码，对鸢尾花数据集做KMeans聚类和HCluster聚类。

KMeans函数介绍

kmeans = KMeans(n_clusters=5, random_state=3)
n_clusters 为簇的个数，即你想聚成几类；random_state 是随机状态，没有设定输出结果会不确定，评测确定答案一致设定随机状态。

AgglomerativeClustering函数介绍

AgglomerativeClustering(linkage='ward', n_clusters=2)
链接算法 ward，聚2类。
linkage：一个字符串，用于指定链接算法
—— ‘ward’：单链接single-linkage，采用dmindmin。
—— ‘complete’：全链接complete-linkage算法，采用dmaxdmax。
—— ‘average’：均连接average-linkage算法，采用davgdavg。

测试说明

平台会对你编写的代码进行测试：

测试输入：略；预期输出：

K-means: [1 2 2 0 0 0 0 1 2 0 2 2 0 0 1 2 1 1 1 0 1 1 0 1 1 0 2 1 2 2 2 2 2 1 1 1 11 0 0 1 1 1 0 0 1 0 1 0 1 0 2 2 0 2 1 1 1 1 2 2 1 1 1 2 1 0 1 1 0 0 2 0 11 0 2 2 2 1 0 2 2 2 1 0 2 2 2 0 1 2 0 0 1 0 0 1 2 0 0 2 0 2 0 0 0 0 2 0 12 0 1 0 2 2 0 0 2]hcluster: [0 2 0 1 1 1 1 0 2 1 2 2 1 1 0 2 0 0 0 1 0 0 1 0 0 1 2 0 2 2 2 2 2 0 0 0 00 1 1 0 0 0 1 1 0 1 0 1 0 1 2 2 1 2 0 0 0 0 2 2 0 0 0 2 0 1 0 0 1 1 2 1 00 1 2 2 2 0 1 2 2 2 0 1 2 2 2 1 0 2 1 1 0 1 1 0 2 1 1 2 1 2 1 1 1 1 2 1 02 1 0 1 2 2 1 1 2]

源代码：

from sklearn.cluster import KMeans
from sklearn.cluster import AgglomerativeClustering
import pandas as pd


def Kmeans(data_url):
    """k-means"""
    df1 = pd.read_csv(data_url)
    X1 = df1.iloc[:, 1:5]
    # 构造k-means聚类器,类别为3,随机状态为9
    #####Begin#####
    estimator = KMeans(n_clusters=3, random_state=9)

    #####End#####
    return estimator.fit_predict(X1)


def Hcluster(data_url):
    """hcluster"""
    df2 = pd.read_csv(data_url)
    X2 = df2.iloc[:, 1:5]

    # 构造hcluster聚类器,类别为3
    #####Begin#####

    clustering = AgglomerativeClustering(n_clusters=3)
    #####End#####
    return clustering.fit_predict(X2)


if __name__ == '__main__':
    data_url = "src/step1/data/iris_train.csv"
    result1 = Kmeans(data_url)
    print('K-means:', result1)
    result2 = Hcluster(data_url)
    print('hcluster:', result2)