sklearn-KMeans聚类分析-汽车分类

目录
01 | 项目简介
02 | KMeans算法
03 | 思路
04 | 代码

01| 项目简介

这是一份有205个数据样本的汽车数据集,其中包括汽车的名称、排放量、车身大小等相关数据。本项目目的在于通过非监督式算法,对数据集进行分类。将汽车分为几大类。


数据集:
链接: https://pan.baidu.com/s/15iFV5NY2OWvhpDkGc2EtbA 提取码: qb6j

02 | KMeans算法

k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。

03 | 思路

1.数据集清洗
本数据集包括object对象,只有int类型才能参与数据集训练,因此要先将数据集分为object类型与非object类型,方法有两种:

# 方法1
df_str = df.select_dtypes(include = object)
df_notstr = df.select_dtypes(exclude = object) # 不包括object的字符`

# 方法2
df[[' '],[' '],[' ']......]

2.K值确定 设定k值范围,通过导入silhouette_score模块,计算k值最佳取值
3.分类

04 | 代码

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn import preprocessing as pp

pd.set_option('display.max_columns',1000)
pd.set_option
  • 1
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值