目录
01 | 项目简介
02 | KMeans算法
03 | 思路
04 | 代码
01| 项目简介
这是一份有205个数据样本的汽车数据集,其中包括汽车的名称、排放量、车身大小等相关数据。本项目目的在于通过非监督式算法,对数据集进行分类。将汽车分为几大类。
数据集:
链接: https://pan.baidu.com/s/15iFV5NY2OWvhpDkGc2EtbA 提取码: qb6j
02 | KMeans算法
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
03 | 思路
1.数据集清洗
本数据集包括object对象,只有int类型才能参与数据集训练,因此要先将数据集分为object类型与非object类型,方法有两种:
# 方法1
df_str = df.select_dtypes(include = object)
df_notstr = df.select_dtypes(exclude = object) # 不包括object的字符`
# 方法2
df[[' '],[' '],[' ']......]
2.K值确定 设定k值范围,通过导入silhouette_score模块,计算k值最佳取值
3.分类
04 | 代码
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn import preprocessing as pp
pd.set_option('display.max_columns',1000)
pd.set_option