无监督学习
将无标签数据输入到算法中,让算法找到隐含在数据中的结构
1.K均值算法
该算法为迭代算法,做两件事,进行簇分类和移动聚类中心
簇分类,遍历原始数据,确定每个数据分配给聚类中心
之前
之后
然后移动聚类中心,计算所有红点的均值,并将聚类中心移到那里,蓝点同理
然后重新分配
然后不断重复这两步,直到聚类中心不在变化,点的颜色不在变化,可以结束了
K均值算法可以用于分离不佳的簇
损失函数/失真代价函数
由于初始的聚类中心是随机选择的,最后结果为局部最优,为了达到全局最优,可以多初始化几次
K值选择
方法一
方法二
2.降维
主成分分析问题PCA
找到一个低维平面,然后将数据投影在上面,使蓝色线段平方值最小,蓝色线段又叫投影误差
怎么降维?
1.先对数据进行预处理
2.计算协方差矩阵
3.计算该矩阵特征向量
对于目标维度k的选择
更高效的办法
异常检测
该检测算法具体步骤
推荐系统
基于内容
协同过滤算法