在无监督学习中,学习算法只有输入数据(一般用不包含任何标签信息的数据),并需要从这些数据中提取知识。结果没有正确答案,不像监督学习可以计算精度,评估无监督算法结果的唯一方法是人工检查。
无监督学习的类型
- 数据集变换算法:创建数据集新的表示的算法,使其更容易被理解。可以应用在降维,用较少的特征就可以概括其重要特征(可视化数据降成二维);还可以用在主题提取,找到构成数据的各个组成部分(社交网络上的讨论话题)。
- 聚类算法:将数据划分成不同的组,每个组包含相似的物象(照片分类)。
无监督算法的应用
- 用于探索性的目的。
- 作为监督学习算法的预处理步骤。提高监督算法的精度,或者减少内存的占用和开销。