监督学习
在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果。
监督学习一般使用两种类型的目标变量:标称型和数值型。标称型目标变量的结果只在有限目标集中取值,如真与假、动物分类集合;数值型目标变量则可以从无限的数值集合中取值。数值型目标变量主要用于回归分析。
有监督模型训练涉及使用包含输入特征和对应输出标签的数据集来训练模型。这个过程类似于学生在老师的指导下学习,模型通过比较预测结果与实际标签之间的差异,不断调整自身的参数以减小这个差异。有监督学习的目的在于找到一个从输入到输出的映射函数,使得模型能够对新的、未见过的数据做出准确的预测。
无监督学习
此时数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被成为聚类;将寻找描述数据值的过程称之为密度估计。
此外,无监督学习还可以 减少数据特征的维度,以便可以使用二维或三维图形更加直观地展示数据信息。
无监督模型训练不依赖于标签,而是通过分析数据集中的模式和关系来进行学习。它的目标是发现数据的内在结构,典型的无监督学习方法包括聚类和密度估计。自监督学习是无监督学习的一种变体,它通过解决一些辅助任务来训练模型,例如解决拼图问题来学习图片的良好特征表示。
有监督模型训练是一种利用带有标签的数据进行模型构建的过程,而无监督模型训练则是不需要标签,通过探索数据本身的结构进行模型学习的方式。
区分有监督和无监督学习的一个关键点是数据是否有标签。有监督学习使用标记过的数据,即每个样本都有对应的输出标签,而无监督学习只使用没有标签的数据。有监督学习通常用于解决分类和回归问题,而无监督学习则更多应用于数据的聚类和模式识别。如果想要预测目标变量的值就选择监督学习算法,如果不想预测目标变量的值,则使用聚类算法。
总的来说,有监督学习适用于明确知道输出应为何类的任务,而无监督学习更适合于探索性的任务,比如当我们需要从数据中自发地发现有趣的模式或结构时。
监督学习的用途 | |
K-近邻算法 | 线性回归 |
朴素贝叶斯算法 | 局部加权线性回归 |
支持向量机 | Ridge回归 |
决策树 | Lasso最小回归系数估计 |
无监督学习的用途 | |
K-均值 | 最大期望算法 |
DBSCAN | Parzen窗设计 |