1.监督学习:是一个机器学习中的方法,可以由训练资料中学到或建立一个模式,并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
无监督学习:根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。
2.分类:预测离散值并输出
回归:预测连续的数值输出
3.聚类:无监督学习的分类,按照某种特定标注将数据划分为有意义的组,使得组内数据对象的相似性尽可能大
降维:将向量投影到低维空间,以达到某种目的的可视化或是分类
4.损失函数:估量模型的拟合性,损失函数越小,则拟合效果越好
5.训练集:用于机器学习训练模型的数据集
测试集:用于测试机器学习训练结果正确性的数据集
验证集:用于验证机器学习训练结果泛化能力的数据集,为训练集与测试集以外的新数据
6.过拟合:是指在训练集上的误差较小,但在测试集上的误差较大。
欠拟合:指在训练集上的误差较大。
7.经验风险:模型对于训练集的预测能力,对训练数据的误差
期望风险:表示模型对训练数据以外数据的预测能力,对训练数据外的误差