监督学习:计算机从人输入的训练数据中学习,得到一个最优函数模型,将学习的结果应用到当前的数据中,对输出进行简单的判断,实现分类或预测未来的事件。
无监督学习:训练机器使用未分类和未标记的数据,机器需要自己学习。让计算机与大量未分类的、变化的数据进行接触,让机器从其中进行学习。无需事先提供任何有关的信息,机器可对数据进行分类。
分类:分类问题输出的是物体所属的类别,输出值是离散的、定性的,目的是为了寻找决策边界,即分类算法得到一个决策面,用于对数据集中的数据进行分类。
回归:回归问题输出的是物体的值,输出值是连续的、定量的,目的是为了找到最优拟合,通过回归算法得到一条最优拟合线,这个线条可以最好的接近数据集中的各个点。
聚类:算法接受一个未被标记的数据集合,然后将样本聚类分成不同的组。
降维:降低特征的维数,数据压缩,可以提高运算速度和减少存储空间;数据可视化,可以得到更直观的视图。
损失函数:这些函数本质上就是计算预测值和真实值的差距的一类型函数,每一个样本经过模型后会得到一个预测值,然后得到的预测值和真实值的差值就成为损失。
训练集:用于训练模型以及确定参数;
测试集:用于检验模型的泛化能力;
验证集:用于确定网络结构以及调整模型的超参数。
过拟合:学习时选择的模型所包含的参数过多,以至于机器出现对这一模型的已知数据预测的很好,但对未知数据预测得很差的现象。
欠拟合:模型描述能力太弱,以至于机器无法很好地学习到数据中的规律。
经验风险:经验风险是一种局部概念,仅仅表示决策函数对训练数据集里的样本的预测能力,是模型关于训练样本集的平均损失。
期望风险:期望风险是全局概念,它是对所有样本,即对已知的训练样本加未知样本的预测能力。