1 绪论
整个记录集也可以称为一个样本,包含很多条记录。
如果想要预测的结果是离散的,比如好瓜坏瓜,此类学习日任务称为分类;如果预测的是连续值,比如成熟度为0.21 0.22,则称为回归。
根据训练数据是否拥有标记,可以分为 监督学习和无监督学习。
对学习算法a,如果他在某些地方优秀于方法b,那么必然存在一些问题,在那里,学习方法b要优于a
无论学习方法a多聪明,学习算法b多笨拙,他们的期望性是一样的
2 模型估计与选择
学习器在训练集的误差称为 训练误差 或者经验误差。
在新样本的误差称为泛化误差。
当学习器把训练样本学的“太好”的时候,可能把训练样本自身的一些特点当成了所有潜在样本都会具有的一般性质,这会导致泛化性能下降吗,这就是 过拟合。最常见的情况是由于学习能力过于强大导致的过拟合,
相对的是欠拟合,对训练样本的一般性质尚未学好。
欠拟合比较容易去客服,但是过拟合只能缓解,或者说减小其风险
NP-hard,其中,NP是指非确定性多项式(non-deterministic polynomial,缩写NP)。所谓的非确定性是指,可用一定数量的运算去解决多项式时间内可解决的问题。
对数据集进行处理,从中产生出训练集和测试集
如果引入一个或一些另外的变量来描述自变量与因变量的变化,引入的变量本来并不是当前问题必须研究的变量,这样的变量叫做参变量或参数。
偏差 度量了期望与真实结果的偏离程度 刻画了学习算法本身的学习能力
随训练程度,不断变小
方差 概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
度量了同样大小的训练集的变动所导致的学习性能的变化
刻画了数据扰动所造成的影响
主要度量 数据离散程度
噪声 表达了当前任务上,任何学习算法所能达到的,期望泛化误差的下界
即,刻画了学习问题本身的难度