假设:蓝色的圆圈代表苹果,❌代表西瓜。
一.欠拟合
此处的分类较为欠缺,因为此函数曲线将很多"苹果"分类为”西瓜"
二.过拟合
此处的分类全部正确,但感觉分类的结果太过细致。而这是由于为分类所提供的特征过多导致。因此这种情况下虽然训练出的函数总是能很好的拟合训练数据,但它无法泛化到新的数据样本中,从而模型准确度在训练集上越来越好,但在测试集上却越来越差。
例如: 图书馆人机交互过程中,当用户所处的背景环境复杂、周围有噪音时,学习系统会启用更复杂的模型来覆盖噪音点,即产生数据过拟合。如此一来,也就无法描绘出更真实的数据趋势。最直接的解决方案,就是要减少特征维度, 降低参数值。
解决过拟合的方法:
一.减少变量的个数:可使用Dropout舍弃一些变量,从而保留更为重要的一些特征信息。但问题是,如果每个特征变量都对预测有影响,那么当舍弃一部分变量时也就同时舍弃了该变量代表的特征信息。因此,这并非好的解决方式。
二.正则化:虽然保留所有的变量,但将一些不重要特征的权值置为0或权值变小,从而使得特征的参数矩阵变得稀疏,使每一个变量都对预测产生一点影响。
三.合适的拟合
该处有两处分类错误,但由于现实世界有噪声,环境,气候等干扰,因此该错误可忽略不计,拟合较为合适。