一、前言
对于理解机器学习或者深度学习的人来说,需要了解基本的学习框架是什么?无论是聚类、回归,对于参数的求解以及参数的正则化(防止过拟合的措施)来源于什么原理或者基于什么?,这是需要我们理解的。一般而言从误差出发,有式子:
Loss_function=Est_error+Regularization of parameters
下面我们来说说估计误差中的损失函数以及模型优化的手段。
二、常见的损失函数以及应用
三、train_data、validation_data、test_data之间的联系与区别
对应某个问题,我们获得样本集合data={(x(i),y(i)),i=1…n},备选的模型有很多,分类问题就可以使用决策树、LR、RF、gbdt等,先假设有备选模型的集合为{M1,M2…Mk}.现在问题是选择哪个模型?该模型对应的参数是多少?模型效果怎样?
一般地,data分为两个部分(7:3),一部分作为模型的训练,通常叫做train_data;另外一部分作为模型的测试,通常叫做 test_data。
但是对于多个模型比较或者某个模型它本身具有超参数,此时就需要validation_