基本问题的经典算法
分类:svm、最大熵、adaboost、分类回归树、随机森林
回归:分类回归树、随机森林、GBDT
排序:GBRank
聚类:K-Means
结构标注:隐马尔可夫模型、条件随机场。
机器学习=表示(算法、特征的表示)+评价(loss+cost评价算法好坏的函数)+优化(寻找使评价函数得分最高的搜索方法比如梯度下降、牛顿法)
如何权衡训练误差和预测误差(拟合能力和泛化能力,bias-variance,损失函数和推广能力、经验风险和结构风险)
a. 正则化。正则化是结构风险最小化策略的实现,与模型复杂度相关,减少参数的候选空间,让模型更加简洁。
b. 交叉验证。交叉验证的思想是将训练集随即划分成若干个块,每个块称为训练集和验证集,训练集用于训练模型,验证集用于评估训练模型的好坏,在每个块上找到风险最小化函数,然后综合把结果综合起来考虑。
为何梯度下降时需要输入特征归一化?
优化过程中,不同尺度下的参数会使梯度步长更新不一致,造成收敛速度慢;不同尺度的参数也会给计算精度产生影响;模型的正则化效果会由于尺度问题造成偏差。