机器学习的过程是高度迭代的过程。我们往往需要定期对模型进行修改以提升模型性能。然而一次错误的决策可能使我们白白浪费几周甚至几个月的时间。因此机器学习策略很关键。
机器学习的一般性步骤如下:
1.在训练集上获得良好表现
2.跟据dev验证集选择模型,并获得良好表现
3.确定模型后在test测试集上获取良好表现
4.在实际应用中获得良好表现。
正交化
正交化是指我们对模型的某一处修改,只应该影响模型单一维度的性能,而不能对其他维度产生较大的副作用。例如,如果我采用early stoppping的方式对模型进行修改,既会影响测试集的准确率(偏差),又会影响验证集准确率(方差表现为二者差值)。这就会给模型的训练带来很大的难度。
常见的正交化策略如下:
1.训练集:增大神经网络规模(层数、节点数),采用更优秀的优化算法(Adam等)
2.验证集;正则化、采用更大的训练集
3.测试集:采用更大的验证集
4.实际表现:更换验证集测试集(验证集分布与实际不符)、更改代价函数的评估方式。
单一数字评估指标
在对不同模型进行评估时,如果我们参考的指标过多(查准率、查全率),就会使我们难以比较各个模型的优劣(很难出现全面碾压的情况)。当模型数目增多时,选择会更加困难。因此采用单一数字评估指标,有利于我们快速决策。
常见的单一数字评估指标:
平均值、F1指数(查准率和查全率的调和平均值)。。。