在机器学习领域,总是看到“算法的鲁棒性”这类字眼,比如这句--L1范数比L2范数鲁棒。
“鲁棒”的英文是robustness,其是一个特别大的研究领域。最权威的著作当属稳健统计的2本厚书 文献[1]和[2],有志之士可作研究。
本人的硕士论文对算法鲁棒性有所涉及,并偏向聚类算法的鲁棒性,但也只是学到了一点皮毛,考虑到网上的相关博文极少,故在此记录一番。
1. Huber从稳健统计的角度系统地给出了鲁棒性3个层面的概念:
一是模型具有较高的精度或有效性,这也是对于机器学习中所有学习模型的基本要求;
二是对于模型假设出现的较小偏差,只能对算法性能产生较小的影响;
主要是:噪声(noise)
三是对于模型假设出现的较大偏差,不可对算法性能产生“灾难性”的影响。
主要是:离群点(outlier)
2. 聚类算法的鲁棒性: