欢迎关注,敬请点赞!
天下没有白吃的午餐——机器学习算法选择
机器学习算法两个重要的概念
- 天下没有白吃的午餐NFL(No Free Lunch):没有一个学习算法可以在任何领域总是产生最准确的学习器。
- 概率近似正确PAC(Probably Approximately Correct):当训练样本足够大时,“训练准确率”与“预测准确率”的差值,超出容忍误差范围的概率非常小。当模型在训练样本表现很好时,就可以十分有把握地认为它在“预测未来”时,表现一样好。
上述算法没有优劣之分,都仅适合特定的场景(选择时Try & Test)。对于机器学习、人工智能以及大数据行业来说,不要过于迷信!
- 封闭可控的场景
- 辅助增强而不是替代人
- 巧妙利用数据而不是等待大数据
- 容错机制而不过于依赖算法
回归
- 随机梯度下降SGD(Stochastic Gradient Decent),当数据量特别大时,加快计算速度
- Lasso回归(L1范数),会将不重要特征前的系数变为0,即忽略不重要特征。用于稀疏特征,和PCA降维作用差不多(原理不同)。
正 则 化 时 , 采 用 绝 对 值 : l o s s ( f ) + λ ∣ w ∣ 正则化时,采用绝对值:loss(f) + \lambda |w| 正则化时,采用绝