归纳是从具体事实归结出一般性规律,演绎是从基础原理推演出具体状况。
所以机器学习的过程就是一个先根据样例归纳出一般规律,然后通过归纳出的一般规律判断新的样例是哪种情况的过程。
机器学习的过程可以抽象为下图:
其中性能度量参数和代价函数是不一样的。
代价函数是为了从假设空间中选出最好的那个假设,而性能度量参数是为了对比,不同模型提供的不同假设中,哪个假设更好。
不同的方法,代价函数是不一样的,如SVM的代价函数是为了找到最优的w和b,因此是一个w和b的式子;决策树则是为了找到每个节点合适的划分属性是什么,因此代价函数是节点进行样本划分前后“纯度”指标的变化。同一个方法共享同一个代价函数,从而找到在这个方法定义的假设空间中最优的那个。
性能度量参数是为了跨不同方法进行性能度量,每一类任务都有其特定的属性度量,如分类任务常用F1,Precision、Recall;回归任务常用均方误差;聚类任务常用Jaccard系数、FM指数、DB指数、Dunn指数等。通过性能指标度量可以知道不同方法下的不同“最佳模型”,哪个性能更好。