机器学习笔记
1、朴素贝叶斯分类
条件概率:在事件B发生的情况下,事件A发生的概率,用P(A|B)表示。
贝叶斯公式:
|
2、SVM(基于向量机的分类算法)
原理是寻找一个超平面(画一条分隔线,决策边界),优先保证分类正确,再考虑最大化间隔。
对于复杂的非线性数据,SVM提供核函数,来解决对非线性数据集进行分类。把低维空间映射到高维空间。提供的核函数有:
l Linear 线性K(v1,v2)=<v1,v2>K(v1,v2)=<v1,v2>
l Proy 多项式K(v1,v2)=(γ<v1,v2>+c)nK(v1,v2)=(γ<v1,v2>+c)n
l Radial basis function:K(v1,v2)=exp(−γ||v1−v2||2)K(v1,v2)=exp(−γ||v1−v2||2)
l Sigmod:K(v1,v2)=tanh(γ<v1,v2>+c)
SVM优缺点:
l 对具有明显的分隔边界的复杂数据表现良好。
l 海量数据表现不太好,训练时间与数据量的三次方成正比。
l 数据集噪声过大的情况,效果也不好。类之间的重叠较多,需要将不同类分开,此时用朴素贝叶斯分类会更有效。
3、机器学习的步骤
Gathering Data – Data Preparation –Choosing a Model – Training – Evaluation – Parameter Tuning -- Prediction