分类的概念很简单,就是给出一个样本x,判断样本所属的类别y,分类器就是映射函数f: y=f(x)。当然,这个函数是需要根据以往的经验(大量已知类别的样本集)来构造的。这个构造的过程,称为训练,而如何构造,就是分类算法了。
数据挖掘中分类算法有很多,它们通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。分类算法应用非常广泛,银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测等等。主要包括以下几种分类模型:
相似度模型:K-近邻,Rocchio
概率模型:贝叶斯
线性模型:SVM
非线性模型:神经网络,决策树