支持向量机概述
支持向量机(support vector machinc,SVM)是在高维特征空间使用线性函数假设空间的学习系统,在分类方面具有良好的性能。在自然语言处理中,SVM广泛应用于短语识别、词义消歧、文本自动分类和信息过滤等方面。
线性分类
二分类问题通常用实数函数 f : X ⊆ R n → R f : X \subseteq \R^{n} \rightarrow \R f:X⊆Rn→R( n n n为输入维数)判别:当 f ( x ) ≥ 0 f(\mathbf{x}) \geq 0 f(x)≥0时,将输入 x = ( x 1 , x 2 , … , x n ) T \mathbf{x} = (x_{1}, x_{2}, \dots, x_{n})^{\text{T}} x=(x1,x2,…,xn)T判为正类;否则,为负类。当 f ( x ) f(\mathbf{x}) f(x)( x ∈ X \mathbf{x} \in X x∈X)是线性函数时, f ( x ) f(\mathbf{x}) f(x)可写成如下形式:
f ( x ) = ⟨ w , x ⟩ + b = ∑ i = 1 n w i x i + b (1) f(\mathbf{x}) = \langle \mathbf{w}, \mathbf{x} \rangle + b = \sum_{i = 1}^{n} w_{i} x_{i} + b \tag {1} f(x)=⟨w,x⟩+b=i=1∑nwixi+b(1)
其中, ( w , b ) ∈ R n × R (\mathbf{w}, b) \in \R^{n} \times \R (w,b)∈Rn×R是控制函数的参数,决策规则由符号函数 sgn ( f ( x ) ) \text{sgn}(f(\mathbf{x})) sgn(f(x))给出,通常 sgn ( 0 ) = 1 \text{sgn}(0) = 1 sgn(0)=