支持向量机(SVM)和决策树(Decision Tree)简介

cyzhou1221

已于 2024-09-10 20:09:44 修改

阅读量7.5k

点赞数 7

分类专栏：数学园地文章标签：机器学习

于 2019-12-09 09:41:57 首次发布

本文链接：https://blog.csdn.net/zhouchangyu1221/article/details/103446234

版权

数学园地专栏收录该内容

29 篇文章 55 订阅

订阅专栏

本文介绍了支持向量机（SVM）的基本思想，包括线性可分和近似线性可分的情况，并转换为优化问题。接着，概述了决策树（Decision Tree）的主要思想，讨论了信息熵、信息增益等概念，以及ID3、C4.5和CART等决策树算法。

摘要由CSDN通过智能技术生成

小目录

一、支持向量机(SVM)

主要思想：找一个超平面，使其尽可能多地将两类数据点分开，还要使得分开的数据点距分类面尽可能地远.

1. 线性可分的支持向量机

设有一组观测样本： $\small D=\lbrace (x_i,y_i)|\,i=1,2,\cdots,n,x_i\in X\subseteq R^m,y_i\in \lbrace1,-1\rbrace \rbrace$ . 根据标签 $y_i$ 将其分为两类： $\small D_1=\lbrace(x_i,y_i) |\,y_i=1\rbrace,D_2=\lbrace(x_i,y_i) |\, y_i=-1\rbrace.$
已知 $\small D_1,D_2$ 线性可分，即存在一个超平面能够将两类点完全分隔开. 然后寻找这样的一个超平面 $w^Tx+b=0$ (其中 $w$ 表示超平面的法向量)，不仅能够满足分隔条件，而且能够使分开的数据点距超平面尽可能地远. 该问题可以表示为优化问题，数学描述如下： $\begin{aligned}&max\;\rho\\ &s.t. \begin{cases} w^Tx_i+b\geq l, & x_i \in D_1\\ w^Tx_i+b\leq -l, & x_i \in D_2 \end{cases}\end{aligned}$ 其中 $w^Tx_i+b= l,w^Tx_i+b= -l(l>0)$ 分别经过 $\small D_1,D_2$ 的边界点， $\rho$ 表示两个超平面之间的距离，可以由 $l, w$ 表示，推导过程如下：

设 $x_1,x_2$ 分别为 $\small D_1,D_2$ 的边界点，则由 $w^Tx_i+b= l,w^Tx_i+b= -l$ 分别经过 $\small D_1,D_2$ 的边界点可知， $w^Tx_1+b= l,w^Tx_2+b= -l$ ，于是两个超平面之间的距离可以表示为 $\rho=\frac{|(x_1-x_2)\cdot w|}{||w||}$ $(x_1-x_2)\cdot w=w^Tx_1-w^Tx_2=l-b-(-l-b)=2l$ ，则 $\rho=2l/||w||,l=\rho||w||/2.$
约束条件 $\begin{cases} w^Tx_i+b\geq l, & x_i \in D_1\\ w^Tx_i+b\leq -l, & x_i \in D_2 \end{cases}$ 可以简化为 $y_i(w^Tx_i+b)\geq l$ ，两边同除 $l$ ，将 $l=\rho||w||/2$ 代入上式，得 $y_i(\frac{2w^T}{\rho||w||}x_i+\frac{2b}{\rho||w||})\geq1$ 换元，令 $w'=\frac{2w}{\rho||w||},b'=\frac{2b}{\rho||w||}$ 代入原式，得 $y_i(w'^Tx_i+b')\geq 1$ .
同时 $||w'||=2/\rho$ ，最优化目标 $max\;\rho=max\;2/||w'||$ 等价于 $min\;||w'||^2/2$ .
原问题转化为： $\begin{aligned}&min\; \frac{1}{2}||w'||^2\\ &s.t. \;y_i(w'^Tx_i+b')\geq 1\end{aligned}$

2. 近似线性可分的支持向量机

即找不到一个超平面将两类数据点分隔开，但去除边界上与其他类混杂的一小部分点后能够线性可分.
对于这种情况，只需对约束条件 $y_i(w'^Tx_i+b')\geq 1$ 稍加调整. 具体做法：引入松弛变量 $\xi_i\geq0,i=1,2,\cdots,n$ ，使得 $y_i(w'^Tx_i+b')\geq 1-\xi_i$ ，原问题转化为： $\begin{aligned}&min\; \frac{1}{2}||w'||^2+C\sum_{i=1}^n\xi_i\\ &s.t. \;\begin{cases} y_i(w'^Tx_i+b')\geq 1-\xi_i, & i=1,2,\cdots,n\\ \xi_i\geq0, &i=1,2,\cdots,n \end{cases}\end{aligned}$ 其中 $\small C>0$ ，称为惩罚因子.

二、决策树(Decision Tree)

主要思想：从一个无规则的样本集中推导出一个分类规则，其可以以树的形式表示，也称决策树，内部节点表示特征或分类指标，一个叶子节点表示一类.

先来谈谈信息论的一些知识，伟大的祖师爷——香农给出了信息的数学描述，利用信息量衡量事件不确定性的大小，事件发生概率越小，信息量越大. 将信息量表示成自变量为概率的函数，这个函数需要满足以下三条性质：
(1) 非负性，即信息量总是大于等于零的；
(2) 随概率的增大而减小；
(3) $f(p_1p_2)=f(p_1)+f(p_2)$ .
易知对数函数 $f(p)=log_a p\;(0<a<1)$ ( $\,p$ 为事件发生的概率)满足这些性质，并称其为事件的信息量，一般取 $a = 1/2$ .

再来看两个更高级的定义：
信息熵：信息量的期望. 假设事件 $\small D$ 有 $\small N$ 中可能的结果，每种结果的发生概率为 $\small P_k$ ，定义事件 $\small D$ 的信息熵为： $Ent(D)=\sum_{k=1}^NP_k(-log_2P_k).$ 得知新特征的信息后，信息熵的减少量 $g (D, A) = H (D) - H (D ∣ A)$ 称为信息增益，具体计算方法：
假设样本集 $\small D$ 可以分为 $\small K$ 类， $\small C_i$ 表示第 $i$ 类， $\small i=1,2,\cdots,K,\, \sum_{i=1}^K|C_i|=|D|$ ， $\small D$ 的信息熵为 $H(D)=\sum_{i=1}^K\frac{|C_i|}{|D|}(-log_2{\frac{|C_i|}{|D|}}).$ 特征 $\small A$ 将 $\small D$ 划分为 $n$ 个子集 $\small D_i,i=1,2,\cdots,n$ ，定义 $H(D|A)\triangleq\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i),$ 可以理解为子集信息熵的期望.
好的分类特征 $\small A$ 应该使 $\small H(D|A)$ 尽可能地小，即信息增益 $\small g(D,A)$ 尽可能地大. 至于为啥？
好的分类特征意味着对结果更精确的预测. 而预测得越准确，预测结果发生的概率也就越大. 大的概率意味着小的信息量，小的信息量会带来小的信息熵，进而使 $\small H(D|A)$ 尽可能地小.
决策树的生成过程就是，先选择信息增益最大的特征进行分类. 然后对每个小类进行相同的操作，递归下去，就可以得到一棵分类树，也称决策树.
终止条件可以这样设置：当前节点的信息熵小于给定的阈值时，就停止递归，取占比最大的类作为当前叶子节点的类别.