1、度量模型性能的指标
对于回归模型和分类模型,度量模型性能的指标有所不同:
- 对于回归模型而言,重点是看它预测值与实际值的差距大小,因此可用方差、偏差、残差这种指标来衡量;
- 对于分类模型,重点是看他预测的分类与实际的分类的符合度,所以采用混淆矩阵里面的精确率,准确率,召回率等指标,以此来衡量分类的准确度
2、常用的分类模型
- 逻辑回归模型:虽然名字带回归,但却是分类模型,实质是在线性回归的基础上,引入logic函数,以此来讲所有实数转换为[0:1]直接的概率问题。
- 基于概率的分类模型
1)线性判别分析;可以从基于贝叶斯公式和降维分类的思想,在这里我更喜欢降维分类的思想(其实是贝叶斯有点看不懂),降维分类思想是将多维数据降至一维,然后损失函数运用组内方差最小,组间方差最大的思想进行计算,进而按照损失函数最小的情况进行分类(这里跟自然间断分割的思维比较像)
2)朴素贝叶斯:相比较线性判别分析模型,是一种简化的模型,假设矩阵向量之间的协方差为0(即各方差完全不相关),这样做会导致模型方差变小,偏差变大(简单模型的特点,有点欠拟合的意思)。
a)决策树,较回归树引入新分类指标:分类错误率(构建决策树不够敏感,一般不用)、基尼系数(CART采用此系数,基尼系数可以被视为节点纯度的指标,若取值很小,则意味着所有的观测值几乎来自同一分类)和交叉熵(和基尼系数有点像)
b)支持向量机SVM,找出最大间隔超平面
c)非线性支持向量机,模型的初始想法是通过升高维度,来是线性不可分的数据转为线性可分,但是升维的过程会导致计算量骤增,所以引入核函数的概念,常用的核函数包括多项式核函数、高斯核函数、sigmoid核函数、余弦相似度核。