原始数据中存在着大量不完整、不一致、有异常的数据,须进行数据清洗。数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值。
http://baijiahao.baidu.com/s?id=1581755863609513980&wfr=spider&for=pc
一、线性分类器:
f=w^T+b / logistic regression
学习方法:精确代数计算 / 随机梯度下降
特点:
1、最基本、最常用,形式简单,易于建模;w直观表示了各属性重要性,输出概率,具有很好的可解释性;
2、抗噪声干扰能力强,可使用正则化防止过拟合;
3、受限于特征与目标的线性假设,必须线性可分;
4、容易欠拟合,分类精度可能较差。
二、支持向量机:(概念:支持向量,间隔,核函数,松弛变量)
根据样本的分布,搜索所有可能的线性分类器中最佳的一个(类别间隔最大)(只惩罚支持向量,不同线性分类考虑所有样本)
1、能够在海量甚至高位数据中,筛选对预测任务最有效的少数训