step by step.
目录
要看具体章节复习汇总请见👇
自己辛苦总结的,点个赞鼓励一下啦~
1. Apriori算法
(1)优点
迭代算法。
数据采用水平组织方式。(即,👉{ 啤酒,奶粉,酸奶} 👈横向)
采用Apriori优化方法(废话)。
适合事务数据库的关联规则挖掘。
适合稀疏数据集。(即,频繁项目集长度稍小的数据集)
(2)缺点
多次扫描数据库,产生很大I/O负载。
可能产生庞大的候选集。
在频繁项目集长度变大的情况下,运算时间显著增加。
2.1 决策树算法(ID3)
(1)优点
算法理论清晰。
方法简单。
学习能力较强。
(2)缺点
信息增益的计算依赖于特征数目较多的特征,但属性取值最多的属性不一定最优。
非递增。
单变量决策树(分支节点上只考虑单个属性)。
抗噪性差。
2.2 ID3与C4.5的比较
C4.5采用增益比例,而不是信息增益。
3. 贝叶斯算法
(1)优点
逻辑简单。
易于实现。
时间/空间开销较小。
算法稳定。
具有较好的健壮性。
(2)缺点
属性间类条件独立的设定不成立。
4. BP人工神经网络算法
(1)优点
非线性映射能力。
自学习和自适应能力。
泛化能力。
容错能力。
(2)缺点
局部极小化问题。
BP神经网络算法收敛速度慢。
结构选择不一。
应用实例与网络规模的矛盾问题。
预测能力与训练能力的矛盾问题。
样本依赖性问题。
5. 支持向量机
(1)优点
非线性映射的理论基础。
最大化分类边际的方法核心,最优超平面的目标。
支持向量的决定作用。
最终决策函数只由少数支持向量确定。帮助抓住关键样本。
(2)缺点
难以实施大规模训练样本。
难以解决多分类问题。
6. K-means聚类算法
(1)优点
简单快速。
对处理大数据集具有高效。算法经常以局部最优结束。
算法尝试找出使平方误差函数值最小的K个划分。
(2)缺点
只有在簇平均值被定义的情况下才可以使用。
要求用户给出K值。
初始值不同时,聚类结果可能不同。
对于噪声敏感,少量的该类数据能对平均值产生较大影响。👉K-中心点!解决!
7. K-中心点算法
(1)优点
对噪声点不敏感。
结果与输入顺序无关。
(2)缺点
高耗时性。👈迭代+最近邻搜索👉大量重复计算