数据挖掘-数据挖掘综述-基础知识和概念总结
目录
1.数据挖掘的发展历史
1.1 20世纪60年代及更早
数据挖掘还处于数据收集和数据库创建阶段,此时还只能处理一些非常原始的数据文件。
1.2 20世纪70年代到80年代初期
出现了数据库管理系统,诞生了层次,网状数据库系统,关系数据库系统,可以利用一些工具进行数据的查询和控制。
这个时期的经典算法:
1)广义线性模型:研究响应值的非正态分布以及非线性模型的线性转化。
2)EM算法:从非完全数据集中对参数进行MLE估计。
1.3 20世纪80年代
在高级数据库系统的基础上,出现了数据仓库与OLAP。其中1989 年在美国底特律召开的第 11 届国际人工智能联合会议的专题讨论会上,KDD被提出。KDD的出现标志着数据挖掘变成了计算机的一个十分重要的研究领域。
这个时期的经典算法:
1)支持向量机SVM算法:主要应用于小样本,非线性及高维模式识别,函数拟合。
2)神经网络:机器学习的初步尝试。
3)Bootstrap:在已知数据的基础上,模拟N无穷大时的情况,通过重抽样的方法扩充数据量。
4)ID3算法:经典的分类算法。
1.4 20实际90年代
OLAP与数据仓库技术的突飞猛进使得多次的数据回溯和动态处理变得简单,人们可以用数据来获取知识,数据挖掘进入了数据仓库决策与支持阶段。
这个时期的经典算法:
1)序列模式挖掘: the GSP algorithm
2)项集挖掘:the Apriori algorithm, the AprioriTID algorithm, the FP-Growth algorithm
3)关联规则挖掘: an algorithm for mining all association rules in a transaction database
4)时间序列挖掘 :an algorithm for converting a time series to a sequence of symbols using the SAX representation of time series.
1.5 20世纪90年代到现在
出现了WEB数据库,随着技术的发展,大数据及分布式更是得到了极大的推广。一些机器学习,深度学习中的复杂算法越来越多的被应用到了数据挖掘中。
这个时期的经典算法类型:
1)Graph Mining
2)High-Utility Pattern Mining
3)Text mining
4)Stream mining
5)Episode Mining
6)Periodic Pattern Mining
2.数据挖掘专业术语列表
序号 |
中文 |
英文 |
1 |
数据挖掘 |
Data mining |
2 |
大数据 |
Big data |
3 |
项集挖掘 |
Itemset mining |
4 |
序列模式挖掘 |
Sequential Pattern Mining |
5 |
时间序列 |
Time series |
6 |
深度学习 |
Deep learning |
7 |
智能运维 |
AIOPs |
8 |
自动化运维 |
Devops |