数据挖掘先导片
一、顶级会议或期刊
International Conference on Data Mining
International Conference on Data Engineering
International Conference on Machine Learning
International Joint Conference on Artificial Intelligence
Pacific-Asia Conference on Knowledge Discovery and Data Mining
ACM SIGKDD Conference on Knowledge Discovery and Data Mining
二、领域代表人物
- Xingdong Wu
- Zhihua Zhou
- Jiawei Han
- Jian Pei
- Qiang Yang
- Chih-Jen Lin
- Philip S.Yu
- Changshui Zhang
三、学习工具
Google、MATLAB、KD、UCI、WEKA
四、数据挖掘 Data Mining
(一)大数据
在数据科学,DRIP是 Data Rich Information Poor 的缩写
1.特征:Variety、 Velocity 、Volume。
2.应用:公共安全、医疗保健应用、位置数据(城市规划、移动用户、购物者)、零售数据(目标市场、情感分析)、社交网络、运动、Attractiveness Mining。
(二)数据挖掘的过程
define problem -> data collection -> data preparaton -> data modelling -> interpretation/evaluation -> implement/deploy model
ETL系统包含Extraction 、Transformation、 Loading
IBM公司的商用数据分析软件:SPSS
(三)DM技术
1. 分类 Classification
1.1算法
Decision Trees
K-Nearest Neighbours
Neural Networks
Support Vector Machines
1.2应用
客户流失预测(churn predicton)、医疗诊断(medical diagnosis)
2. 分类边界(Classification Boundaries)
分类器在训练样本上的学习误差并不是越低越好,(平滑曲线最好,扭曲的线效果不好(overfitting))
2.1 模型训练及搭建
2.2混淆矩阵
TPR=TP/(TP+FN)
TNR=TN/(TN+FP)
Accuracy=(TP+TN)/(P+N)
2.3 在ROC(Receiver Operating Characteristic)分析中(基于混淆矩阵),分类器的性能曲线的理想状态是:约靠上越好(AUC趋近于1)。AUC指曲线与直线之间的面积
2.4 Lift Analysis
假设目标客户占人群的5%,现根据用户模型进行打分排序,取1000名潜在客户中排名前10%的客户,发现其中包含25名目标客户,问此模型在10%处的提升度是多少? 5
解:目标客户人数:50名;则在前10%中的占比为50%(25/50),提升度为50% / 10%。
3. 聚类(Clustering)
聚类与分类的主要区别在于:数据有无标签,聚类无标签
3.1 Distance Metrics :
Euclidean Distance
Manhattan Distance
Mahalanobis Distance
3.2算法:
K-Means
Sequential Leader
Affinity Propagation
3.3应用:市场研究、图像分割、社交网络分析
4. 线性回归(Regression)
4.1 线性回归是指参数与X 呈线性关系。
5. 数据预处理 Data Preprocessing
数据预处理就像是打地基一样,有了好的数据才会出好的结果。GIGO = Garbage In Garbage Out
(四)其他
-
云计算 Cloud Computing**
Pay As You Go:
Software as a Service SaaS
Platform as a Service PaaS
Infrastructure as a Service IaaS -
幸存者偏差问题 Survivorship Bias
2.1飞回来的中弹的飞机,钢板装在没有中弹的地方。幸存者偏差等价于盲人摸象。
2.2 思考问题要从多方面思考。
如以下问题,应从时间层面判断是呈正相关还是负相关
不同角度看问题,得到的结果不一样
以上内容从袁博老师(清华大学)讲义整理得出