数据挖掘整理

数据挖掘先导片

一、顶级会议或期刊
International Conference on Data Mining

International Conference on Data Engineering

International Conference on Machine Learning

International Joint Conference on Artificial Intelligence

Pacific-Asia Conference on Knowledge Discovery and Data Mining

ACM SIGKDD Conference on Knowledge Discovery and Data Mining
二、领域代表人物

  • Xingdong Wu
  • Zhihua Zhou
  • Jiawei Han
  • Jian Pei
  • Qiang Yang
  • Chih-Jen Lin
  • Philip S.Yu
  • Changshui Zhang

三、学习工具
Google、MATLAB、KD、UCI、WEKA

四、数据挖掘 Data Mining

(一)大数据
在数据科学,DRIP是 Data Rich Information Poor 的缩写
1.特征:Variety、 Velocity 、Volume。
2.应用:公共安全、医疗保健应用、位置数据(城市规划、移动用户、购物者)、零售数据(目标市场、情感分析)、社交网络、运动、Attractiveness Mining。
(二)数据挖掘的过程
define problem -> data collection -> data preparaton -> data modelling -> interpretation/evaluation -> implement/deploy model

ETL系统包含Extraction 、Transformation、 Loading

IBM公司的商用数据分析软件:SPSS

(三)DM技术
1. 分类 Classification
1.1算法
Decision Trees
K-Nearest Neighbours
Neural Networks
Support Vector Machines
1.2应用
客户流失预测(churn predicton)、医疗诊断(medical diagnosis)

2. 分类边界(Classification Boundaries)
分类器在训练样本上的学习误差并不是越低越好,(平滑曲线最好,扭曲的线效果不好(overfitting))
2.1 模型训练及搭建
搭建及训练模型流程
2.2混淆矩阵
在这里插入图片描述
TPR=TP/(TP+FN)
TNR=TN/(TN+FP)
Accuracy=(TP+TN)/(P+N)

2.3 在ROC(Receiver Operating Characteristic)分析中(基于混淆矩阵),分类器的性能曲线的理想状态是:约靠上越好(AUC趋近于1)。AUC指曲线与直线之间的面积
AUC指曲线与直线之间的面积
2.4 Lift Analysis
假设目标客户占人群的5%,现根据用户模型进行打分排序,取1000名潜在客户中排名前10%的客户,发现其中包含25名目标客户,问此模型在10%处的提升度是多少? 5
解:目标客户人数:50名;则在前10%中的占比为50%(25/50),提升度为50% / 10%。

3. 聚类(Clustering)

聚类与分类的主要区别在于:数据有无标签,聚类无标签
3.1 Distance Metrics :
Euclidean Distance
Manhattan Distance
Mahalanobis Distance
3.2算法:
K-Means
Sequential Leader
Affinity Propagation
3.3应用:市场研究、图像分割、社交网络分析

4. 线性回归(Regression)
4.1 线性回归是指参数与X 呈线性关系。
在这里插入图片描述
5. 数据预处理 Data Preprocessing
数据预处理就像是打地基一样,有了好的数据才会出好的结果。GIGO = Garbage In Garbage Out

(四)其他

  1. 云计算 Cloud Computing**
    Pay As You Go:
    Software as a Service SaaS
    Platform as a Service PaaS
    Infrastructure as a Service IaaS

  2. 幸存者偏差问题 Survivorship Bias
    2.1飞回来的中弹的飞机,钢板装在没有中弹的地方。幸存者偏差等价于盲人摸象。
    2.2 思考问题要从多方面思考。
    如以下问题,应从时间层面判断是呈正相关还是负相关
    在这里插入图片描述
    不同角度看问题,得到的结果不一样
    在这里插入图片描述

    以上内容从袁博老师(清华大学)讲义整理得出

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值