分类问题(Supervised)
- 分类:在二维坐标内使用一定的直线或者曲线对每个实例进行分类
- 训练集、测试集
- 混淆矩阵:可用于计算模型的准确率
4. 根据身高定性别的例子:
身高大于1m为男人:所有男人都是TP,所有女人都是FP
身高小于2.5m都为女人:所有男人都是FP,所有女人都是TP
聚类问题(Unsupervised)
- 聚类:距离近的为一类
层次型聚类(左图)
- 关联规则:“啤酒和尿布”例子
- 回归:线性回归指的是参数和变量之间拟合出来的关系是线性的,但最终图像拟合出来的不一定非是一根直线,最后的结果表达也不一定是线性的
例子:最终中间拟合的结果是最好的,最右一张图太过于死记硬背了
- 数据可视化:通过图表等可视化数据
- 数据预处理:最有挑战的部分。清洗、整合、转换和过滤
隐私保护和并行运算
- 数据采集时的隐私保护:人群吸大麻比例案例
- 云计算:电商平台服务器访问案例。即按需收费,将服务器资源等当作水电等来租买。SaaS,PaaS,IaaS。
- 并行计算:将问题切分交给不同服务器同时处理最后整合结果。桌面可使用GPU、处理器等进行大型数据计算。(数据挖掘=数据+算法+计算平台)
- 最好的算法?五,需要不断尝试
迷雾重重–预测股票
- 数据挖掘:挖掘规律而非创建规律,其对随机产生的数据无意义
- 数据的内在分组,即有时不能宏观看问题,要分组看问题
- 数据集间的相关关系:美国犯罪率和其暴力游戏的火热度案例;身高和领导者的关系;轰炸机装甲以防中弹(统计学家能看到的中弹飞机都是能够飞回来的);
- 数据集的时间维度的重要性
数据清洗
- 数据不完全、数据噪音(不切实际),数据形式不一致,数据冗余,数据类型不同,数据集不平衡
- 数据缺失:删除、填充(推测或根据分组统一填写)
- 离群点
- 异常点:注意和离群点的区别
离群点、异常点和重复值检测
- 离群点检测:距离检测
- 重复值检测
使用滑动窗口进行检测:部分与部分间检测
类型转换与采样
- 类型转化:错误的数据;数据需标准化;类型转换;数据正常化;样本数据
- 数据类型:连续型;离散型; 序数;名词;字符串
- 编码问题