数据挖掘--B站清华课堂

ppt资料

分类问题(Supervised)
  1. 分类:在二维坐标内使用一定的直线或者曲线对每个实例进行分类
  2. 训练集、测试集
  3. 混淆矩阵:可用于计算模型的准确率
    在这里插入图片描述4. 根据身高定性别的例子:
    身高大于1m为男人:所有男人都是TP,所有女人都是FP
    身高小于2.5m都为女人:所有男人都是FP,所有女人都是TP
    在这里插入图片描述
聚类问题(Unsupervised)
  1. 聚类:距离近的为一类
    在这里插入图片描述
    层次型聚类(左图)
    在这里插入图片描述
  2. 关联规则:“啤酒和尿布”例子
  3. 回归:线性回归指的是参数和变量之间拟合出来的关系是线性的,但最终图像拟合出来的不一定非是一根直线,最后的结果表达也不一定是线性的
    在这里插入图片描述
    例子:最终中间拟合的结果是最好的,最右一张图太过于死记硬背了
    在这里插入图片描述
  4. 数据可视化:通过图表等可视化数据
  5. 数据预处理:最有挑战的部分。清洗、整合、转换和过滤
    在这里插入图片描述
隐私保护和并行运算
  1. 数据采集时的隐私保护:人群吸大麻比例案例
    在这里插入图片描述
  2. 云计算:电商平台服务器访问案例。即按需收费,将服务器资源等当作水电等来租买。SaaS,PaaS,IaaS。
  3. 并行计算:将问题切分交给不同服务器同时处理最后整合结果。桌面可使用GPU、处理器等进行大型数据计算。(数据挖掘=数据+算法+计算平台)
  4. 最好的算法?五,需要不断尝试
迷雾重重–预测股票
  1. 数据挖掘:挖掘规律而非创建规律,其对随机产生的数据无意义
  2. 数据的内在分组,即有时不能宏观看问题,要分组看问题
    在这里插入图片描述
  3. 数据集间的相关关系:美国犯罪率和其暴力游戏的火热度案例;身高和领导者的关系;轰炸机装甲以防中弹(统计学家能看到的中弹飞机都是能够飞回来的);
  4. 数据集的时间维度的重要性
数据清洗
  1. 数据不完全、数据噪音(不切实际),数据形式不一致,数据冗余,数据类型不同,数据集不平衡
  2. 数据缺失:删除、填充(推测或根据分组统一填写)
  3. 离群点
  4. 异常点:注意和离群点的区别
离群点、异常点和重复值检测
  1. 离群点检测:距离检测
    在这里插入图片描述
  2. 重复值检测
    使用滑动窗口进行检测:部分与部分间检测
    在这里插入图片描述
类型转换与采样
  1. 类型转化:错误的数据;数据需标准化;类型转换;数据正常化;样本数据
  2. 数据类型:连续型;离散型; 序数;名词;字符串
  3. 编码问题
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值