数据挖掘(2)

结构化数据:
通过二维表来实现存储

常用分析方法:分类,聚类,关联,数值预测,序列分析,社会网络分析
聚类(clustering):根据物以类聚的原理,将没有类别的对象,根据对象的特征,自动聚成不同簇的过程,使得同一个簇的对象之间非常相似,属于不同簇的对象之间不相似。
典型应用:客户群分类
聚类与分类的区别,聚类是将没有标签的数据处理
分类是先给类别特点,再做判断,而聚类是没有类别的情况下,根据对象特征自己聚类

关联:发现数据之间的联系规则
数值预测:用于连续变量的取值
异常点挖掘(孤立点分析):

数据挖掘分为描述性和预测

集成开发环境 spyder 交互式开发环境jupyter
数据挖掘python常用工具包:numpy pandas matplotlib statsmodels scipy scikit-learn
numpy:全称为numerical python,数据分析方面主要目的数据在算法传递间的主要容器
statemodel :python的统计建模和计量经济学工具包,主要功能:
在这里插入图片描述
scipy是基于numpy构建在科学计算中处理多个不同标准问题域的包的集合
在这里插入图片描述
scikit-learn是python的一个开源机器学习模块,它建立在numpy,scipy和matplotlib模块之上,实现了大量的机器学习算法。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值