结构化数据:
通过二维表来实现存储
常用分析方法:分类,聚类,关联,数值预测,序列分析,社会网络分析
聚类(clustering):根据物以类聚的原理,将没有类别的对象,根据对象的特征,自动聚成不同簇的过程,使得同一个簇的对象之间非常相似,属于不同簇的对象之间不相似。
典型应用:客户群分类
聚类与分类的区别,聚类是将没有标签的数据处理
分类是先给类别特点,再做判断,而聚类是没有类别的情况下,根据对象特征自己聚类
关联:发现数据之间的联系规则
数值预测:用于连续变量的取值
异常点挖掘(孤立点分析):
数据挖掘分为描述性和预测
集成开发环境 spyder 交互式开发环境jupyter
数据挖掘python常用工具包:numpy pandas matplotlib statsmodels scipy scikit-learn
numpy:全称为numerical python,数据分析方面主要目的数据在算法传递间的主要容器
statemodel :python的统计建模和计量经济学工具包,主要功能:
scipy是基于numpy构建在科学计算中处理多个不同标准问题域的包的集合
scikit-learn是python的一个开源机器学习模块,它建立在numpy,scipy和matplotlib模块之上,实现了大量的机器学习算法。