数据分析(笔记一)(Python)

数据挖掘
第一个阶段,了解应用领域
第二个阶段,创建目标数据集
第三个阶段,选择数据、数据清洗和预处理,数据压缩和变换
第四个阶段,选择数据挖掘的技术和功能,选择算法,数据挖掘
第五阶段,寻找感兴趣的模式
第六阶段,模式评估
第七阶段,知识表达

数据来源
1、关系型数据库/
2、空间数据
3、多媒体数据
等等

数据挖掘分析方法
1、分类
2、聚类
3、关联
4、数值预测
5、序列分析
6、社会网络分析

分类
定义:对具有类别的对象所形成的数据集,进行学习。就是根据有类别的数据提供的信息,来概括类别的主要特征,构建分类的模型或者规则,根据该模型或者规则,预测对象的类别。
地位:常用的一种数据挖掘和机器学习技术。
常用模型是分类决策树模型

聚类
定义:根据物以类聚的原理,将没有类别的对象,根据对象的特征,自动聚成不同组的过程,使得同一个组的对象之间非常相似,属于不同组的对象之间不相似。

分类和聚类的区别
相同点:都属于对数据进行归类
不同点:分类针对有标签的数据分析,聚类针对没有标签的数据。

关联
发现数据之前的关联规则。

数据预测
用于连续变量的取值。(回归分析)

异常点挖掘(孤立点分析)

序列分析和社交网络分析

数据挖掘:多个学科的融合
在这里插入图片描述
包括数据库、统计学、机器学习、算法的知识

数据挖掘中的应用
1、描述性数据挖掘
2、预测性数据挖掘

应用领域
1、市场分析和管理
2、风险分析和管理
3、欺骗检测和异常模式的监测(孤立点)

欺骗检测,异常模式的检测,孤立点分析,常用方法:对欺骗行为进行聚类和建模,并进行孤立点分析。主要应用领域:卫生保健、零售、信用卡服务、电信。

Python进行数据挖掘的常用工具包主要有:
numpy pandas matplotlib statsmodels scipy scikit-learn

numpy在数据分析方面主要目的是作为数据在算法之间传递的主要容器。

pandas提供了丰富的数据结构和功能,使结构化数据快速、简单、富有表现力。pandas基于两种数据类型:Series和DataFrame
Series是一个一维的数据类型,其中每一个元素都有一个标签。Series类似于numpy中元素带标签的数字组。其中,标签可以是数字或者字符串。
DataFrame是一个二维的表结构。pandas的DataFrame可以存储许多不同的数据类型,并且每个坐标都有自己的标签。

matplotlib用于生成绘图和其他2D和3D数据可视化的Python库。

statsmodels是Python的统计建模和计量经济学工具包,包括一些描述统计、统计模型估计和推断。主要功能有:
liner regression models:线性回归模型
gneralized linear models:一般线性模型
robust linear models:鲁棒线性模型
discrete choice models:离散选择模型
ANOVA:方差分析模型
time series analysis:时间序列分析
nonparametric estimators:非参检验
a wide range of statistical tests:各种统计检验
以及各种方法输出格式:text,latex,html;读取各种格式的数据
绘图功能

SciPy 是基于Numpy构建在科学计算中处理多个不同标准问题域的
包的集合。主要包括以下模块包括:
scipy.integrate: 数值积分和微分方程求解器
scipy.linalg: 拓展了numpy.linalg中的线性代数和矩阵分解功能
scipy.optimize:函数优化器(最小化器)和根查找算法
scipy.signal: 信号处理工具
scipy.sparse: 系数矩阵和线性系统求解器
scipy.special: 对于SPECFUN的封装, SPECFUN库实现了许多常见的数学函数
scipy.stats: 标准连续和离散概率分布(密度函数,采样器,连续分布函数),各种统计检验,
和更多的描述性统计
scipy.weave: 使用内联c++代码来加速数组计算的工具
通过结合使用NumPy和SciPy能够实现绝大部分matlab及其工具包的功能。

scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,
SciPy和matplotlib模块之上,实现了大量的机器学习算法。包括:
Classification:分类 - SVM, nearest neighbors, random forest, logistic regression,
etc.
Regression:回归 - Lasso, ridge regression, etc.
Clustering:聚类 - k-means, spectral clustering, etc.
Dimensionality reduction:降维 - PCA, feature selection, matrix factorization, etc.
Model selection:模型选择 - Grid search, cross-validation, metrics
Preprocessing:预处理 - Feature extraction, normalization

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值