数据分析（笔记一）（Python）

爱听许嵩歌

已于 2022-02-21 09:27:04 修改

阅读量395

点赞数

分类专栏：数据分析（Python）文章标签：数据挖掘

于 2020-06-18 10:34:13 首次发布

本文链接：https://blog.csdn.net/weixin_45092662/article/details/106494523

版权

数据分析（Python）专栏收录该内容

28 篇文章 11 订阅

订阅专栏

数据挖掘
第一个阶段，了解应用领域
第二个阶段，创建目标数据集
第三个阶段，选择数据、数据清洗和预处理，数据压缩和变换
第四个阶段，选择数据挖掘的技术和功能，选择算法，数据挖掘
第五阶段，寻找感兴趣的模式
第六阶段，模式评估
第七阶段，知识表达

数据来源
1、关系型数据库/
2、空间数据
3、多媒体数据
等等

数据挖掘分析方法
1、分类
2、聚类
3、关联
4、数值预测
5、序列分析
6、社会网络分析

分类
定义：对具有类别的对象所形成的数据集，进行学习。就是根据有类别的数据提供的信息，来概括类别的主要特征，构建分类的模型或者规则，根据该模型或者规则，预测对象的类别。
地位：常用的一种数据挖掘和机器学习技术。
常用模型是分类决策树模型

聚类
定义：根据物以类聚的原理，将没有类别的对象，根据对象的特征，自动聚成不同组的过程，使得同一个组的对象之间非常相似，属于不同组的对象之间不相似。

分类和聚类的区别
相同点：都属于对数据进行归类
不同点：分类针对有标签的数据分析，聚类针对没有标签的数据。

关联
发现数据之前的关联规则。

数据预测
用于连续变量的取值。（回归分析）

异常点挖掘（孤立点分析）

序列分析和社交网络分析

数据挖掘：多个学科的融合
在这里插入图片描述
包括数据库、统计学、机器学习、算法的知识

数据挖掘中的应用
1、描述性数据挖掘
2、预测性数据挖掘

应用领域
1、市场分析和管理
2、风险分析和管理
3、欺骗检测和异常模式的监测（孤立点）

欺骗检测，异常模式的检测，孤立点分析，常用方法：对欺骗行为进行聚类和建模，并进行孤立点分析。主要应用领域：卫生保健、零售、信用卡服务、电信。

Python进行数据挖掘的常用工具包主要有：
numpy pandas matplotlib statsmodels scipy scikit-learn

numpy在数据分析方面主要目的是作为数据在算法之间传递的主要容器。

pandas提供了丰富的数据结构和功能，使结构化数据快速、简单、富有表现力。pandas基于两种数据类型：Series和DataFrame
Series是一个一维的数据类型，其中每一个元素都有一个标签。Series类似于numpy中元素带标签的数字组。其中，标签可以是数字或者字符串。
DataFrame是一个二维的表结构。pandas的DataFrame可以存储许多不同的数据类型，并且每个坐标都有自己的标签。

matplotlib用于生成绘图和其他2D和3D数据可视化的Python库。

statsmodels是Python的统计建模和计量经济学工具包，包括一些描述统计、统计模型估计和推断。主要功能有：
liner regression models:线性回归模型
gneralized linear models:一般线性模型
robust linear models:鲁棒线性模型
discrete choice models:离散选择模型
ANOVA:方差分析模型
time series analysis:时间序列分析
nonparametric estimators:非参检验
a wide range of statistical tests:各种统计检验
以及各种方法输出格式：text，latex，html；读取各种格式的数据
绘图功能

SciPy 是基于Numpy构建在科学计算中处理多个不同标准问题域的
包的集合。主要包括以下模块包括：
scipy.integrate: 数值积分和微分方程求解器
scipy.linalg: 拓展了numpy.linalg中的线性代数和矩阵分解功能
scipy.optimize:函数优化器(最小化器)和根查找算法
scipy.signal: 信号处理工具
scipy.sparse: 系数矩阵和线性系统求解器
scipy.special: 对于SPECFUN的封装， SPECFUN库实现了许多常见的数学函数
scipy.stats: 标准连续和离散概率分布(密度函数，采样器，连续分布函数)，各种统计检验，
和更多的描述性统计
scipy.weave: 使用内联c++代码来加速数组计算的工具
通过结合使用NumPy和SciPy能够实现绝大部分matlab及其工具包的功能。

scikit-learn是Python的一个开源机器学习模块，它建立在NumPy，
SciPy和matplotlib模块之上，实现了大量的机器学习算法。包括：
Classification：分类 - SVM, nearest neighbors, random forest, logistic regression,
etc.
Regression：回归 - Lasso, ridge regression, etc.
Clustering：聚类 - k-means, spectral clustering, etc.
Dimensionality reduction：降维 - PCA, feature selection, matrix factorization, etc.
Model selection：模型选择 - Grid search, cross-validation, metrics
Preprocessing：预处理 - Feature extraction, normalization