目录
1、数据挖掘基础
1.1 数据挖掘的基本任务:
1.2数据挖掘建模过程:
1.3常用的数据挖掘建模工具
2、python数据分析简介
2.1 python环境搭建
2.2 python数据分析第三方库
2.2.1 Numpy基本操作
2.2.2 Pandas简单例子
3、数据探索
3.1 数据质量分析
3.1.1 缺失值分析
3.1.2 异常值分析
3.1.3 一致性分析
3.2 数据特征分析
3.2.1 分布分析
3.2.2 对比分析
3.2.3 统计量分析
3.2.4 周期性分析
3.2.5 贡献度分析
3.2.6 相关性分析
3.3 Python主要数据探索函数
3.3.1 基本统计特征函数
3.3.2 拓展统计特征函数
3.3.3 统计作图函数
1、数据挖掘基础
1.1 数据挖掘的基本任务:
数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业竞争力。
1.2数据挖掘建模过程:
1、目标定义
- 任务理解
- 指标确定
2、数据采集
- 建模抽样
- 质量把控
- 实时采集
3、数据整理
- 数据探索
- 数据清洗
- 数据变换-预处理
4、构建模型
- 模式发现
- 构建模型
- 验证模型
5、模型评价
- 设定模型评价标准
- 多模型对比
- 模型优化
6、模型发布
- 模型部署
- 模型重构
1.3常用的数据挖掘建模工具
- SAS Enterprise Miner
- IBM SPSS Modeler
- SQL Server
- Python
- WEKA
- KNIME
- RapidMiner
- TipDM
2、python数据分析简介
2.1 python环境搭建
略·········
2.2 python数据分析第三方库
库
|
简介
—|---
Numpy
|
提供数组支持,以及相应的高效的处理函数
Pandas
|
强大,灵活的数据分析和探索工具
Matplotlib
|
强大的数据可视化工具、作图库
Scipy
|
提供矩阵支持,以及矩阵相关的数值计算模块
StatsModels
|
统计建模和计量经济学,包括描述统计、统计建模估计和推断
Scikit-Learn
|
支持回归、分类、聚类等强大的机器学习库
Keras
|
深度学习库,用于建立神经网络以及深度学习模型
Gensim
|
用来做文本主题模型的库,文本挖掘可能用到
涉及图片处理可以用Pillow,涉及视频处理可以用OpenCV,设计高精度运算可以用GMPY2等,使用pip install 安装即可
2.2.1 Numpy基本操作
# -*- coding: utf-8 -*-
import numpy as np
# 创建数组
a = np.array([2, 0, 1, 5])
print(a)
print(a[:3]) # 取前三个,切片
print(a.min()) # 最小值
a.sort() # 升序排列
print(a)
b = np.array([[1, 2, 3], [4, 5, 6]]) # 创建二维数组
print(b)
print(b * b) # 输出数组的平方
[/code]
### 2.2.2 Pandas简单例子
```code
# -*- coding: utf-8 -*-
import pandas as pd
s = pd.Series([1, 2, 3], index=['a', 'b', 'c']) # 创建一个序列s
d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c']) # 创建一个表
d2 = pd.DataFrame(s) # 也可以用已有的序列来创建表格
print(d.head()) # 预览前5行数据
print('==' * 10)
print(d.describe()) # 数据基本统计量
# 读取文件,注意文件的存储路径不能带有中文,否则读取可能出错。
pd.read_excel('data.xls') # 读取Excel文件,创建DataFrame。
pd.read_csv('data.csv', enco