Python数据分析与挖掘实战-基础篇总结（一）1、数据挖掘基础2、python数据分析简介3、数据探索

最新推荐文章于 2024-07-11 08:05:31 发布

wx1871428

最新推荐文章于 2024-07-11 08:05:31 发布

阅读量1k

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/wx1871428/article/details/118709057

版权

本文概述了数据挖掘的基础任务，包括分类、聚类等，并介绍了Python数据分析环境搭建，特别是Numpy的基本操作。同时，讨论了数据探索的重要性，如缺失值、异常值分析，并提到了Python中的数据探索函数。

摘要由CSDN通过智能技术生成

1、数据挖掘基础

1.1 数据挖掘的基本任务：

1.2数据挖掘建模过程：

1.3常用的数据挖掘建模工具

2、python数据分析简介

2.1 python环境搭建

2.2 python数据分析第三方库

2.2.1 Numpy基本操作

2.2.2 Pandas简单例子

3、数据探索

3.1 数据质量分析

3.1.1 缺失值分析

3.1.2 异常值分析

3.1.3 一致性分析

3.2 数据特征分析

3.2.1 分布分析

3.2.2 对比分析

3.2.3 统计量分析

3.2.4 周期性分析

3.2.5 贡献度分析

3.2.6 相关性分析

3.3 Python主要数据探索函数

3.3.1 基本统计特征函数

3.3.2 拓展统计特征函数

3.3.3 统计作图函数

1、数据挖掘基础

1.1 数据挖掘的基本任务：

数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法，帮助企业提取数据中蕴含的商业价值，提高企业竞争力。

1.2数据挖掘建模过程：

1、目标定义

任务理解
指标确定

2、数据采集

建模抽样
质量把控
实时采集

3、数据整理

数据探索
数据清洗
数据变换-预处理

4、构建模型

模式发现
构建模型
验证模型

5、模型评价

设定模型评价标准
多模型对比
模型优化

6、模型发布

模型部署
模型重构

1.3常用的数据挖掘建模工具

SAS Enterprise Miner
IBM SPSS Modeler
SQL Server
Python
WEKA
KNIME
RapidMiner
TipDM

2、python数据分析简介

2.1 python环境搭建

略·········

2.2 python数据分析第三方库

库

简介

—|---

Numpy

提供数组支持，以及相应的高效的处理函数

Pandas

强大，灵活的数据分析和探索工具

Matplotlib

强大的数据可视化工具、作图库

Scipy

提供矩阵支持，以及矩阵相关的数值计算模块

StatsModels

统计建模和计量经济学，包括描述统计、统计建模估计和推断

Scikit-Learn

支持回归、分类、聚类等强大的机器学习库

Keras

深度学习库，用于建立神经网络以及深度学习模型

Gensim

用来做文本主题模型的库，文本挖掘可能用到

涉及图片处理可以用Pillow，涉及视频处理可以用OpenCV，设计高精度运算可以用GMPY2等，使用pip install 安装即可

2.2.1 Numpy基本操作

    # -*- coding: utf-8 -*-
    import numpy as np
    
    # 创建数组
    a = np.array([2, 0, 1, 5])
    print(a)
    print(a[:3])  # 取前三个，切片
    print(a.min())  # 最小值
    a.sort() # 升序排列
    print(a)
    
    b = np.array([[1, 2, 3], [4, 5, 6]])  # 创建二维数组
    print(b)
    print(b * b)  # 输出数组的平方
[/code]

###  2.2.2 Pandas简单例子

```code
    # -*- coding: utf-8 -*-
    import pandas as pd
    
    s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])  # 创建一个序列s
    d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c'])  # 创建一个表
    d2 = pd.DataFrame(s)  # 也可以用已有的序列来创建表格
    
    print(d.head())  # 预览前5行数据
    print('==' * 10)
    print(d.describe())  # 数据基本统计量
    
    # 读取文件，注意文件的存储路径不能带有中文，否则读取可能出错。
    pd.read_excel('data.xls')  # 读取Excel文件，创建DataFrame。
    pd.read_csv('data.csv', enco