Python数据分析与挖掘实战-基础篇总结(一)1、数据挖掘基础2、python数据分析简介3、数据探索

本文概述了数据挖掘的基础任务,包括分类、聚类等,并介绍了Python数据分析环境搭建,特别是Numpy的基本操作。同时,讨论了数据探索的重要性,如缺失值、异常值分析,并提到了Python中的数据探索函数。
摘要由CSDN通过智能技术生成

目录

1、数据挖掘基础

1.1 数据挖掘的基本任务:

1.2数据挖掘建模过程:

1.3常用的数据挖掘建模工具

2、python数据分析简介

2.1 python环境搭建

2.2 python数据分析第三方库

2.2.1 Numpy基本操作

2.2.2 Pandas简单例子

3、数据探索

3.1 数据质量分析

3.1.1 缺失值分析

3.1.2 异常值分析

3.1.3 一致性分析

3.2 数据特征分析

3.2.1 分布分析

3.2.2 对比分析

3.2.3 统计量分析

3.2.4 周期性分析

3.2.5 贡献度分析

3.2.6 相关性分析

3.3 Python主要数据探索函数

3.3.1 基本统计特征函数

3.3.2 拓展统计特征函数

3.3.3 统计作图函数


1、数据挖掘基础

1.1 数据挖掘的基本任务:

数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业竞争力。

1.2数据挖掘建模过程:

1、目标定义

  • 任务理解
  • 指标确定

2、数据采集

  • 建模抽样
  • 质量把控
  • 实时采集

3、数据整理

  • 数据探索
  • 数据清洗
  • 数据变换-预处理

4、构建模型

  • 模式发现
  • 构建模型
  • 验证模型

5、模型评价

  • 设定模型评价标准
  • 多模型对比
  • 模型优化

6、模型发布

  • 模型部署
  • 模型重构

1.3常用的数据挖掘建模工具

  • SAS Enterprise Miner
  • IBM SPSS Modeler
  • SQL Server
  • Python
  • WEKA
  • KNIME
  • RapidMiner
  • TipDM

2、python数据分析简介

2.1 python环境搭建

略·········

2.2 python数据分析第三方库

|

简介

—|---

Numpy

|

提供数组支持,以及相应的高效的处理函数

Pandas

|

强大,灵活的数据分析和探索工具

Matplotlib

|

强大的数据可视化工具、作图库

Scipy

|

提供矩阵支持,以及矩阵相关的数值计算模块

StatsModels

|

统计建模和计量经济学,包括描述统计、统计建模估计和推断

Scikit-Learn

|

支持回归、分类、聚类等强大的机器学习库

Keras

|

深度学习库,用于建立神经网络以及深度学习模型

Gensim

|

用来做文本主题模型的库,文本挖掘可能用到

涉及图片处理可以用Pillow,涉及视频处理可以用OpenCV,设计高精度运算可以用GMPY2等,使用pip install 安装即可

2.2.1 Numpy基本操作

    # -*- coding: utf-8 -*-
    import numpy as np
    
    # 创建数组
    a = np.array([2, 0, 1, 5])
    print(a)
    print(a[:3])  # 取前三个,切片
    print(a.min())  # 最小值
    a.sort() # 升序排列
    print(a)
    
    b = np.array([[1, 2, 3], [4, 5, 6]])  # 创建二维数组
    print(b)
    print(b * b)  # 输出数组的平方
[/code]

###  2.2.2 Pandas简单例子

```code
    # -*- coding: utf-8 -*-
    import pandas as pd
    
    s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])  # 创建一个序列s
    d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c'])  # 创建一个表
    d2 = pd.DataFrame(s)  # 也可以用已有的序列来创建表格
    
    print(d.head())  # 预览前5行数据
    print('==' * 10)
    print(d.describe())  # 数据基本统计量
    
    # 读取文件,注意文件的存储路径不能带有中文,否则读取可能出错。
    pd.read_excel('data.xls')  # 读取Excel文件,创建DataFrame。
    pd.read_csv('data.csv', enco
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值