【数据挖掘】数据挖掘和数据分析基础

本文介绍了数据挖掘的基础,包括定义挖掘目标、数据采样、数据探索和预处理过程。在数据探索中,涉及异常值、缺失值分析、相关性分析等,并提到了数据挖掘建模工具如SAS、Python等。通过统计学方法如相关系数、帕累托法则进行深入分析。
摘要由CSDN通过智能技术生成

参考文献:《Python数据分析与挖掘实战》张良均等

数据挖掘建模过程

  1. 定义挖掘目标:理解任务,确定指标
  2. 数据采样:注意数据的完整性和有效性
  3. 数据探索:异常值分析、缺失值分析、相关性分析、周期性分析
  4. 数据预处理:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约
  5. 挖掘建模:所属问题分析(分类、聚类、关联规则、时序模式、智能推荐),选用算法
  6. 模型评价:应用模型对应的评价方法,根据业务对模型进行解释和应用

数据挖掘建模工具

  1. SAS Enterprise Miner
  2. IBM SPSS Modeler
  3. SQL Server
  4. Python
  5. WEKA
  6. KNIME
  7. RapidMiner/YALE
  8. TipDM

数据探索

一、数据质量分析
数据预处理的前提,检查数据中是否存在脏数据(缺失值、异常值、不一致的值、重复数据、含特殊符号的数据),箱线图可以检测异常值。

file_name = r'../data/catering_sale.xls'
catering_sale = file_name
data = pd.read_excel(catering_sale, index_col=u'日期') #加载数据
plt.figure()
plt.rcParams['font.sans-serif'] = ['SimHei'] #正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #正常显示±号
# 画箱线图
p = data.boxplot(return_type='dict')
x = p['fliers'][0].get_xdata() #fliers为异常值标签
y = p['fliers'][0].get_ydata()
y.sort() #对y从小到大排序
for i in range(len(x)):
    #处理临界情况, i=0时
    temp = y[i] - y[i - 1] if i != 0 else -78 / 3
    #添加注释, xy指定标注数据,xytext指定标注的位置(所以需要特殊处理)
    plt.annotate(y[i], xy=(x[i], y[i]), xytext=(x[i] + 0.05 - 0.8 / temp, y[i]))
    plt.show()

箱型图结果

二、数据特征分析

  1. 分布分析:解释数据的分布特征和分布类型:频率分布直方图、茎叶图、饼图、条形图
  2. 定量数据分布分析:求极差、决定组距和组数(极差/组距)、决定分点(分布区间)、列出频率分布表、绘制频率分布直方图。
  3. 定性数据分布分析:百分比/频数
  4. 对比分析:折线图
  5. 统计量分析:均值、中位数、标准差、四分位间距、变异系数 C V = s b x ˉ × 100 CV=\frac{s}{b}\bar{x}×100% CV=bsxˉ×100 Pandas中提供的describe方法可以得到基本统计量
file_name = r'../data/catering_sale.xls'
catering_sale = file_name
data = pd.read_excel(catering_sale, index_col=u'日期')
data = data[(data[u'销量'] > 400) & dat
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值