在商业领域如何开展数据挖掘

以下内容学习自姚志勇老师编著的《SAS编程与数据挖掘商业案例》


前言:任何一个方法或者多个方法乃至一套解决方案在同一个商业需求中都只有一个“北斗星”,那就是商业目标。衡量一个挖掘模型价值的唯一标准也是商业目标。也就是说,为达到某一个商业目标,可能有很多种技术可以实现,但是商业人员绝对不会关注分析师使用了哪种很“高深”的方法,而只是关注很“高效”的方法。

1. 什么是数据挖掘

数据挖掘:从海量的数据中“挖掘”有用的可表示的知识。包含三层意思:

  • (1)挖掘对象是海量数据。海量的定义是模糊的,但有一点可以肯定,那就是已经不能用人工的方法来处理数据。
  • (2)挖掘工具是现有的技术或集成技术的产品。使用正确而有效的工具不仅是挖掘成功的保证,也是挖掘效率的保证。
  • (3)挖掘的结果是有用的可表示的知识。这是因为在商业领域,任何一个数据挖掘所得到的知识最终是要应用的,如果挖掘的知识是无用的或者说挖掘的结果无法理解,那么这种挖掘是失败的。

数据挖掘,在应用层面必须要有一个高效的解决方案,如果在两个能够达到类似效果的挖掘技术之间抉择,商业人员宁可选择简单易行的挖掘技术。

数据挖掘流程步骤

  • (1)数据收集
  • (2)数据清洗
  • (3)数据特征化
  • (4)建立模型
  • (5)模型打分
  • (6)模型验证
  • (7)模型实施
  • (8)修正优化模型

流程的复杂度取决于建模的复杂度,建模的复杂度取决于需求的复杂度,需求的复杂度取决于商业目标的重要程度,最终取决于商业目标,这已经和模型无关了。

寻找可预测的因素是最困难,犹如“大海捞针”,也许永远也找不到真正的影响商业目标的因素,而只能从现有的多个因素中用一个“好”的模型去寻找“次优”的影响因素,这就是所谓的数据挖掘。

2. 数据挖掘任务

数据挖掘源于商业需求,总体上,任何一个商业需求都可以归纳为如下三个问题:

  • 现状:发生了什么?
  • 原因:为什么会发生?
  • 预测:将来还会发生吗?

具体又可以分为以下任务:

  • 描述分析:对已经发生的现象进行分析。主要的分析技术包括描述性统计分析、数据特征化分析。聚类分析、孤立点分析等。
  • 因果分析:寻找发生的原因。主要的分析技术包括联机分析(OLAP)、相关分析、回归分析、关联分析、因子分析等。
  • 分类和预测分析:预测未来发生的可能性。主要的分析技术包括决策树分类、判别分析、贝叶斯分类、回归分析(线性和非线性)、神经网络、支持向量机等。分类和预测的区别在于:分类的目标变量是类别标识变量,没有实际的数学意义;预测的目标变量则具有实际的数据含义。
  • 时序分析:在时间维度上对未来进行预测。

3. 数据挖掘流程

建模的流程化是保证项目实施成功的关键。常见的流程:

  • 1、定义商业目标:明确要度量(临时需求)或预测(建模)什么。
  • 2、编制需求文档:细化商业目标。完整的需求文档应包括以下几个部分:
    • (1)项目计划文档(PPT):指实现客户需求而制定的需求框架、计划内容、路线图和资源。
      • ① 项目背景及商业目标
      • ② 技术目标:指明实现商业目标的方向
      • ③ 项目实施计划:每一步关键的实施内容及要达到的阶段目标
      • ④ 项目路线图:分析团队如何实施项目的明确时间表和每一个阶段的任务。
      • ⑤ 资源:每一个项目阶段所需要的参与项目人员(或部门)。
    • (2)方法论设计文档(Word):建模师的留存分档,是解决商业需求的技术文档。
    • (3)变量需求文档(Excel):需要分析师和商业需求人员一起完成,商业需求人员提出影响商业目标的各种外部因素,分析师把这些因素整合在一起,并和团队成员一起从建模分析和数据库是否支持等角度汇总这些信息,最终一般以Excel文件呈现。变量需求文档一般主要包括:
      • 目标变量定义
      • 时间窗口定义
      • 历史数据表
      • 近期交易表
      • 对象属性表
      • 其他相关表
      • 各表对应的变量名称、变量属性
  • 3、选择数据源:明确需要哪些变量信息后,我们需要确定这些信息从何处获取、本身的类型是什么样的、构造的建模数据集可能占多大存储空间等。
  • 4、进入建模流程:建模流程是程序开发阶段的纲要,也是项目实施过程中最核心的部门,主要包括四个阶段:
    • (1)数据准备阶段
    • (2)模型开发阶段
    • (3)模型验证阶段
    • (4)模型上线阶段

3.1 定义商业目标

定义商业目标是整个建模的关键。商业目标不是由建模师定义的,而是由提出商业需求的市场部和分析团队一起制定的。

常见的商业需求

  • 如何评价营销活动的效果?
  • 如何发现高价值客户的特征?
  • 如何细分现有目标市场?
  • 如何定位新客户以提高营销活动的效果?
  • 如何发现高风险客户?
  • 如何有效预测未来可能流失的客户
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MATLAB是一种功能强大的数据挖掘工具,能够提供一系列的函数和工具箱,帮助用户从大规模数据中发现隐藏的模式和关联规则。 首先,MATLAB提供了数据清洗和预处理的功能。用户可以使用MATLAB对数据进行清洗、去噪、填充缺失值等操作,以准备好的数据进行进一步的数据挖掘分析。 其次,MATLAB具备各种数据挖掘算法和工具箱,包括聚类分析、分类、回归分析、关联规则挖掘等。用户可以根据具体的需求选择合适的算法,进行数据挖掘任务。例如,可以使用聚类分析算法对大量数据进行分组,发现数据中的相似模式;可以利用分类算法根据已知的标签对数据进行分类;还可以使用回归分析算法建立模型,预测未知数据的值。 另外,MATLAB具备可视化分析的能力。用户可以使用MATLAB创建各种图表和可视化工具,将数据挖掘的结果以图形化的方式展示出来。这将有助于用户更直观地理解数据的特征和规律。 此外,MATLAB提供了丰富的工具和函数,可以与其他编程环境和数据库集成,如SQL Server、MySQL等。这使得用户可以在MATLAB中轻松地访问和处理各种数据源,拓宽了数据挖掘的应用领域。 总之,MATLAB是一种功能强大、易于使用的数据挖掘工具,可以帮助用户从大规模数据中发现隐藏的模式、提取有价值的信息和做出预测,广泛应用于科研、工程和商业领域

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值