思维导图:
1.1本章导读
1.1.1 数据挖掘典型的应用场景
本小节主要介绍数据挖掘在金融、数字政府、智慧园区、电商等领域的应用场景。
○金融场景:
针对商业银行中的零售客户进行细分,基于零售客户的特征变量(人口特征、资产特征、、负债特征、结算特征),计算客户之间的距离,然后,按照距离的远近,把近似的客户聚集为一类,从而有效的细分客户,将全体客户划分为诸如理财偏好者、基金偏好者、活期偏好者、国债偏好者、风险均衡者、渠道偏好者等。
○数字政府:
数字政府是指现代计算机、网络通信等技术支撑下,政府机构日常办公、信息收集和发布、公共管理等事务在数字化、网络化的环境下进行的国家行政管理形式。包括多方面的内容,如政府办公自动化政府实时信息发布、各级政府间的可视远程会议、公民随机网上信息查询政府信息、电子化民意调查和社会经济统计、电子选举(或称“数字民主”)等等。
○智慧园区:
智慧园区主要包括三大模块:智能化应用系统、绿色节能管理和政务办公服务平台。广州中国科学院软件应用技术所研发的智慧园区信息服务平台面向的对象包括园区管理者、运营商、政府部门、企业和业主。用户的多元化对平台的需求各不相同。因此对不同的用户需求进行分析,研究各类应用的面向对象和领域,通过统一服务管理平台实现应用定制化是最终可以面向各类服务对象的关键。
○电商:
电商中的猜你喜欢,应该是大家最为熟悉的。在网上购物,总会有“猜你喜欢”、“”“根据您的浏览记录精心为您推荐”、“购买此商品的顾客同时也购买了商品”、“浏览了该商品的顾客最终购买了商品”,这些都是推荐引擎运算的结果。
数据挖掘可以解决那些问题:
○如何进行金融行业客户分群?
○如何对企业及法人进行风险预警,维稳防范?
○如何打造政府办公自动化?
○如何能降低用户流失率?
○如何细分现有目标市场?
○如何制定交叉销售率以提升销售额?
1.1.2 数据挖掘概述
本小节主要介绍数据挖掘的概念,包括数据挖掘与大数据、数据分析的对比。
数据挖掘概述:
○数据挖掘是通过大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程。
○与数据挖掘相关联的其他名称:
◎数据库内知识发现(KDD-Knowledge discovery in databases)
◎数据/模式分析
◎商业智能
◎人工智能
◎……
大数据概念:
○维基百科:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
○麦肯锡:大数据指那些大小超过标准数据库工具软件能否收集、存储、管理和分析的数据集。
○Gartner:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高产量率和多样化信息资产。
○IDC:一般会涉及2种以上数据形式,数据量100T以上,且是高速、实时数据流;或者从小数据开始,但数据每年增长60%。
数据挖掘与大数据的关系:
数据挖掘和数据分析的关系:
概念 | 数据分析 | 数据挖掘 |
分析目的 | 对数据进行分析,重要是观察数据 | 从大量的数据中心,挖掘出未知的、且有价值的信息和知识的过程。重点是从数据中发现“知识规则”。 |
分析过程 | 对历史数据进行统计学上的一些分析 | 数据挖掘更侧重于及机器对未来的预测 |
分析结果 | 侧重于统计学上面的一些方法,经过人的推敲演绎得到的结论 | 侧重由机器进行自学习,直接得到结论 |
分析结果 | 准确的统计量 | 一般是模糊的结果 |
使用工具 | 用到成熟的分析工具,如Excel、SPSS、SAS等 | 数据挖掘则需要由编程基础 |
联系 | ◎都跟数据打交道 ◎知识技能有很多的交叉点 ◎在职业上他们没有很明显的界限 ◎数据分析与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识(有价值的信息),从而帮狭义的数据分析与数据挖掘成广义的数据分析 |
数据挖掘覆盖的学科:
○数据挖掘是多领域的学科
◎人工智能
◎数据库
◎统计学
◎并行计算
◎图形学
◎……
课程要求:
○了解什么是数据挖掘
○了解数据挖掘和数据分析的区别
○掌握数据挖掘的流程
○理解数据和数据类型
○了解数据挖掘的开发工具
○理解数据挖掘的学习途径