数据挖掘概述

什么是数据挖掘

各行各业已经在步入大数据时代,数据挖掘是在大型数据库中自动发现有用信息的过程过程,所以数据挖掘是数据库中知识发现(Konwledge Discovery in Database, KDD)的重要一环。

 

知识发现区别于对数据库中数据进行单纯检索的操作,知识发现更加强调的是从现有的数据中挖掘出数据之间存在的模式。一个完整的知识发现过程还包含了数据挖掘前的预处理,比如特征工程、数据规范化等,以及数据挖掘之后的模式过滤、结果可视化、模式统计检验等后处理过程。

 

二、数据挖掘中面临的问题

在对大数据进行挖掘的过程中,还面临着许多的问题。这些问题包含数据本身导致的问题,也有数据在使用的时候发现的问题。

 

2.1 数据的标准化

数据标准化是一个大课题,例如,在金融行业中系统繁多,从各系统中获得的数据质量参差不齐,如果没有一个统一的标准,在我们获取源数据的过程中就会面临各种各样的数据质量问题,比如不同源系统提供的同一个字段属性数据明显不同或者同一个系统提供的一个字段属性下的数据存在不同的格式,甚至关键数据大量留空等问题,都会对数据挖掘的整个周期产生重大影响。

 

2.2 数据维度不断提升

数据维度可以理解为每条数据所包含的字段属性,在大数据时代每条记录拥有的字段属性都是成百上千的。例如,金融行业中一条客户信息,以前一条客户信息也许只包含了客户的一些职业、身份、住址等信息,但是随着金融行业的不断发展,业务产品不断的增加,客户在使用不同的金融产品过程中会留下更多的数据,这些数据被扩充到客户的关联信息中。

 

数据的维度不断提升虽然能够更加全面的展示数据属性,但是也更加容易在数据挖掘的过程中导致维度灾难,并且数据挖掘也需要消耗更多的计算资源。

 

2.3 数据来源更加复杂

传统的数据存储的同类型的数据,比如存储在关系型数据库中的数据。但是随着各个行业领域产生的数据越来越多,越累越复杂,例如:文本数据、音频数据、视频数据、图像数据等这类非传统数据的出现,导致以后更多的会使用非关系型数据库进行数据的存储。

 

数据挖掘面临的数据将会是更多的异构数据和复杂数据,在数据预处理和规约化方面会面临更多的挑战。

 

2.4 数据的所有权与共享

“数据是资产“的意识更加普遍化,数据的安全和隐私问题更加突出,对数据的使用和获取会更加严苛,这是将来在知识发现源头上可能会面临的新挑战。

 

2.5 更加多样的分析

传统的数据分析是通过监督学习的方式来进行数据的回归和分类研究,随着行业应用场景更加的多元化,将来通过半监督学习或者非监督学习的方式对数据进行分析和研究也会同样的重要。例如,客群聚类、信用卡欺诈检测等。

 

三、数据挖掘主要应用场景

通过统计学、机器学习、深度学习进行数据模式的识别。

 

3.1 进行预测分析

主要包含两类:回归建模,用于预测连续的目标变量;分类建模,用于预测离散的目标变量。建模的过程都是使用特定的算法训练出一个模型,目的是使该模型对真实数据输出的预测值和实际值之间误差最小,也称具有强泛化能力。例如,可以应用在客户的精准营销上,比如预测某个客户购买某个金融产品的金额或者是否购买概率等。

 

3.2 进行聚类分析

发现相关的观察值组群并进行划分,让属于同一簇的观测值组群相互之间尽可能的类似。例如,我们可以对金融客群进行分组,从高端到低端进行排列,根据不同组群喜好的金融产品进行差异化推荐。

 

3.3 进行关联分析

发现数据中存在的关联的模式。例如,识别客户的购买关联性,当客户购买A产品的时候同时还会购买B产品等。

 

3.4 进行异常检测

识别数据特征显著不同于其他数据的观测值,这类观测值我们也可以叫做异常点或者离群点。这里讨论的异常点不是数据中随机产生的噪声,而是合理的存在,比如信用卡欺诈检测,数据会明显的区别于正常数据特征,但是同时此类数据相对较少,如果构造检测规则也是巨大的挑战。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值