数据挖掘部分

数据挖掘的定义:数据挖掘(Data Mining)DM,是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的,人们事先不知道的、具有潜在利用价值的信息和知识的过程。

这个定义包含几层含义:

数据源必须是真实的、大量的、含噪声的
发现的是用户感兴趣的知识
发现的知识要可接收、可理解、可运用
不要求放之四海而皆准的知识,仅支持特定的问题
数据挖掘是从数据中发掘知识的过程,在这个过程中,在这个过程中人工智能和数据库技术可以作为挖掘工具,数据可以被看做是土壤,云平台可以看做是承载数据和挖掘算法的基础设施。在数据挖掘中需要用到一些挖掘工具和方法,如机器学习的方法。当挖掘完毕后,数据挖掘还需要对知识进行可视化和展示

数据挖掘是多学科的汇合,是一个交叉性的学科,设计数据库技术、人工智能、数理统计、机器学习、模式识别、高性能计算、知识工程、神经网络、信息检索、信息的可视化等众多领域

常见的数据挖掘的对象
关系型数据库、事务型数据库、面向对象的数据库

关系数据库是表的集合,每个表都赋予一个唯一的名字
事务数据库由一个文件组成,其中每个记录代表一个事件

数据仓库/多维数据库

数据仓库通过数据清理、数据变换、数据集成、数据装入和定期刷新数据构造

空间数据(地图信息)
工程数据(建筑、集成电路信息)
文本和多媒体数据(文本、图像、音频、视频数据)
时间相关的数据(如历史数据或股票交换数据)
万维网(本结构化的HTML,结构化的XML以及其他网络信息)

大数据环境下的数据挖掘
大数据挖掘:从体积巨大、类型多样、动态快速流转及价值密度低的大数据中挖掘出有巨大潜在价值的潜在信息和知识,并以服务的方式提供给用户。

大数据挖掘与传统数据挖掘相比:
技术背景差异
处理对象差异
挖掘程度差异

大数据挖掘的特性:
在大数据时代,数据的产生和收集是基础,数据挖掘是关键,即数据挖掘是大数据中最关键、最有价值的工作
应用性、工程性、集合性

数据挖掘标准流程CRISP-DM
数据挖掘的生命周期:业务理解、数据理解及收集、数据准备、数据建模、模型评估与部署。


数据库中知识发现
数据清洗
数据集成
数据选择
数据变换
数据挖掘
模式评估
知识表示
1995年在加拿大蒙特利尔召开“知识发现和数据挖掘”国际学术会议上,首次提出了“数据挖掘”这一学科的名称,并把数据挖掘技术分为科研领域的知识发现与工程领域的数据挖掘。

数据挖掘的研究热点
网站的数据挖掘:从网站的各类数据中得到有价值的信息。

数据挖掘面临的新挑战
数据挖掘分析模型的重构:在大数据的背景下要以低成本和可扩展的方式处理大数据,就需要对整个IT架构进行重构,开发先进的软件平台和算法。
清洗粒度大小不易把握:由于终端的所处地理位置的复杂性,使得产生的数据具有很多噪声。
数据开放与隐私的权衡:互联网的交互性,使得人们在不同的位置产生的数据足迹得到积累和关联,从而增加了隐私暴露的概率,且这种隐私的数据暴露往往是无法控制和预知的。

数据挖掘未来的发展趋势:
数据挖掘语言的标准化描述:标准的数据挖掘语言有助于数据挖掘系统的开发,改进多个数据挖掘系统和功能间的互操作,促使其在企业和社会中的使用。
数据库系统和以Web查询接口方式访问数据库资源的Web数据库已经成为信息处理系统的主流

数据挖掘工具分为:商用工具和开源工具。
Python是一种功能强大的、开源的、解释性、面向对象计算机编程语言。支持多种平台并可扩展。

数据挖掘能做什么:
发现最有价值的客户
使组合销售更有效率
留住那些最有价值的用户
用更小的成本发现欺诈现象
————————————————
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值