数据挖掘导论阅读笔记第一章:绪论

本文是数据挖掘导论的阅读笔记,介绍了数据挖掘的基本概念,包括数据挖掘是自动发现大型数据存储库中有用信息的过程,以及KDD(数据库中知识发现)的定义。讨论了数据挖掘面临的问题,如可伸缩性、高维性、异种数据等,并概述了预测任务(分类、回归)和描述任务(关联分析、聚类、异常检测)的区分。
摘要由CSDN通过智能技术生成

了解数据挖掘

一、什么是数据挖掘

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。

这部分的重点在于区别数据挖掘技术其他信息检索任务

例如:根据可赢利性划分公司客户

答案:这不是数据挖掘任务,这是一个会计计算。但是,预测新客户的赢利能力是数据挖掘。

二、了解KDD

数据库中知识发现(knowledge discovery in database,KDD)是将未加工的数据转换成有用信息的过程。

KDD整个流程图

三、数据挖掘要解决的问题(了解即可)

1.可伸缩: 由于数据产生和收集技术的进步,数据挖掘算法常常需要处理海量数据集,则算法必须是可伸缩的(scalabie)。为实现可伸缩还有可能实现新的数据结构。
2.高维性: 现在常常会遇到具有成百上千属性的数据集。
3.异种数据和复杂数据&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值