学习笔记《数据挖掘概念与技术》第一章引论

最新推荐文章于 2024-09-22 14:48:38 发布

拉格朗月·

最新推荐文章于 2024-09-22 14:48:38 发布

阅读量38

点赞数

文章标签：学习笔记数据挖掘人工智能 1024程序员节

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44886974/article/details/134018529

版权

目录

1.2 什么是数据挖掘

1.3可以挖掘什么类型的数据

1.3.1数据库数据

1.3.2数据仓库

1.3.3事务数据

1.3.4其他类型的数据

1.2 什么是数据挖掘

数据挖掘更正确的可以命名为“从数据中挖掘知识”。

一些人把数据挖掘视为另一个流行术语数据中的知识发现（KDD）的同义词，另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。

知识发现过程，由以下步骤的迭代序列组成：

数据清理：消除噪声和删除不一致数据
数据集成：多种数据源可以组合在一起
数据选择：从数据库中提取与分析任务相关的数据
数据变换：通过汇总或聚集操作，把数据变换和统一成适合挖掘的形式
数据挖掘：基本步骤，使用智能方法提取数据模式
模式评估：根据某种兴趣度度量，识别代表知识的真正有趣的模式
知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。

1.3可以挖掘什么类型的数据

1.3.1数据库数据

关系数据库是表的汇集，每个表都被赋予一个唯一的名字。每个表都包含一组属性（列或字段），并且通常存放大量元组（记录或行）。关系表中的每个元组代表一个对象，被唯一的关键字标识，并被一组属性值描述。

1.3.2数据仓库

数据仓库是一个从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。

通常，数据仓库用称作数据立方体（data cube）的多维数据结构建模。

数据立方体提供数据的多维视图，并允许预计算和快速访问汇总数据。通过以上特性，数据仓库非常适合联机分析处理。

1.3.3事务数据

事务数据库的每个记录代表一个事务，一个事务包含一个唯一的事务标识号，以及一个组成事务的项的列表。

在事务数据上的数据挖掘可以通过挖掘频繁项集实现目的。

1.3.4其他类型的数据

时间相关或序列数据：历史记录、股票交易数据、时间序列和生物学序列数据

数据流：视频监控和传感器数据、连续播送数据

空间数据：地图

工程设计数据：建筑数据、系统部件或集成电路

超文本和多媒体数据：文本、图像、视频和音频数据

图和网状数据：社会和信息网络

万维网：由Internet提供的巨型、广泛分布的信息存储库

（挖掘计算机网络数据，根据消息流的异常进行入侵检测。这种异常可以通过聚类、流模型的动态建模，或把当前的频繁模式与先前的比较来发现）

1.4可以挖掘什么类型的模式

1.4.1类/概念描述：特征化与区分

数据特征化：是目标类数据的一般特性或特性的汇总。输出可以用多种形式提供，饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以用广义关系或规则（称作特征规则）形式提供。
数据区分：将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。输出的提供形式类似于特征描述，但是区分描述应当包括比较度量，以便帮助区别目标类和对比类。用规则表示的区分描述称为区分规则。

1.4.2挖掘频繁模式、关联和相关性

频繁模式类型：频繁项集、频繁子序列（又称序列模式）和频繁子结构。

关联分析

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

拉格朗月· CSDN认证博客专家 CSDN认证企业博客

码龄5年

1: 原创

194万+: 周排名

113万+: 总排名

37: 访问

: 等级

10: 积分

0: 粉丝

0: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

学习笔记《数据挖掘概念与技术》第一章引论 38

最新评论

学习笔记《数据挖掘概念与技术》第一章引论
CSDN-Ada助手: 恭喜您开始博客创作！标题《学习笔记《数据挖掘概念与技术》第一章引论》很吸引人，引发了我对您的博客内容的好奇。希望您能继续保持写作的热情，并在接下来的创作中继续分享您对数据挖掘的理解和经验。如果可能的话，我建议您尝试在文章中加入一些个人观点和应用案例，这样可以让读者更深入地理解数据挖掘的概念与技术。希望您能在未来的博客中继续取得进步！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。