数据挖掘——基本概念

最新推荐文章于 2023-12-31 01:09:47 发布

能能BLOG

最新推荐文章于 2023-12-31 01:09:47 发布

阅读量208

点赞数

分类专栏：大数据文章标签：数据挖掘数据清洗

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44627573/article/details/86678411

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、定义：对于数据挖掘我们可以从两个角度来定义它：

a. 技术定义：数据挖掘是通过对大量的数据进行分析，以发现和提取隐含在其中的具有价值的信息和知识的过程。

b.商业定义：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关建化数据。

2、数据挖掘的主要模型有：分类与预测，聚类和关联分析等；

分类：即是通过训练集训练得到一个分类模型，然后用此分类来对测试集中的样本进行分类；

聚类：是一种无监督的机器学习方法，主要是指依据样本间的相似性度量标准将数据集划分为多个簇集，每个簇集中对象间的相似度最大化，而不同簇集的样本间的相似度最小化。（簇的表示形式和簇间相似度的定义是最基础的问题。常见的相似度定义可以使用余弦相似度、欧几里得距离公式等；）

关联分析：是为了发现数据中的关联规则，这些规则展现属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛应用与购物篮或事务数据分析。

PS:分类是示例式学习，要求分类前明确各个类别，并断言每个元素映射到一个类别，而聚类是观察式学习，在聚类前可以不知道类别甚至不给定类别数量，是无监督学习的一种。

3、数据集的一般特点：维度、稀疏性和分辨率；

维度：指数据集中数据对象的属性数目，低纬度数据往往和高维度数据有质的不同。

稀疏性：指一个对象的大部分属性上的值为0，实际上稀疏性是一个优点，因为只有非0值才需要存储和处理，这导致节省了大量的计算时间和存储时间。

分辨率：即测量的尺度，在不同的分辨率下得到的数据的性质不同。

4、数据预处理：高质量的数据是进行有效数据挖掘的前提，数据预处理的过程主要有数据清理，数据集成，数据变换等。

数据清理：主要是为了试图填充缺失值、去除噪声、并识别离群点；

数据集成：指将多个数据源中的数据存放在一个一致的数据存储设备中。数据集成中的数据一致性（不同表中可能使用不同的名称来指示同一个属性）和冗余（如果对象的一个属性能够由另一个表导出）是两个重要的问题。

数据变换：指将数据转换成适合挖掘的形式。如可通过规范化将属性数据按照比例缩放，使之落入一个小的特定区间，如0-1之间。也可利用已知属性，通过构造新的特征来更好的刻画数据的特性，帮助挖掘过程。

作者：朝圣之路
来源：CSDN
原文：https://blog.csdn.net/Algorithmguy/article/details/68066883

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。