文本数据挖掘----初识数据挖掘

最新推荐文章于 2024-03-23 19:54:51 发布

云日松

最新推荐文章于 2024-03-23 19:54:51 发布

阅读量1.6k

点赞数 1

分类专栏：文本数据挖掘文章标签：数据挖掘数据库人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52185996/article/details/126772055

版权

文本数据挖掘专栏收录该内容

3 篇文章 2 订阅

订阅专栏

一、数据挖掘的内容

1、关联规则挖掘

（1）关联规则挖掘工作内容

关联规则挖掘是指寻找给定数据集中项之间的有趣关联或相关联系（频繁出现的项集模式知

识）；可以帮助许多决策的制定。

2、非监督式机器学习-聚类

（1）处理数据的类型

处理的是没有事先标记分类的数据。

（2）常见的五种聚类算法

①K-means；

②Hierarchical；

③GMM；

④DBSCAN（基于密度的聚类算法）；

⑤基于网格Grid的聚类算法；

3、监督式机器学习

（1）监督式机器学习解释

可以由训练资料中学到或建立一个模式（函数 / learning model），并依此模式推测新的实

例。训练资料是由输入物件（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值

（称为回归分析），或是预测一个分类标签（称作分类）。

（2）监督式机器学习工作内容

①离散标签预测——标签分类；

②连续标签预测——数值预测；

4、回归

（1）回归解释

回归是指一种用于预测任何连续值属性的监督机器学习技术。回归有助于任何业务组织分析

目标变量和预测变量的关系。

二、认识数据

1、数据类型和统计

（1）数据对象

一个数据对象代表一个实体，而一个或多个数据对象组成一个或多个数据集；

（2）属性的类型

①标称类型的数据（状态可列举的数据），例如：类别、状态，特殊情况：二进制类型数据

（通常只有两个状态的数据），二进制类型数据又分为对称二进制类型数据（数据的两个状态数量

规模相当）和不对称二进制类型数据（这两个状态数据规模差距很大）；

②序数类型数据：通常有一个有意义的顺序；

③区间标注属性：通常没有零点，所以它的倍数没有意义；

④比率标度属性：具有固定零点的数值属性，有序且可以计算倍数，例：长度、重量等；

2、数据统计汇总

（1）中性化趋势度量

均值、中位数和众数；

（2）分布趋势度量

三、数据可视化

1、箱线图分析

（1）箱线图功能

箱线图能够分析多个属性数据的分布差异性。

（2）箱线图例

2、直方图分析

（1）直方图的功能

用来分析单个属性在各个区间的变化分布。

（2）直方图例

3、散点图分析

（1）散点图的功能

用来显示两组数据的相关性分析（正相关和负相关以及不相关）。

（2）散点图例

四、数据相似性

1、度量数据的相似性和相异性

（1）数据矩阵

N个数据，p个维度；

（2）相异矩阵

N个数据点，记录两点之间的距离，是三角矩阵；

（3）度量数据的三个特性描述

2、标称属性的邻近性度量

（1）标称属性描述

标称属性可以取两个或者多个状态；

方法：简单匹配；

（2）邻近性度量的计算方法

d(I,j) = (p-m) / p ; 其中m是匹配次数，p是属性总数；

例：

3、二值属性的邻近性度量

（1）这里的q表示两个人的测试（即后面六项）都是阳性（用Y或者P表示的）的有多少个；

（2）这里的r就是表示其中Jack是Y或P，而Marry是N的有多少；

（3）这里的s表示Jack是N，而Marry是Y或者P的有多少；

（4）t表示两个都是N的有多少个；

4、几个重要的距离描述

（1）闵可夫斯基距离

（2）曼哈顿距离

（3）欧氏距离

（4）上确界距离

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
文本数据挖掘----初识数据挖掘

数据挖掘（英語：data mining）是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

云日松 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。