文本数据挖掘----初识数据挖掘

一、数据挖掘的内容

1、关联规则挖掘

(1)关联规则挖掘工作内容

        关联规则挖掘是指寻找给定数据集中项之间的有趣关联或相关联系(频繁出现的项集模式知

识);可以帮助许多决策的制定。

2、非监督式机器学习-聚类

(1)处理数据的类型

        处理的是没有事先标记分类的数据

(2)常见的五种聚类算法

        ①K-means

        ②Hierarchical

        ③GMM

        ④DBSCAN(基于密度的聚类算法);

        ⑤基于网格Grid的聚类算法;

3、监督式机器学习

(1)监督式机器学习解释

        可以由训练资料中学到或建立一个模式函数 / learning model),并依此模式推测新的实

例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值

(称为回归分析),或是预测一个分类标签(称作分类)。

(2)监督式机器学习工作内容

        ①离散标签预测——标签分类;

        ②连续标签预测­——数值预测;

4、回归

(1)回归解释

        回归是指一种用于预测任何连续值属性的监督机器学习技术。回归有助于任何业务组织分析

目标变量和预测变量的关系。

二、认识数据

1、数据类型和统计

(1)数据对象

        一个数据对象代表一个实体,而一个或多个数据对象组成一个或多个数据集;

(2)属性的类型

        ①标称类型的数据(状态可列举的数据),例如:类别、状态,特殊情况:二进制类型数据

(通常只有两个状态的数据),二进制类型数据又分为对称二进制类型数据(数据的两个状态数量

规模相当)和不对称二进制类型数据(这两个状态数据规模差距很大);

        ②序数类型数据:通常有一个有意义的顺序;

        ③区间标注属性:通常没有零点,所以它的倍数没有意义;

        ④比率标度属性:具有固定零点的数值属性,有序且可以计算倍数,例:长度、重量等;

2、数据统计汇总

(1)中性化趋势度量

        均值、中位数和众数;

(2)分布趋势度量 

        

三、数据可视化 

1、箱线图分析

(1)箱线图功能

      箱线图能够分析多个属性数据的分布差异性。

(2)箱线图例

 2、直方图分析

(1)直方图的功能

        用来分析单个属性在各个区间的变化分布。

(2)直方图例

        

3、散点图分析

(1)散点图的功能

         用来显示两组数据的相关性分析(正相关和负相关以及不相关)。

(2)散点图例

 

四、数据相似性

1、度量数据的相似性和相异性

(1)数据矩阵

        N个数据,p个维度;

(2)相异矩阵

        N个数据点,记录两点之间的距离,是三角矩阵;

(3)度量数据的三个特性描述

        

2、标称属性的邻近性度量 

(1)标称属性描述

        标称属性可以取两个或者多个状态;

        方法:简单匹配; 

(2)邻近性度量的计算方法

        d(I,j) = (p-m) / p ; 其中m是匹配次数,p是属性总数;

        例:

                 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        

 3、二值属性的邻近性度量

        (1)这里的q表示两个人的测试(即后面六项)都是阳性(用Y或者P表示的)的有多少个;

        (2)这里的r就是表示其中JackYP,而MarryN的有多少;

        (3)这里的s表示JackN,而MarryY或者P的有多少;

        (4)t表示两个都是N的有多少个;

4、几个重要的距离描述

(1)闵可夫斯基距离

 (2)曼哈顿距离

        

 (3)欧氏距离

        

        

(4) 上确界距离

        

         

 

 

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云日松

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值