指标值序列分组方法

一、数据序列约定俗成的分组法

根据人们长久的经验进行分组由于人们在现实生活中积累了生活经验,人们对认识的事物有了感性的了解,就可以对现象进行分组,例如人们根据太湖流域梅雨期的长短,梅雨雨量的丰欠等总结出一些概念性梅雨类别,例如:
(1)早梅,迟梅。根据资料分析表明正常入梅的时间为月中旬后期,出梅在月上旬前期,平均梅雨期约天左右。在月中旬前入梅,称为早梅,在月日以后入梅称为迟梅。
(2)重梅。梅雨期特别长(超过25天)的梅雨称为重梅,相应的梅雨量非常充沛,暴雨次数多,易产生洪涝灾害(如1954年,1980年,1983年,1991年)产生重梅的原因,大多是因为入梅后,大气环流形式较稳定,中高纬多阻高且偏强少动,副高脊线维持在23左右,冷暖气流汇合于江淮地区形成历时长,范围广的辐合区,连阴雨长达数月。
(3)轻梅。相对重梅而言,梅期较短,一般为10天左右或更短。入梅后,大气环流调较快,过渡时间短,很快进入盛夏(如1959年,1964年,1981年)。
(4)空梅。比轻梅的梅期更短,有的年份仅有2-3天,甚至无梅雨(如1978年)。

二、样本均值一均方差(标准差)分组法

对于数据序列x1,x2,……,xn,可看作是一个时间序列的前n个观测值,算出样本均值x-和样本均方差s(均方差就是标准差),根据具体情况以样本均值为中心,例如可将数据序列分成如下五组:
在这里插入图片描述
或:
在这里插入图片描述
通过查文献详细了解到:
在这里插入图片描述
在这里插入图片描述

三、有序聚类分组法

聚类分析的基本思想是,从一批样品的多个指标变量中,定义能度量样品间或变量间相似程度或亲疏关系的统计量,在此基础上求出各样品或变量之间的相似程度度量值,按相似程度的大小,把样品或变量逐一归类,关系密切的类聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品或变量都聚集完毕,把不同的类型一一划分出来,形成一个亲疏关系谱系图,用以更直观地显示分类对象样品或变量的差异和联系。
有序聚类是对有序样品进行分类的一种方法,用有序聚类的方法来划分指标值的变化区间,通常可以更加充分地考虑指标值序列的数据结构,使划分的区间更趋合理。事实上,在许多实际问题中,统计指标值是按一定的顺序排列的,分类时不能将这种次序打乱。例如,对于一个国家长时间的经济历史数据即经济时间序列数据,由于这种数据都和一定的时间相联系,所以分类时不能打乱其先后顺序。对于这类有序统计指标值的分类,由于增加了有序这样一个约束条件,所以分类的方法有其独特的风格。
对一维有序数据进行分类。由于数据的次序不能打乱,所以实际上就是要将这些数据组成的有序序段进行分段,也就是要找出一些分点,将它们分成几个分段,每个分段为一类,这种分类称为分割。显然,分点在不同的位置就可以得到不同的分割,这样就存在一个如何确定分点,使分割达到最优的问题。由于这种分类只是对顺序样本进行分割,即使对于容量较大的样本,全部可能分割的数目也不是太大,因此有可能利用现代计算机对全部可能的分害进行比较,从而在某种损失函数的约束之下,找出最优的分类。费歇(Fisher)曾给出一个算法,可以求得最优分类,通常称其为最优分割法(Fisher算法)。
有序聚类实现的经典算法是Fisher算法
最优分割法的基本思想是基于方差分析的思想即寻找一个分割,使各段内部指标值间的差异最小,而各段之间的差异最大。这个分割也就被称为最优分割。现假设指标值依次是x1,x2,……,xn,其中每个 xi 均是 p 维向量,则最优分割法的操作步骤如下:
(1)定义类的直径
设时间序列x1,x2,……,xn的某一归类Gij
在这里插入图片描述
定义其均值向量为
在这里插入图片描述
将该类内部各指标值间的总差异定义为该类的直径,由于表示指标值间总差异的最常用的数量指标是离差平方和(离差平方和(Sum of Squares of Deviations)是各项与平均项之差的平方的总和。),所以常用的直径就是类内离差平方和,用D(i,j)表示Gij的直径,则定义
在这里插入图片描述
定义为{xi,……,xj}的直径,其含义表示该变量段内部各变量之间的差异情况。其
值越小,表示该段内变量之间差异越小,或说相互间越接近;反之,表示该段内变量之间差异越大,或说相互间越分散。
(2)定义目标函数
现在把n个有序的指标值划为k类,设其中一种分法为:
在这里插入图片描述
或简记为:
在这里插入图片描述
其中的分点为1=i1<i2<……<ik<ik+1=n。这种分类的损失函数即目标函数为类内总离差平方和,有时叫做这一分类的误差函数,定义为
在这里插入图片描述
只有当n, k固定时候,e[p(n,k)]越小表示各类的类内离差平方和越小,分类是合理的。因此需要找到一种分法p(n,k)使目标函数达到最小值 。可以采用做e[p(n,k)]与k的二者关系的曲线图把分类数k的大小确定下来,得到曲线拐弯处的k值就是最优分类数。
(3)求最优分类
在这里插入图片描述
在这里插入图片描述
在实际问题中,k通常是未知的,一般是将k=1,2,……,n的所有最优分割都计算出来,然后再根据问题的特点确定k的取值。
可见,所谓的最优分类法就是使 e[P(n,K)] 达到最小值时的一种分法。至于分类数k的
确定,可以通过做e[P(n,K)]与k的关系的曲线图,曲线拐弯处的k值即为最优分类数。

模糊聚类分析法

模糊聚类分析法包括模糊聚类分析的硬划分法和软划分法。
这两种方法都要预先确定好被分类的指标值应该分成几类,再从事先粗略地给出的一个初始的分类出发,用数值计算的方法进行反复地修改,直致合理为止。

模糊聚类分析的硬划分法

在这里插入图片描述
在这里插入图片描述
这样,给出一种分类就可以得到一个对应的矩阵U,我们称U为分划矩阵。很显然,不同的分类对应着不同的U矩阵,然而并非任一矩阵对应一种分类,仅当矩阵U具有如下性质时,才对应一种分类。
在这里插入图片描述
n个样本分到c类去只有有限种分类。因而,它对应有限个分类矩阵。通常我们把全体分类矩阵所构成的集合称为划分空间。为了求得最佳分类,我们需要从划分空间中挑选出最佳的分类矩阵来。但是怎样的分类才算是最佳分类呢?在讨论这个问题以前,我们先来介绍
“聚类中心”这个概念。
粗略地说,所谓某一类(第 j 类)的聚类中心 Vj 就是这一类所有样本的一个核心。它是一种人为的假想的理想样本。一般,它的对应的各个指标是该类样本所对应的指标的平均值。也就是说:
在这里插入图片描述
不难看出,上式的分母为属于第i类的样本的个数,而分子属于第j类的所有样本的第k个指标的和。
因此聚类中心一般不是一个实际的样本,它的指标综合地反映了该类指标的特性。因此也可视为该类的一个模式样本。
我们自然会想到,在一个合理的分类中,每一类中的样本与该类的聚类中心的距离平方
尽可能地小。各类样本到它们的对应的聚类中心的距离平方和为
在这里插入图片描述

模糊聚类分析的软划分(模糊划分)法

有些样本应用模糊聚类分析的软划分(模糊划分)法是比较合适的,先计算变量间相似矩阵或样品间的距离矩阵,将其元素压缩到0与1之间形成模糊矩阵,进一步改造为模糊等价矩阵,最后取不同的标准得到不同的矩阵,从而就得到不同的类。它们的分类常常并不是那么径渭分明,因此我们在分类过程中,可以认为某个样本以某一从属程度从属于某一类,而又以另一从属程度从属于另外一类。这样,样本就不是明确地属于或不属于某一类,这是与前面介绍的清晰分类——硬划分的基本不同点。在这种分类思想下我们就会得到不同的分类矩阵。
例如样本集X={x1,x2,x3,x4,x5,x6}要分成三类,我们可以用矩阵
在这里插入图片描述
每一类是一组X上的模糊子集,分划矩阵不同,所得到的分类就对应着不同的模糊子集。
一般说来,若X有n个样本要分成c类,则它的软分划矩阵有如下形式:
在这里插入图片描述
在这里插入图片描述
显然,软划分矩阵有无穷多个,这种软划分矩阵的全体我们称之为软划分空间。可能有人认为我们把问题反而复杂化了,其实不然,这种软划分矩阵的最佳划分反而比较容易求得。
在软划分的情况下,什么是最佳划分呢我们衡量的标准仍然是样本与聚类中心的距离平方和最小。但由于是软划分,一个样本是按不同的从属程度属于各类的,因此,应该同时考虑它与每一类的聚类中心的距离。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
算出最佳软划分矩阵后,我们常常还要求得对应的硬划分。为了做到这一点,通常可采取下述两种方法。
在这里插入图片描述
一般说来,方法一与方法二所得的结果基本上是一致的。
应用上还有一些其它分类的方法,比如说直接根据问题的实质进行分类,也可以称为是“行业上的”分类等,这里就不一一列举。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值