前言:前两天女朋友问我他们论文的时候看到他们用了基于熵权的TOPSIS模型做分析,由于本人没学过有关统计方面的知识,所以就去现学了一下。好巧不巧,在学校上课的时候老师提到了Apriori算法,突然联想到感觉可以结合一下
基础知识
1熵权法:
1.1什么是熵?
熵是一个物理学概念,可以通俗的理解为表示一个物体稳不稳定的物理量,越稳定,熵值越小;反之,越不稳定,熵值越大。在统计学领域中,当数据越分散时,熵值越小,可认为该数据包含信息越多,因此权重越大,这也是熵权法的解释。
举个例子:比如说,太阳东升西落。这是一个客观规律,基本上不会有什么变动,而我们从这句话得到的信息也很固定,不分散,所以是一个熵值大的信息
1.2熵权法
熵权法是一种客观赋权方法,在具体使用过程中,根据各指标的数据的分散程度,利用信息熵计算出各指标的熵权,再根据各指标对熵权进行一定的修正,从而得到较为客观的指标权重。
翻译一下:
就是当一个事物有很多项指标可以描述它,他是每一项指标只能描述一部分。这个时候就可以通过熵权法来计算每一个指标占的比重是多少
举个简单例子:
体测:我们可以从身高体重、肺活量、立定跳远、引体向上、仰卧起坐、800/1000米来评判一个人健不健康(其实就是体测成绩每一项也都有比重),不能说一个人立定跳远能跳两米五,就能证明他身体好