随着统计建模比赛时间越来越近,论文的编写也要提上日程了,这篇博客汇总了常用的数据分析、数学模型和算法,一起来学习一下吧!
数据处理
数据标签
数据标签相当于对定类变量的文本进行修改。
输入:一项定类变量。
输出:定类变量的文本标签修改。
数据编码
数据编码是将变量数值再次进行编码,可进一步浓缩或整合原始数据。
输入:一项定量或定类变量。
输出:对变量每个值进行重新编码。
异常值处理
无效样本处理
生成变量
生成变量是对单变量或多变量进行计算。其中平均值、求和、乘积(交互项)是多变量计算,即对多个变量的均值、加和、乘积的结果;自然对数、Log10是单变量计算,即对单个变量的数据的值进行计算。
数据标准化
数据标准化包括去量纲化和一致化。去量纲化是指不同指标之间由于量纲不同以致于其不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分析。例如,某个变量的数值在1-10之间,而另一个变量的数值范围在100-1000之间,此时若进行综合评价,从数值的角度,很有可能数值变化范围大的变量,它的绝对作用就会较大,所占的比重较大。一致性是指将指标作用方向一致化,例如我们在评价多个不同指标的作用时,正向指标是数值越大越好,负向指标是数值越小越好,如果同时评价这两类指标的综合作用,由于他们的作用方向不同,不能将指标作用直接相加,此时我们就需要对逆指标进行一致化处理。
虚拟变量转换
多分类变量是不能直接参与到回归计算中。对于有序定类变量,可以将它进行数据编码,利用数字来表示分类变量的有序等级;但是对于无序定类变量,需要将其转变为虚拟变量来处理。虚拟变量转换包括哑变量和独热编码,其中哑变量化比独热编码少了一列变量,这是因为独热编码容易造成共线性,而哑变量随机以一个选项作为参照项,下图例子以”其它“作为参照项,当学生=0且上班族=0时,很明显,此时就默认归为”其它“,且在对回归系数进行解释时,所有类别哑变量的回归系数,均表示该哑变量与参照项相比之后对因变量的影响。
样本均衡
进行分类任务时,如果因变量不同类别的样本数量不均衡时,会严重影响模型训练。比如说对于一个二分类问题,某一类别有995个数据,另一类别有5个数据时,此时属于严重的数据样本分布不均衡,很难从中提取规律,所以当发现样本不均衡时,需要做样本均衡处理,增加样本量较少的类别样本或减少样本量较多的类别样本,从而使得因变量不同类别的样本数量相差不大。
输入:至少两项定量变量。
输出:增加样本量较少的类别样本或减少样本量较多的类别样本。
特征筛选
特征数过多一方面增加了模型的复杂度,另一方面特征多也引入了更多的噪声数据,使模型更容易学到噪声,增大了发生过拟合的风险。所以变量(特征)过多时,需要从原始特征中选择出一些最有效特征以降低数据维度,从而有效提高模型性能。
综合评价
层次分析法
层次分析法是一种解决多目标的复杂问题的定性与定量相结合的决策分析方法。该方法将定量分析与定性分析结合起来,用决策者的经验判断各衡量目标之间能否实现的标准之间的相对重要程度,例如通过构建评价指标(景色、费用,居住,饮食、旅途)对候选旅游地(桂林、黄山,北戴河)量化评价,进行选择。在专业版里面,系统健全对方案层的层次总排序,如不需层次总排序,请选择层次分析法(AHP简化版)。
因子分析
因子分析是基于降维的思想,在尽可能不损失或者少损失原始数据信息的情况下,将错综复杂的众多变量聚合成少数几个独立的公共因子,这几个公共因子可以反映原来众多变量的主要信息,在减少变量个数的同时,又反映了变量之间的内在联系。通常因子分析有三种作用:一是用于因子降维,二是计算因子权重,三是计算加权计算因子汇总综合得分。
示例:
根据该地区2021年的人均GDP、人均可支配收入等多个指标,量化评估多个省市地区的经济发展水平排名或者各指标的权重。
输入:2个或两个以上的定量变量(假设为N个变量)。
输出:最低可降维成1维(一个变量,一般用于综合评价),最多可降维成N个变量(一般用于数据脱敏),同时可以获取降维后各个变量的组成权重,用于代表原先变量的数据保留情况。
数据包络分析(DEA)
数据包络分析是评价多输入指标和多输出指标的较为有效的方法,将多投入与多产出进行比较,得到效率分析,可广泛使用于业绩评价。
示例:
投入变量为:政府财政收入占GDP的比例、
环保投资占GDP的比例、每千人科技人员数/人
产出变量为:人均GDP、城市环境质量指数;
试分析投入产出效率,得出如何调整投入变量和产
出变量,才能达到最优效率。
输入:数据包络分析的输入是投入、产出的指标(定量变量)。
输出:效率评估结果,包含具体需要增大或减小哪些投入变量,如何调整产出变量,才能达到最优效率。
模糊综合评价
模糊综合评价借助模糊数学的一些概念,对实际的综合评价问题提供评价,即模糊综合评价以模糊数学为基础,应用模糊关系合成原理,将一些边界不清、不易定量的因素定量化,进而进行综合性评价的一种方法。
示例:
某饮食行业品牌发布一款新零食,欲了解
消费者对该种零食的接受程度。一共有五
个评价指标(分别是价格、味道、包装、
营养、性价比),以及评语共有四项(分
别是很欢迎,欢迎,一般,不欢迎)
输入:至少两项或以上的定量变量。
输出:反应考核指标在量化评价中的综合得分。
优劣解距离法(TOPSIS)
TOPSIS 法是一种常用的组内综合评价方法,能充分利用原始数据的信息,其结果能精确地反映各评价方案之间的差距。基本过程为基于归一化后的原始数据矩阵,采用余弦法找出有限方案中的最优方案和最劣方案,然后分别计算各评价对象与最优方案和最劣方案间的距离,获得各评价对象与最优方案的相对接近程度,以此作为评价优劣的依据。该方法对数据分布及样本含量没有严格限制,数据计算简单易行。
示例:
为了客观地评价我国研究生教育的实际状
况和各研究生院的教学质量,国务院学位
委员会办公室根据人均专著、师生比、科
研经费与逾期毕业率进行研究生院的评估。
输入:至少两项或以上的定量变量。
输出:反应考核指标在量化评价中的综合得分。
秩和比综合评价法(RSR)
秩和比(RSR)指将效益型指标从小到大排序进行排名、成本型指标从大到小排序进行排名,再计算秩和比,最后统计回归、分档排序。通过秩转换,获得无量纲统计量RSR,以RSR值对评价对象的优劣直接排序或分档排序,从而对评价对象做出综合评价。
耦合协调度
耦合协调度模型用于分析事物的协调发展水平。耦合度指两个或两个以上系统之间的相互作用影响,实现协调发展的动态关联关系,可以反映系统之间的相互依赖相互制约程度。协调度指耦合相互作用关系中良性耦合程度的大小,它可体现出协调状况的好坏。
熵值法
熵值法根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大, 该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。因此,可利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。
灰色关联分析
灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法,其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧密,它反映了曲线间的关联程度。
解释结构模型(ISM)
解释结构模型(ISM)是一种系统分析方法,用于得到要素之间的复杂相互关系和层次。其思想是先通过调查或者技术手段找出问题的组成要素或影响因素,然后通过矩阵模型分析各要素之间的联系,得到一个多级递阶结构模型。
示例:
旅游社分析萧条原因,发现可能跟如下要素有关:疫情影响、价格过高、旅游套餐不合理、导游质量不行、景区质量下滑、气候问题。使用解释结构模型对其进行分析。
相关性分析
Kappa一致性检验
Kappa系数用于定类数据的相关性检验,而一般定量数据的相关性检验为皮尔逊相关系数。一般Kappa系数可用于衡量分类精度,或者投票等定类数据,kappa计算结果为[0, 1],可分为五组来表示不同级别的一致性:[0, 0.2]表现为极低的一致性、(0.2, 0.4]表现为一般的一致性、(0.4, 0.6]表现为中等的一致性、(0.6, 0.8]表现为高度的一致性和(0.8, 1]表现为几乎完全一致性。
预测模型
线性回归
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
层次回归(分层回归)
分层回归(层次回归)本质上是建立在回归分析基础上,区别在于分层回归可分为多层,用于研究两个或者多个回归模型之间的差异。分层回归将核心研究的变量放在最后一步进入模型,以考察在排除了其他变量的贡献的情况下,该变量对回归方程的贡献。如果变量仍然有明显的贡献,那么就可以做出该变量确实具有其他变量所不能替代的独特作用的结论。这种方法主要用于,当自变量之间有较高的相关,其中一个自变量的独特贡献难以确定的情况。例如,在研究学习疲倦感中,将性别、年龄、学历等(控制变量)放置在第一层,第二层放置工作压力(核心研究变量)。常用于中介作用或者调节作用研究。
灰色预测模型GM(1,1)
灰色预测是一种对含有不确定因素的系统进行预测的方法。灰色预测通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,并对原始数据进行生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况。
聚类分析
聚类分析是一种基于中心的聚类算法(K均值聚类),通过迭代,将样本分到K个类中,使得每个样本与其所属类的中心或均值的距离之和最小。与分层聚类等按照字段进行聚类的算法不同的是,快速聚类分析是按照样本进行聚类。
机器学习
决策树分类
决策树中每个内部节点都是一个分裂问题:指定了对实例的某个属性的测试,它将到达该节点的样本按照某个特定的属性进行分割,并且该节点的每一个后继分支对应于该属性的一个可能值。分类决策树叶节点所含样本中,其输出变量的众数就是分类结果。