Datawhale 数学建模导论国赛C学习笔记

描述和分析数据的分布特征及其变化情况的统计指标

  1. 均值(Mean):数据集中所有数值的算术平均数。计算方式是将所有数据值加总后除以数据的总数量。均值反映了数据的中心趋势。

    [ \text{均值} = \frac{\sum_{i=1}^{n} x_i}{n} ]

    其中,( x_i ) 是数据值,( n ) 是数据数量。

  2. 最大值(Maximum):数据集中最大的数据值,用于描述数据的上界。

  3. 最小值(Minimum):数据集中最小的数据值,用于描述数据的下界。

  4. 中位数(Median):将数据按升序排列后位于中间位置的数值。如果数据数量是偶数,中位数是中间两个数值的平均值。中位数表示数据的中位点,能够有效反映数据的中心趋势,尤其在数据分布不对称时更为稳健。

  5. 标准差(Standard Deviation):度量数据值相对于均值的分散程度。标准差越大,数据的离散程度越高。计算公式为:

    [ \text{标准差} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n}} ]

    其中,( \bar{x} ) 是均值,( x_i ) 是数据值,( n ) 是数据数量。

  6. 偏度系数(Skewness):描述数据分布的对称性。偏度为零表示数据分布对称,正偏度表示数据分布右侧有较长尾部,负偏度表示数据分布左侧有较长尾部。计算公式为:

    [ \text{偏度} = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^3}{\left(\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2\right)^{3/2}} ]

  7. 峰度系数(Kurtosis):衡量数据分布的尖峭程度或峰态。高峰度表明数据在均值附近集中较多,低峰度则表示数据分布较平坦。计算公式为:

    [ \text{峰度} = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^4}{\left(\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2\right)^2} - 3 ]

    其中,减去3是为了使正态分布的峰度为零。

  8. 方差(Variance): 方差是标准差的平方,表示数据值相对于均值的离散程度。计算公式为: [ \text{方差} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n} ] 方差能够更好地度量数据的分布情况,但由于单位是原数据单位的平方,直接解释上可能不如标准差直观。

  9. 四分位数(Quartiles): 四分位数将数据分为四个部分,分别是:

    • 第一四分位数(Q1):25%的数据点低于此值。
    • 第二四分位数(Q2):中位数,50%的数据点低于此值。
    • 第三四分位数(Q3):75%的数据点低于此值。
  10. 四分位距(Interquartile Range, IQR): 四分位距是第三四分位数(Q3)和第一四分位数(Q1)之间的差值,计算公式为: [ \text{四分位距} = Q3 - Q1 ] 四分位距用于衡量数据的集中程度和离散程度,是一种抗干扰的离散度量。

  11. 绝对离差中位数(Median Absolute Deviation, MAD): 绝对离差中位数是数据点与中位数之间绝对差值的中位数,用于度量数据的离散程度。计算公式为: [ \text{绝对离差中位数} = \text{median}(|x_i - \text{median}(x)|) ]

  12. 变异系数(Coefficient of Variation, CV): 变异系数是标准差与均值的比率,用于比较不同数据集的相对变异性。计算公式为: [ \text{变异系数} = \frac{\text{标准差}}{\text{均值}} ] 变异系数适用于不同均值的数据集比较变异程度。

  13. 偏度(Skewness)峰度(Kurtosis)标准化 版本:

    • 标准化偏度(Standardized Skewness):偏度除以其标准误差。
    • 标准化峰度(Standardized Kurtosis):峰度除以其标准误差。
  14. 相关系数(Correlation Coefficient): 相关系数用于度量两个变量之间的线性关系强度,常见的有皮尔逊相关系数(Pearson Correlation Coefficient): [ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}} ]

  15. 回归系数(Regression Coefficients): 在回归分析中,用于量化自变量对因变量的影响程度。例如,在简单线性回归中,回归系数 ( \beta ) 表示自变量每变化一个单位时因变量的变化量。

K-means++聚类算法

原理:

 参考文献:基于K-means算法的病种成本聚类分析及精细化管理探究  刘嘉慧  张萍凶  曹瑾音
  张芷菁

灰色关联度分析

各品种的综合评价主要根据灰色系统理论原理进行分析,计算步骤:

1.无量纲化处理,计算公式如下:

2.求最大值和最小值:计算无量纲化后的参数与参考树种数列差数的绝对值,求出各指标的最大值和最小值。

3.计算关联度系数:

4.计算等权关联度:

5.计算权重系数: 

6.求灰色评判值Gt:根据Gt值评价各树种综合表现,计算公式如下:

参考文献:基于灰色关联分析法的7种耐盐绿化树种综合评价 黄婷  左忠范  金鑫

  • 22
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值