Datawhale 数学建模导论国赛C学习笔记

最新推荐文章于 2024-08-25 02:26:33 发布

weixin_75033552

最新推荐文章于 2024-08-25 02:26:33 发布

阅读量917

点赞数 22

文章标签：数学建模学习笔记

本文链接：https://blog.csdn.net/weixin_75033552/article/details/141260712

版权

描述和分析数据的分布特征及其变化情况的统计指标

均值（Mean）：数据集中所有数值的算术平均数。计算方式是将所有数据值加总后除以数据的总数量。均值反映了数据的中心趋势。

[ \text{均值} = \frac{\sum_{i=1}^{n} x_i}{n} ]

其中，( x_i ) 是数据值，( n ) 是数据数量。
最大值（Maximum）：数据集中最大的数据值，用于描述数据的上界。
最小值（Minimum）：数据集中最小的数据值，用于描述数据的下界。
中位数（Median）：将数据按升序排列后位于中间位置的数值。如果数据数量是偶数，中位数是中间两个数值的平均值。中位数表示数据的中位点，能够有效反映数据的中心趋势，尤其在数据分布不对称时更为稳健。
标准差（Standard Deviation）：度量数据值相对于均值的分散程度。标准差越大，数据的离散程度越高。计算公式为：

[ \text{标准差} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n}} ]

其中，( \bar{x} ) 是均值，( x_i ) 是数据值，( n ) 是数据数量。
偏度系数（Skewness）：描述数据分布的对称性。偏度为零表示数据分布对称，正偏度表示数据分布右侧有较长尾部，负偏度表示数据分布左侧有较长尾部。计算公式为：

[ \text{偏度} = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^3}{\left(\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2\right)^{3/2}} ]
峰度系数（Kurtosis）：衡量数据分布的尖峭程度或峰态。高峰度表明数据在均值附近集中较多，低峰度则表示数据分布较平坦。计算公式为：

[ \text{峰度} = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^4}{\left(\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2\right)^2} - 3 ]

其中，减去3是为了使正态分布的峰度为零。
方差（Variance）：方差是标准差的平方，表示数据值相对于均值的离散程度。计算公式为： [ \text{方差} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n} ] 方差能够更好地度量数据的分布情况，但由于单位是原数据单位的平方，直接解释上可能不如标准差直观。
四分位数（Quartiles）：四分位数将数据分为四个部分，分别是：
- 第一四分位数（Q1）：25%的数据点低于此值。
- 第二四分位数（Q2）：中位数，50%的数据点低于此值。
- 第三四分位数（Q3）：75%的数据点低于此值。
四分位距（Interquartile Range, IQR）：四分位距是第三四分位数（Q3）和第一四分位数（Q1）之间的差值，计算公式为： [ \text{四分位距} = Q3 - Q1 ] 四分位距用于衡量数据的集中程度和离散程度，是一种抗干扰的离散度量。
绝对离差中位数（Median Absolute Deviation, MAD）：绝对离差中位数是数据点与中位数之间绝对差值的中位数，用于度量数据的离散程度。计算公式为： [ \text{绝对离差中位数} = \text{median}(|x_i - \text{median}(x)|) ]
变异系数（Coefficient of Variation, CV）：变异系数是标准差与均值的比率，用于比较不同数据集的相对变异性。计算公式为： [ \text{变异系数} = \frac{\text{标准差}}{\text{均值}} ] 变异系数适用于不同均值的数据集比较变异程度。
偏度（Skewness） 和 峰度（Kurtosis） 的 标准化 版本：
- 标准化偏度（Standardized Skewness）：偏度除以其标准误差。
- 标准化峰度（Standardized Kurtosis）：峰度除以其标准误差。
相关系数（Correlation Coefficient）：相关系数用于度量两个变量之间的线性关系强度，常见的有皮尔逊相关系数（Pearson Correlation Coefficient）： [ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}} ]
回归系数（Regression Coefficients）：在回归分析中，用于量化自变量对因变量的影响程度。例如，在简单线性回归中，回归系数 ( \beta ) 表示自变量每变化一个单位时因变量的变化量。

K-means++聚类算法

原理：

参考文献：基于K-means算法的病种成本聚类分析及精细化管理探究刘嘉慧张萍凶曹瑾音
张芷菁

灰色关联度分析

各品种的综合评价主要根据灰色系统理论原理进行分析，计算步骤：

1.无量纲化处理，计算公式如下：

2.求最大值和最小值：计算无量纲化后的参数与参考树种数列差数的绝对值，求出各指标的最大值和最小值。

3.计算关联度系数：

4.计算等权关联度：

5.计算权重系数：

6.求灰色评判值Gt：根据Gt值评价各树种综合表现，计算公式如下：

参考文献：基于灰色关联分析法的7种耐盐绿化树种综合评价黄婷左忠范金鑫

weixin_75033552

关注

22
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Datawhale 数学建模导论国赛C学习笔记

数据集中所有数值的算术平均数。计算方式是将所有数据值加总后除以数据的总数量。均值反映了数据的中心趋势。[ \text{均值} = \frac{\sum_{i=1}^{n} x_i}{n} ]其中，( x_i ) 是数据值，( n ) 是数据数量。：数据集中最大的数据值，用于描述数据的上界。：数据集中最小的数据值，用于描述数据的下界。：将数据按升序排列后位于中间位置的数值。如果数据数量是偶数，中位数是中间两个数值的平均值。
复制链接

扫一扫