量化数据分析课程期末复习

最新推荐文章于 2024-09-14 15:57:25 发布

Magical Token

最新推荐文章于 2024-09-14 15:57:25 发布

阅读量242

点赞数

文章标签：数据分析 r语言数据挖掘

本文链接：https://blog.csdn.net/weixin_43850793/article/details/128141539

版权

量化数据期末复习

首先是QDA

QDA是什么，顾名思义是对数据的量化分析

QDA使用什么使用R语言和Rstudio作为实验环境

QDA这一门课中较为重要的是什么是对数据的讨论、分析、描述

假设检验：预设假设 $H_{0}$ 是一个预计会被拒绝的假设备则假设是 $H_{1}$

什么是箱型图？它有什么特点？有什么作用和用途？

箱型图是一个描述一组同类型数据分布范围的图，它包含如下几个要素：数据的上下限，数据的上下四分位，数据的中位数。

什么是柱形图？它有什么特点？有什么作用和用途？

柱形图是一个描述具有某一同一属性的数据分布的图，它包含如下要素：频数/频率（通常作为Y轴），具有统一属性的变量，比如同一个食堂卖出的包子数，不同的食堂构成不同的柱，频数/频率（包子数）构成了对应柱的高度。这些图像共同构成了柱形图。

常见统计量：方差、标准差、期望（均值）、中位数（屌丝）、四分位数（屌丝）

总体标准差 $\sigma = \sqrt{\Sigma(x - \bar{x})^2/n}$

样本标准差 $\sigma = \sqrt{\Sigma(x - \bar{x})^2/(n-1)}$ 注意这里的自由度问题

方差标准差的平方

协方差 $E[(X-\mu)(Y-\nu)]$

Pearson相关性检验是什么？它有什么主要参数？分别具有什么含义？

顾名思义这个检验是用于测试两组抽样的抽样结果是否具有相关性的检验方法。它的主要参数是相关系数r，和r对应的p值。从定义来说 $\frac{Cov(X,Y)}{Sd_X * Sd_Y}$ .P这个量代表了显著性程度，通常来说p<0.05即有理由认为两组抽样结果具有相关性关系。r的正负性代表相关性的正或者负。

线性回归：QDA这一门课的回归是最简单的线性回归和多元线性回归，所有的模型都是线性的。

相关系数r是Pearson检验中的东西

相关指数R表示两个变量之间协方差的比例： $R^2 = 1 - \frac{SSR}{SST}$

SSR SST 和SSW分别是什么

$\Sigma(Y_{i} - Mean_{Y})^2$ Total Sum of Squares 这个值是样本值和样本期望差值的平方

$\Sigma(Y_{i} - Prediction_{Y})^2$ Residual Sum of Squares 这个值是残差的平方和

$S S M = S S T - S S R$ Model Sum of Squares

$R^2 = \frac{SSM}{SST}$

F检测用于得到R^2的p值，这个东西根t检验得到t值对应的p值是否类似？

$R^2$ 反映预测值与样本均值的差与样本的离散程度的系数

看 $R^2$ 的表达式，预测值越准确，这玩意越接近1 确实反映的是拟合程度的好与坏

F检验的自由度-2

在做回归分析报告时要报告对应 $f i t t i n g f u n c t i o n, f a c t o r s o f t h e f u n c t i o n 例如斜率和截距$
$不同系数 f a c t o r s 对应的值 t 检验的值（拟合是否准确要做拟合曲线和取样点的 t 检验）自由度和对应 P 值$

每个组（model）内的自由度-2

每个组间的自由度-1

t检验是一个用于检测样本和总体（两个组）是否具有显著性差异的检验它比较的对象是期望

t检验的 $H_0$ 是样本和总体的期望并没有显著差异 $H_1$ 是 $H_0$ 的反面

t检验分为单样本独立t检验和成对t检验，其差别在与，成对t检验的数据在顺序上是有逻辑联系的，但是独立t检验是无逻辑联系的，例如：

id	1	2	3	4	5
sampling1	123	321	231	123	124
sampling2	124	325	233	121	123

成对t检验会按序号1，2，3，4，5成对的比较这其中的差异但是独立t检验不会。双样本t检验需要有一个预设的影响来影响pre和post两组，其逻辑联系是pre经过干预变成了post，这个双样本t检验用来检测pre和post是和否存在显著性关系。

置信区间：置信区间是通过样本去推测整体期望在多少概率下存在的区间。比如通过单次抽样推测样本总体期望在95%的概率下存在的区间。因为全部都抽样分布都可以被抽象为t分布，所以根据对应t值，自由度，样本期望以及p（显著性水平）可以唯一的确定这个反推出的抽样分布。从而根据样本推测这个反推出的总体的期望分布区间。

t检验和噪音问题：由于t检验测试的是样本和总体之间是否具有显著性差异。这个思想和信噪比的计算一直，可以参照这一篇引文：https://zhuanlan.zhihu.com/p/43039362

什么是一类错误什么事二类错误？

第一类错误： $H_{0}$ 为真时拒绝 $H_{0}$ 例如原本u_1和总体样本相差极小但是由于抽样结果的随机性（脸黑）抽了一个极端值导致H_0被拒绝【这里课件中提到了噪音，我认为Justin理解噪音即引入的小概率事件，他通过自己早已经用信噪比的思想去理解这个问题但是他没有多提这个东西】

第二类错误： $H_{0}$ 为假时接受 $H_{0}$ $H_{1}$ 和 $H_{0}$ 对应的不同样本接受和拒绝域也不同，两者的拒绝和接受域有重复这种重复导致一种样本中极端情况导致
接受另一个假设。

最后是方差分析anova

anova是应用于分析3组和3组以上的数据之间是否存在显著性关系的统计学方法，不然会做 $C^2_n$ 次t检验，不仅很笨而去可能会犯第一类错误。

anova的 $H_0$ 是不同组别的数据没有显著相关性 $H_1$ 是反过来

费希尔准则（Fisher’s criterion），选择综合判别变量或投影方向，使得各类的点尽可能分别集中，而类与类尽可能分离的原则。即达到类内离差最小、类间离差最大.这个条件在课件中是P=0.05

anova并不能具体告诉我们显著性差异从哪里来，但是可以告诉我们显著性差异是否存在，它的零假设是不同组别样本的数学期望并不存在差别。

F值：F值是可以被我们模型所解释的方差和不能被解释的方差之比。

$S S R = S S T - S S M$

SST的自由度: N-1

SSM的自由度: 组数-1

SSR的自由度: N - 组数

所以 $\frac{SSM}{SSR}$

单样本独立Anova的假设：
观测是独立的
数据是区间或者比例（Data is interval or ratio）
数据呈正态分布（夏皮罗检测）
数据具有方差齐性（莱文检测）

单样本重复Anova的假设：
数据是区间或者比例（Data is interval or ratio）
不同条件之间的额差异服从正态分布
数据是复对称的（Sphericity - compound symmetry）(球型检验 ——Mauchly’s sphericity test) 【https://blog.csdn.net/qq_41989587/article/details/82351591】

anova需要汇报的统计量：
F值，模型的自由度，残差的自由度，显著性或者P值

omnibus test:https://www.statology.org/omnibus-test/

post-hoc test:这个东西是应用于探索性分析的方法，通常它的对象没有一个准确的预测或者假设.它是一种类似t检测但是在P值上更为保守的带有修正的成对检测

post-hoc的选择：

LSD(Least Significant Difference):只是跑一个没有调整的t检测

Bonferroni corrected t-tests:这个方法会把我们正在运行的t检测的值除以0.05.它是一个十分保守的检测方法，可以很好的避免第一类错误但是比较容易犯第二类错误。

Tukey’s HSD：这个东西会基于样本大小进行调整，它并不是太保守

在一个带有post-hoc检验的anova汇报时要汇报 F（组数，自由度）= 值，和对应的p值，也要汇报采用了什么样的post-hoc检验方法。