数据分析之数理统计常见问题:
1、中心极限定理? 大数定律?
大量随机变量近似服从正态分布。 随机变量的算术平均值向其数学期望的算术平均值收敛。
2、置信区间是什么?
在某一置信水平下,样本统计值与总体参数值之间的误差区间。置信区间展示的是参数的真实值有一定概率落在测量结果周围的程度。
95%置信区间指的是某个总体参数的真实值有95%的概率会落在测量结果的区间内。
3、什么是置信度a?
置信度:置信区间的估计可靠性。 下例中,95%就是置信度,58%-62%就是置信区间。
4、什么是单因素方差分析?
用于比较两个或多个组之间的均值是否存在显著差异。主要用于分析一个因素(自变量)对于因变量的影响,其中自变量有多个水平。
5、T检验和Z检验有什么差异?
T检验用于比较两个样本均值是否存在显著差异。适用于小样本且总体方差未知的情况。使用T分布理论来推奥差异发生的概率。
Z检验用于比较两个样本之间是否差异显著。适用于大样本 且总体方差已知的情况。并且使用标准正态分布的理论来推断差异发生的概率。
6、F检验是什么?有什么用途?
F检验是在一种零假设之下,统计值服从F-分布的检验。核心就是利用F分布,通过计算两个方差之间的比值,判断差异是否显著。
7、什么是统计功效Power?
统计功效(Power)是指在假设检验中,拒绝原假设(H0)的能力,即当原假设为假时,正确地拒绝原假设的概率。统计功效通常用 1−β 表示,其中 β 是二类错误的概率。
8、双样本T检验和配对样本T检验的差别?
双样本 T 检验:用于比较两个独立样本的均值是否存在显著差异。数据来自不同的总体。示例:比较两种药物对不同患者群体的效果。
配对样本 T 检验:用于比较配对样本(同一对象的两个状态或时间点)的均值差异。两个样本是成对的,数据之间存在关联性。示例:比较患者服药前后的血压。
9、假设检验和置信区间的关系?
假设检验是二分法(拒绝原假设或不拒绝),而置信区间提供了参数估计的范围。
10、描述一下一类错误和二类错误的差异?
一类错误:错误地拒绝了真实的原假设 H0。发生概率:α(显著性水平)。示例:误判某种无效药物为有效。二类错误:未能拒绝错误的原假设H0。发生概率:β。示例:未能识别某种有效药物为有效。
11、如何同时缩小一类错误和二类错误? 增加样本量、优化实验设计、选择合适检验方法。
12、一类错误和二类错误哪个更严重? 取决于实际问题的背景。一类错误可能导致错误的结论;而二类错误可能导致未能发现实际存在的效应而错过重要的发现。
13、单边检验和双边检验的区别是什么? 单边检验:检验效应是否仅在一个方向上。假设形式:,(备择假设总体参数是否大于或小于某个特定值,考虑方向性)适用于明确预期方向;双边检验:检验效应是否存在于两个方向中的任何一个(是否等于某个特定值,不考虑方向性)。