统计学期末复习整理

统计学:描述统计学和推断统计学。计量尺度:定类尺度、定序尺度、定距尺度、定比尺度。
描述统计中的测度: 1.数据分布的集中趋势 2.数据分布的离散程度 3.数据分布的形状。
离散系数 也称为标准差系数,通常是用一组数据的标准差与其平均数之比计算 C . V . = s x ‾ C.V.=\frac{s}{\overline{x}} C.V.=xs
离散系数的作用主要用于比较不同总体或样本数据的离散程度,越小说明数据离散程度小。
四种概率抽样方法
1.简单随机抽样 :从含有 N N N个元素的总体中,抽取 n n n个元素作为样本,使得每一个容量为 n n n的样本都拥有相同的概率被抽中。分为重复抽样和不重复抽样两种方法。2.分层抽样 :在抽样之前先将总体的元素划分为若干层,然后从各个层中抽取一定数量的元素组成一个样本。在分层时,应使层内各元素差异尽量小,层与层之间差异尽可能大。采取分层抽样时,为了保持样本结构与总体结构相同,通常采用按比例抽样,按各层元素数占总体元素数的比例从中抽取样本。3.系统抽样:先将总体中元素按某种顺序排列,并按某种规则确定一个随机起点,然后每隔一定的间隔抽取一个元素,直至抽取 n n n个元素形成一个样本,又称等距抽样或机械抽样。4.整群抽样:在抽样之前先将总体的元素划分为若干群,然后以群作为抽样单位从中抽取部分群,再对抽中的各个群所包含的元素进行观察。
中心极限定理设从均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的任意一个总体中抽取容量为 n n n的随机样本,则当 n n n充分大时,样本均值 x ‾ \overline{x} x的抽样分布近似服从均值为 μ \mu μ,方差为 σ 2 / n \sigma^2/n σ2/n的正态分布。
点估计的评价准则
无偏性:样本估计量的数学期望应等于被估计总体参数的真值。对于总体的一个未知参数可以有不同的无偏估计量。有效性:令 θ 1 ^ 和 θ 2 ^ \hat{\theta_1}和\hat{\theta_2} θ1^θ2^是总体未知参数 θ \theta θ的两个无偏估计量,所谓有效性是指样本容量 n n n相同的情况下 θ 1 ^ \hat{\theta_1} θ1^对应的观测值较 θ 2 ^ \hat{\theta_2} θ2^对应的观测值更为集中于 θ \theta θ的真值附近,即 D ( θ 1 ^ ) < D ( θ 2 ^ ) D(\hat{\theta_1})<D(\hat{\theta_2}) D(θ1^)<D(θ2^),则称 θ 1 ^ \hat{\theta_1} θ1^是较 θ 2 ^ \hat{\theta_2} θ2^有效的估计量。一致性:当样本容量增大,即当 n n n趋近于无穷大的时候,要求 θ ^ \hat{\theta} θ^依概率收敛于 θ ^ \hat{\theta} θ^,即 lim ⁡ n → + ∞ P ( ∣ θ ^ − θ ∣ < ξ ) = 1 ( ξ 为任意小的正数 ) \lim_{n \to +\infty}P(|\hat{\theta}-\theta|<\xi)=1(\xi为任意小的正数) limn+P(θ^θ<ξ)=1(ξ为任意小的正数)
区间估计 :区间估计是在点估计的基础上,根据给定的置信度估计总体参数取值范围的方法。影响因素有数据离散度、样本容量、置信水平。
在区间估计中,由样本统计量所构成的总体参数的估计区间称为置信区间,区间最小值称为置信下界,区间最大值称为置信上界。一般的将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。
区间估计的步骤
(1)确定置信水平 ( 1 − α ) (1-\alpha) (1α),然后查表确定其 z α / 2 z_{\alpha/2} zα/2值。(2)计算样本的均值 x ‾ \overline{x} x和标准差 σ x ‾ \sigma_{\overline{x}} σx。(3)确定置信区间: x ‾ ± z α / 2 ∗ σ x ‾ \overline{x}\pm z_{\alpha/2}*\sigma_{\overline{x}} x±zα/2σx。在相同置信水平下, n n n较大时,置信区间较短,区间估计精度较高。
(1)总体服从正态分布且总体方差 σ 2 \sigma ^2 σ2已知时,样本均值 x ‾ \overline{x} x的抽样分布均为正态分布,数学期望为总体均值 μ \mu μ,方差为 σ 2 n \frac{\sigma ^2}{n} nσ2,总体均值 μ \mu μ的置信区间: x ‾ ± z α / 2 ∗ σ n \overline{x} \pm z_{\alpha/2}*\frac{\sigma}{\sqrt{n}} x±zα/2n σ
总体比例的区间估计
在大样本情况下,用样本比例 p p p来代替 π \pi π,这时总体比例 π \pi π的置信区间为 p ± z α / 2 p ( 1 − p ) / n p\pm z_{\alpha /2}\sqrt{p(1-p)/n} p±zα/2p(1p)/n
假设检验的原理:假设检验也成为显著性检验,是事先作出一个关于总体参数的假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定应接受或否定原假设的统计推断方法。
对总体作出的统计假设进行检验的方法依据是概率论中的"在一次试验中小概率事件几乎不发生"原理。
假设检验的步骤
(1)根据问题要求提出原假设 H 0 H_0 H0和备择假设 H 1 H_1 H1。(2)确定适当的检验统计量(根据中心极限定理)及相应的抽样分布。(3)选取显著性水平 α \alpha α,确定原假设 H 0 H_0 H0的接受域和拒绝域。
显著性水平表示原假设 H 0 H_0 H0为真时拒绝 H 0 H_0 H0的概率,即拒绝原假设所冒的风险。(4)计算检验统计量的值。(5)作出统计决策。
假设检验中的两类错误
第一类错误:原假设 H 0 H_0 H0为真,但作出拒绝原假设的判断,也称弃真错误。
犯此类错误的概率用 α \alpha α表示,所以也称 α \alpha α错误, P ( 拒绝 H 0 ∣ H 0 为真 ) = α P(拒绝H_0|H_0为真)=\alpha P(拒绝H0H0为真)=α
第二类错误:原假设 H 0 H_0 H0为假,但作出接受原假设的判断。
犯此类错误的概率用 β \beta β表示,所以也称 β \beta β错误, P ( 接受 H 0 ∣ H 0 为假 ) = β P(接受H_0|H_0为假)=\beta P(接受H0H0为假)=β
假设检验中的P值
P值的含义: P值是指在原假设 H 0 H_0 H0为真时,样本统计量落在其观测值以外的概率,即表示在实际原假设为真的情况下,拒绝 H 0 H_0 H0犯错误的概率,也成为观测到的显著性水平或相关概率值。
P值和假设检验中的显著性水平的区别: P值有效的补充了 α \alpha α提供的关于检验结果可靠性的有限信息,利用统计量根据显著性水平 α \alpha α作出决策,如果拒绝原假设,也仅仅知道决策犯错误的概率,而P值则是犯错误的实际概率。
第十章 卡方 χ 2 \chi^2 χ2分布与拟合优度检验
1. χ 2 \chi^2 χ2统计量与分布: χ 2 = ∑ ( f 0 − f e ) 2 f e \chi^2=\sum\frac{(f_0-f_e)^2}{f_e} χ2=fe(f0fe)2, f 0 f_0 f0为某一类别的观测值频数, f e f_e fe为某一类别的期望值频数(建立在原假设 H 0 H_0 H0成立的前提下)
2. χ 2 \chi^2 χ2分布特征:② χ 2 \chi^2 χ2分布与自由度有关,自由度越小,越向左边倾斜,随着自由度的增加, χ 2 \chi^2 χ2分布将逐步趋近于对称,即正态分布。(一般认为 n n n>45)③数据呈右偏分布。 χ 2 \chi^2 χ2检验一般是单侧检验,其尾部为拒绝域,由显著性水平 α \alpha α决定。
拟合优度检验
1.概念:用于检验原假设 H 0 H_0 H0是否正确,而该原假设 H 0 H_0 H0通常表述为一个随机变量的总体分布服从一个特定的形式。拟合优度检验是检验随机样本的总体分布与某种特定分布拟合的程度,也就是检验观测值与理论值之间的接近程度(在一定的显著性水平上)。
2.自由度的确定: d f = k − m − 1 df=k-m-1 df=km1 k k k为数据类别的个数, m m m为样本数据中估计的参数个数。
例10.2某公司工资数据如下:工资段 20 − 30 , 30 − 40 , 40 − 50 , 50 − 60 , 60 − 70 , 70 − 80 , 80 − 90 20-30,30-40,40-50,50-60,60-70,70-80,80-90 2030,3040,4050,5060,6070,7080,8090分别有 5 , 21 , 40 , 45 , 30 , 17 , 7 5,21,40,45,30,17,7 5,21,40,45,30,17,7人。试检验工资的分布是否服从均值为 55.03 55.03 55.03,标准差为 13.56 13.56 13.56的正态分布( α = 0.01 \alpha=0.01 α=0.01).。
第一步,计算期望值频数 f e f_e fe
(1)计算Z值,选择40-50区间为例计算。
Z 1 = X − μ σ = 40 − 55.03 13.56 = − 1.11 , Z 2 = 50 − 55.03 13.56 = − 0.37 Z_1=\frac{X-\mu}{\sigma}=\frac{40-55.03}{13.56}=-1.11,Z_2=\frac{50-55.03}{13.56}=-0.37 Z1=σXμ=13.564055.03=1.11,Z2=13.565055.03=0.37
由Z值的几何意义,我们知道-1.11,-0.37是数据偏离均值55.03的程度。
(2)求标准正态分布下-1.11~-0.37之间正态分布曲线下的面积,求得为0.2222。
(3)期望值频数 f e f_e fe=165*0.2222=36.663.。
第二步, χ 2 \chi^2 χ2检验
(1) H 0 H_0 H0:总体服从正态分布, H 1 H_1 H1总体不服从正态分布
(2)查表得 χ 2 ( α = 0.01 , d f = 4 ) = 13.277 \chi^2(\alpha=0.01,df=4)=13.277 χ2(α=0.01,df=4)=13.277
(3)计算 χ 2 \chi^2 χ2统计量
(4)因为 χ 2 \chi^2 χ2=3.942102 < < < 13.277,没落在拒绝域内,所以接受原假设,即认为工资数据的分布是服从正态分布的。
相关与回归分析的关系?
答:联系:先进行相关分析再进行回归分析,只有在确定两变量存在着相关分析后,才能分析两变量的回归分析。两变量间的相关程度越大,研究回归才更有意义。通过相关分析,可以大致判断现象与现象之间配合什么数学模型建立回归方程(4分)。
区别:分析的目的不同,相关分析主要分析变量之间有无关系,有多大程度的关系;回归分析用于构建有联系的变量间的回归模型,用于推理变量之间的因果关系。相关分析的两个或两个以上的变量是随机变量。回归分析中的自变量是确定性的变量。(4分)
回归分析:
缺点:样本容量 n n n较小时,仅凭相关系数较大还不足以说明变量有密切关系,当 n n n较大时,相关系数绝对值容易偏小。
回归平方和 S S R = ∑ ( y ^ − y ‾ ) 2 SSR=\sum{(\hat{y}-\overline{y})^2} SSR=(y^y)2,残差平方和 S S E = ∑ ( y i − y ^ ) 2 SSE=\sum{(y_i-\hat{y})^2} SSE=(yiy^)2,总离差平方和 S S T = S S R + S S E SST=SSR+SSE SST=SSR+SSE
最小二乘法: 原理:使观测值与估计值的离差平方和最小。 y y y的估计值 y ^ = b 0 + b 1 x \hat{y}=b_0+b_1x y^=b0+b1x
b 1 = n ∑ x y − ∑ x ∑ y n ∑ x 2 − ( ∑ x ) 2 , b 0 = y ‾ − b 1 x ‾ b_1=\frac{n\sum{xy-\sum{x}\sum{y}}}{n\sum{x^2}-(\sum{x})^2},b_0=\overline{y}-b_1\overline{x} b1=nx2(x)2nxyxy,b0=yb1x
多元线性回归的显著性检验
提假设: H 0 : β 1 = β 2 = ⋯ = β m = 0 , H 1 : H_0:\beta_1=\beta_2=\cdots=\beta_m=0,H_1: H0:β1=β2==βm=0,H1:至少一个回归系数不等于0。
计算统计量 F = S S R / m S S E / n − m − 1 F=\frac{SSR/m}{SSE/n-m-1} F=SSE/nm1SSR/m,确定显著性水平和自由度为(m,n-m-1),找临界值 F α F_{\alpha} Fα。若 F > F α F>F_{\alpha} F>Fα,拒绝 H 0 H_0 H0,否则接受并说明所有自变量联合起来对因变量有显著影响。
回归系数的显著性检验
H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0(自变量 x i x_i xi与因变量没有线性关系)
确定 t t t检验的统计量和显著性水平,若 ∣ t ∣ > t α / 2 |t|>t_{\alpha/2} t>tα/2,拒绝 H 0 H_0 H0,否则接受。
或者根据给定的P值与方差分析表中的P1值比较,若P1<P则说明该回归系数显著。
方差分析表 : ①m—SSR–SSR/m②n-m-1—SSE—SSE/(n-m-1)
第十二章 时间序列分析
Q:什么是时间序列,有哪些分类? A:时间序列是指一个变量的观测值按照时间顺序排列而成的序列,它反映了现象动态变化的过程和特点,是研究事物发展趋势、规律以及进行预测的依据。分为绝对数、相对数、平均数时间序列。
Q:时间序列的组成因素及其模型? A:组成因素:长期趋势,季节波动,循环波动,不规则波动。
乘法模型是假设时间序列各个构成部分对序列的影响均按照比例变化,加法模型是假设这四种因素对时间序列的影响是可加的。
Q:对时间序列进行平滑以描述其趋势的方法有哪些? A:移动平均法是采用逐项递移的方法分别计算一系列移动的序时平均数,形成一个新的派生序时平均数时间序列。指数平滑法通过对历史时间数列进行逐层平滑计算,从而消除随机因素的影响,识别现象基本变化趋势,并以此来预测未来。
Q:常用时间序列预测方法? 移动平均预测法、指数平滑预测法、线性趋势预测法、自回归预测模型、季节因素分析预测法。
有趋势序列的最小二乘法预测模型:
1.线性趋势模型 Y t ^ = a + b t \hat{Y_t}=a+bt Yt^=a+bt t t t是时间标号
2.二次曲线趋势模型 Y t ^ = a + b t + c t 2 \hat{Y_t}=a+bt+ct^2 Yt^=a+bt+ct2
有趋势序列的自回归预测模型:
n n n阶自回归模型: Y t ^ = A 0 + A 1 Y t − 1 + A 2 Y t − 2 + ⋯ + A n Y t − n \hat{Y_t}=A_0+A_1Y_{t-1}+A_2Y_{t-2}+\cdots+A_nY_{t-n} Yt^=A0+A1Yt1+A2Yt2++AnYtn
步骤:①确实最大滞后值 n n n,自由度 t − 2 n − 1 t-2n-1 t2n1。②利用表确定自回归方程和临界值③计算检验统计量 t = a n − A n S a n t=\frac{a_n-A_n}{S_{a_n}} t=SananAn/如果不拒绝原假设,那么第 n n n个变量被舍弃,重复该步骤。
什么是因子分析 :因子分析是用少量集成后的互不相关的因子变量去解释大量统计变量的一种统计方法,这种方法能以较少的因子变量和最小的信息损失来解释变量之间的结构。
因子分析的步骤 :①根据具体问题,判断待分析的若干原始变量是否适合作因子分析,并采用某些检验方法来判断数据是否符合分析要求②选择提取公因子的方法,并按一定标准确定提取公因子的数目③考察公因子的可解释性,并在必要时进行因子旋转,以寻求最佳的解释方式④计算出因子得分等中间指标,进一步分析使用。
巴特利特球度检验、反映象相关矩阵检验、KMO检验。
什么是方差分析,基本思想和原理: 方差分析就是针对一定因素分析总体的各个因素水平是否有差异。通过对因素水平间方差与因素水平内方差的比较,当这两个方差的比值较小时,方差分析的结果可以认为总体均值相同,否则认为不同。
方差分析中的基本假定 方差分析的前提条件是讨论的总体服从正态分布,其各个总体的方差相等,并且选择的样本是相互独立的。
什么是聚类分析,作用是什么 : 聚类分析主要用于辨别具有相似性的事物,并根据彼此不同的特性加以聚类,使同一类事物具有高度的相似性,不同类事物具有较大的差异性。聚类分析能够从现有的样本数据出发,按照他们的亲疏程度分成若干类,并通过变量与变量的连接状况,揭示在同一类别中不同变量或样本的亲疏程度。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 成都理工大学MOOC统计学期末考试是一项重要的考试,考察了我们对统计学概念的理解以及实际应用能力。考试内容包括单因素方差分析、回归分析、假设检验等多个方面,要求我们深入理解各种统计学概念并学会灵活应用。 考试过程相对比较严谨,时间限制比较紧,考生需要在规定时间内解答出题人出的各种问题。需要注意的是平时的好好学习才是成绩提高的根本,只有在平时能够理解记忆统计学概念,积极思考统计学实践能力,才能够在考试中有高效率的表现。 总而言之,成都理工大学MOOC统计学期末考试是一项重要考试,需要我们学习掌握基础知识并在平时多加练习,只有这样才能在考试中取得更好的成绩。 ### 回答2: 成都理工大学开设了一门在线课程统计学,课程采用了MOOC的形式,吸引了大量的学生报名学习,并于期末开设了考试。 统计学是一门讲究推理和证明的学科,需要掌握一定的数学知识,因此考试难度相对较高。该考试总分为100分,考试时间为120分钟,包括多项选择题、填空题、简答题和计算题等多种形式。题目难度逐渐增大,涵盖了课程的重点、难点知识。例如,让学生掌握概率与统计的基本概念、理解与运用正态分布、知晓方差分析的计算方法等等。 考试采用了在线方式,监考人员通过监控摄像头对考场进行实时监控,保证了考试的公平性和诚信性。考试结果将于一周内公布,学生可以登录平台查看自己的成绩和详细的试卷反馈。 通过本次考试,学生不仅在知识上得到了提升,也锻炼了自己的学习能力和自律能力。MOOC教育的平台优势和灵活性,吸引了更多的学生参与,为他们的学习和未来的发展提供了更多的选择和机会。 ### 回答3: 作为一个AI机器人,我没有实际参加过成都理工大学mooc统计学期末考试,但我可以给您一些理论上的建议。 首先,在考试前您需要做好细致的复习。MOOC课程通常需要您自主学习,因此您需要保证您已经掌握了课程中所学知识,并且练习过相应的习题。您还可以参考其他辅助学习资料,如教材、习题集、视频教程等等,以便更好地了解统计学的基础知识和方法。 其次,在考试时,您需要细心认真地阅读试题,包括题目、选项、要求和限制等相关信息。您应该按照题目所要求的格式和方法进行计算和推导,特别是对于概率计算、假设检验和回归分析等方面,需要按照特定的公式和步骤进行操作,以确保准确无误。同时,您还应该留出一定的时间进行检查和修改,以确保答案的准确性和完整性。 最后,在考试后,您需要及时复盘。复盘不仅可以让您巩固知识,发现错误和不足之处,还可以为下一次考试提供更好的备考经验。您可以和同学交流讨论,寻求更好的解决方法,也可以咨询老师或者在线辅导,在不断学习和实践的过程中提高自己的统计学水平。 综上所述,成都理工大学mooc统计学期末考试需要您对课程内容进行充分的学习和思考,具备严密的逻辑和分析能力,及时调整自己的学习策略和方法,不断提高自己的学习效率和表现水平。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值