统计
文章平均质量分 70
煜岐
这个作者很懒,什么都没留下…
展开
-
箱线图(boxplot)
箱线图的原理介绍,在python中的绘制方法,在R语言中的绘制方法原创 2023-11-11 18:02:11 · 648 阅读 · 0 评论 -
数据降维(Data Dimensionality Reduction)
介绍了数据降维的概念原理和应用(PCA降维)原创 2023-11-10 20:52:21 · 321 阅读 · 0 评论 -
R语言-假设检验
R语言 假设检验原创 2022-05-02 23:05:09 · 6126 阅读 · 0 评论 -
一元线性回归(R语言)
目录一元线性回归一元线性回归建模的大致思路如下:1. 确定因变量与自变量之间的关系1.1 查看变量间有没有相关关系1.2计算相关系数1.3 检验相关系数2.建立模型,并对模型进行估计和检验2.1 回归模型的拟合2.2 计算回归系数的置信区间2.3 绘制拟合图3.利用回归方程进行预测3.1 利用回归方程进行预测3.2 绘制置信带和预测带3.3 计算 x0 = 500 时销售收入的点预测值、置信区间和预测区间4. 对回归模型进行诊断4.1 回归预测值(pre)、残差(res)、标准化残差(zre)4.2 检验线原创 2022-05-03 19:37:45 · 13122 阅读 · 2 评论 -
统计学的一些基本概念
统计学是关于数据的一门学问。所有收集而来的数据都需要经过整理、分析才能得出结论,这就是统计学利用数据解决实际问题的全过程。但是你会发现,同一个数据可以使用不同的方法进行分析进而得出不同的结论,不同的数据使用同一种方法进行分析也可以得出不同的结论。如天气预报,不同的预报机构其预报结果不尽相同。而且,由统计分析得出的结论往往还具有不确定性(uncertainty),因为其描述的往往是某件事发生的机会(opportunity),可以用概率(probability)来衡量。原创 2023-04-02 14:24:40 · 970 阅读 · 0 评论 -
python假设检验--一个总体参数的检验(比例)
一个总体比例z=p−π0(π0(1−π0)n)z = \frac{p-\pi_0}{\sqrt(\frac{\pi_0(1-\pi_0)}{n})}z=(nπ0(1−π0))p−π0例:一项统计结果生成,某市老年人口(65岁以上)所占比例为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中由57人年龄在65岁以上,调查记过是否支持该市老年人口比例为14.7%得看法(a=0.05)?假设:H0:π=14.7%H_0:\pi=14.7\%H0:π=1原创 2021-10-12 19:33:36 · 889 阅读 · 0 评论 -
python假设检验--两个总体参数的检验(均值,大样本)
公式z=(xˉ1−xˉ2)−(μ1−μ2)σ12n1+σ22n2z=\frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma^2_1}{n_1} + \frac{\sigma^2_2}{n_2}}}z=n1σ12+n2σ22(xˉ1−xˉ2)−(μ1−μ2)例:有两种方法可用于制造某种以抗拉强度为重要特征的产品。根据以往的资料得知,第一种方法生产出的产品抗啦强度的标准差为8千克,第二种方法的标准差为1原创 2021-10-12 19:33:14 · 1257 阅读 · 0 评论 -
python假设检验--两个总体参数的检验(均值,小样本)
方差未知,但相等t=(xˉ1−xˉ2)−(μ1−μ2)sp1n1+1n2∼t(n1+n2−2)t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\thicksim t(n_1+n_2-2)t=spn11+n21(xˉ1−xˉ2)−(μ1−μ2)∼t(n1+n2−2)sp=(n1−1)s12+(n2−1)s22n1+n2−2s_p=\sqrt{原创 2021-10-12 19:32:54 · 924 阅读 · 0 评论 -
python假设检验--两个总体参数的检验(比例)
两个总体比例相等的假设z=p1−p2p(1−p)(1n1+1n2)z = \frac{p_1 - p_2}{\sqrt{p(1-p)(\frac{1}{n_1}+\frac{1}{n_2})}}z=p(1−p)(n11+n21)p1−p2例:人们普遍认为麦当劳的主要消费群体试青少年,但对时长进一步细分却发现有不同的看法。一种观点认为小学生更喜欢麦当劳,另一种观点认为中学生对麦当劳的喜爱程度不亚于小学生。某市场调查公司对此在某地区进行了一项调查,随机抽取了100名小学生和100名中学生,原创 2021-10-12 19:32:10 · 1922 阅读 · 0 评论 -
python确定样本量(总体比例)
总体比例n=(za/2)2∙π(1−π)E2n=\frac{(z_{a/2})^2\bullet \pi(1-\pi)}{E^2}n=E2(za/2)2∙π(1−π) , E=ΔE = \DeltaE=Δ如果能够求出π\piπ的值,就可以用上面的公式计算所需的样本量。如果π\piπ的值不知道,可以用类似的样本比例来代替。当π\piπ的值无法知道时,通常取π(1−π)=0.25\pi(1-\pi)=0.25π(1−π)=0.25的最大值,π\piπ=0.5例:根据以往的生产原创 2021-10-12 19:31:19 · 2375 阅读 · 0 评论 -
python假设检验--一个总体参数的检验(方差)
方差检验公式χ2=(n−1)s2σ2\chi^2 = \frac{(n-1)s^2}{\sigma^2}χ2=σ2(n−1)s2例:某厂商生产出一种新型的饮料装瓶机器,按设计要求,该机器装一瓶1000ml的音量误差上下不超过1ml。如果达到设计要求,表明机器的稳定性非常好。现从该机器装完的产品中随机抽取25瓶,分别进行测定(用样本观测值分别减1000ml),得到如下:import pandas as pdimport numpy as npimport scipy as spfrom sc原创 2021-10-12 19:30:35 · 1225 阅读 · 0 评论 -
python假设检验--一个总体参数的检验(均值,小样本)
小样本t=xˉ−μ0s/nt= \frac{\bar{x}-\mu_0}{s/\sqrt{n}}t=s/nxˉ−μ0例:某机器制造出的肥皂厚度为5cm,今欲了解机器性能是否良好,随机抽取10快肥皂作为样本,测得平均厚度为5.3cm,标准差为0.3cm,试以0.05得显著性水平检验机器性能良好得假设假设:H0:μ=5H_0 : \mu=5H0:μ=5H1:μ≠5H_1 : \mu \neq 5H1:μ=5双侧检验import pandas as pdimport numpy a原创 2021-10-11 15:43:36 · 1567 阅读 · 0 评论 -
python假设检验--一个总体参数的检验(均值,大样本)
正态总体,标准差已知z=xˉ−μ0σ/nz=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}z=σ/nxˉ−μ0标准差未知,大样本z=xˉ−μ0s/nz=\frac{\bar{x}-\mu_0}{s/\sqrt{n}}z=s/nxˉ−μ0在总体标准差σ未知时,可以用样本标准差s代替例:双侧检验某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度渐近服从正态分布,其总体均值为0.081mm,今另换一种新机床进行加工,取200各零件进行检验,得到椭圆度均原创 2021-10-11 15:39:11 · 1383 阅读 · 0 评论 -
python两个总体参数的区间估计(比例之差)
比例之差(p1−p2)±za/2p1(1−p1)n1+p2(1−p2)n2(p_1-p_2)\pm z_{a/2}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}(p1−p2)±za/2n1p1(1−p1)+n2p2(1−p2)例:在某个电视节目的收视率调查中,从农村随机调查了400人,有32%的人收看了改节目,从城市随机调查了500人,有45%的人收看了该节目。试以95%的置信水平估计城市与农村收视率之差的置信区间。#原创 2021-10-11 15:32:38 · 991 阅读 · 0 评论 -
python两个总体参数的区间估计(方差比)
方差比s12/s22Fa/2≤σ12σ22≤s12/s22F1−a/2\frac{s^2_1/s^2_2}{F_{a/2}}\leq \frac{\sigma^2_1}{\sigma^2_2}\leq \frac{s^2_1/s^2_2}{F_{1-a/2}}Fa/2s12/s22≤σ22σ12≤F1−a/2s12/s22例:为研究男女学生在生活费支出上的差异,在某大学随机抽取25名男学生和25名女学生,得到下面的结果:男学生:xˉ1=520,s12=260\bar{x}_1=原创 2021-10-11 15:30:45 · 1014 阅读 · 0 评论 -
python两个总体参数的区间估计(均值之差,独立小样本)
独立小样本,σ12\sigma^2_1σ12 和 σ22\sigma^2_2σ22未知但相等(xˉ1−xˉ2)±ta/2(n1+n2−2)sp2(1n1+1n2)(\bar{x}_1-\bar{x}_2)\pm t_{a/2}(n_1+n_2-2)\sqrt{s^2_p(\frac{1}{n_1}+\frac{1}{n_2})}(xˉ1−xˉ2)±ta/2(n1+n2−2)sp2(n11+n21)sp2=(n1−1)s12+(n2−1)s22n1+n2−2s^2_p=\fra原创 2021-10-11 15:27:07 · 1209 阅读 · 0 评论 -
python两个总体参数的区间估计(均值之差,独立大样本)
独立大样本,σ12\sigma^2_1σ12 和 σ22\sigma^2_2σ22 已知(xˉ1−xˉ2)±za/2σ12n1+σ22n2(\bar{x}_1-\bar{x}_2)\pm z_{a/2}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}(xˉ1−xˉ2)±za/2n1σ12+n2σ22独立大样本,σ12\sigma^2_1σ12 和 σ22\sigma^2_2σ22 未知(xˉ1−xˉ2)±za/2s12原创 2021-10-11 15:20:23 · 657 阅读 · 0 评论 -
python两个总体参数的区间估计(均值之差,匹配样本)
匹配大样本公式:dˉ±za/2σdn\bar{d}\pm z_{a/2}\frac{\sigma_d}{\sqrt{n}}dˉ±za/2nσd匹配小样本公式dˉ±ta/2(n−1)sdn\bar{d}\pm t_{a/2}(n-1)\frac{s_d}{\sqrt{n}}dˉ±ta/2(n−1)nsddˉ\bar{d}dˉ表示各差值的均值σd\sigma_dσd 表示各差值的标准差当总体的σd\sigma_dσd未知时,可用样本差值的标准差sds_dsd来代替例原创 2021-10-11 15:17:22 · 1072 阅读 · 0 评论 -
python一个总体参数的区间估计(总体比例)
总体比例公式:p±za/2p(1−p)np \pm z_{a/2} \sqrt{\frac{p(1-p)}{n}}p±za/2np(1−p)例:某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女职工,试以95%的置信水平估计该城市下岗职工中女性比例的置信区间。import pandas as pdimport numpy as npimport scipy as spfrom scipy import stats# 样本量 n=100n = 10原创 2021-10-11 15:12:55 · 935 阅读 · 0 评论 -
python一个总体参数的区间估计(总体方差)
总体方差公式:(n−1)s2χa/22≤σ2≤(n−1)s2χ1−a/22\frac{(n-1)s^2}{\chi^2_{a/2}}\leq \sigma^2 \leq \frac{(n-1)s^2}{\chi^2_{1-a/2}}χa/22(n−1)s2≤σ2≤χ1−a/22(n−1)s2例:一家食品生产企业以生产袋装食品为主,每天的唱片大约为8000袋。按规定每袋的重量应为100克。为对产品重量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求,现从某天生产的一批食品中随机原创 2021-10-11 15:08:24 · 647 阅读 · 0 评论 -
python一个总体参数的区间估计(总体均值)
正态总体,σ\sigmaσ已知公式:xˉ±za/2σn\bar{x}\pm z_{a/2}\frac{\sigma}{\sqrt{n}}xˉ±za/2nσ例:一家食品生产企业以生产袋装食品为主,每天的唱片大约为8000袋。按规定每袋的重量应为100克。为对产品重量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求,现从某天生产的一批食品中随机抽取25袋,测得每袋重量如下:import pandas as pdimport numpy as npimport scipy as原创 2021-10-11 15:05:04 · 1420 阅读 · 1 评论 -
python参数估计(一个总体比例)
比例(成数)的区间估计这里只讨论大样本情况下的总体比例的估计问题。当样本容量足够大时,样本比例p的抽样分布可用正态分布近似。p的数学期望等于总体的比例π\piπ公式:p±za/2p(1−p)np\pm z_{a/2}\sqrt{\frac{p(1-p)}{n}}p±za/2np(1−p)例:某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间。from scipy import stats原创 2021-10-09 17:01:01 · 714 阅读 · 0 评论 -
python参数估计(一个总体均值)
一个总体参数的区间估计(均值)公式总体方差已知(大样本)xˉ±za/2σn\bar{x}\pm z_{a/2}\frac{\sigma}{\sqrt{n}}xˉ±za/2nσ总体方差未知(大样本)xˉ±za/2sn\bar{x}\pm z_{a/2}\frac{s}{\sqrt{n}}xˉ±za/2ns在大样本条件下,总体方差未知时,可以用样本方差代替总体方差例:一家食品生产企业以生产袋装食品为主,每天的产量为8000袋左右,按规定每袋的重量应为100g。为对产品质量进行监测,企业原创 2021-10-09 16:44:20 · 800 阅读 · 0 评论 -
python分位点计算(正态分布,卡方分布,t分布,F分布)
调用scipy包的stats统计模块,可以直接得出不同分布的分为点的值,相对于,查表,或使用excel,使用起来会更加便捷下面是需要用到的函数和代码,使用简单方便。ppf单侧左分位点isf单侧右分位点interval双侧双侧分位点正态分布from scipy import stats#显著性水平a = 0.05# 单测 左分位点norm_a_left = stats.norm.ppf(a)# 单侧 右分位点norm_a_right =原创 2021-10-09 15:54:15 · 10843 阅读 · 0 评论