《深入浅出统计学》
余欲与鱼语渔
纸得终潜,绝需躬行。
主要是做笔记,分享是其次。有问题欢迎讨论~
真正想解决问题建议去stackoverflow
展开
-
笔记:《深入浅出统计学》第十六章-附录:分布剖析、样本方差与协方差、决定系数、非线性关系、连续随机变量的期望与方差
分布剖析:大部分数据落在概率分布的哪个区域经验法则(只适用于正态分布)–几乎所有数据都落在距离均值三个标准差范围内:大约68%落在第一个标准差范围内;大约95%落在第二个标准差范围内;大约99.7%落在第三个标准差范围内.切比雪夫定理(适用于任何分布)至少75%落在第2个标准差范围内;至少89%落在第3个标准差范围内;至少94%落在第4个标准差范围内.样本方差、协方差Sxyx的方差Sx表示x的变异情况,Sx=Σ(x-ˉx)/(n-1)y的方差Sy表示y的变异情况,Sy=Σ(y-ˉ原创 2020-06-28 00:14:16 · 928 阅读 · 0 评论 -
笔记:《深入浅出统计学》第十五章:相关与回归
利用散点图体现数据模式数据点如果几乎呈直线分布,则认为两个变量线性相关.两个变量存在相关关系意味着二者之间存在着某种数学关系, 并不意味着一个变量会影响另一个变量, 也不意味着二者存在实际关系.用最佳拟合线预测数值线性回归法(最小二乘回归法)是一种求最佳拟合线y = a+bx的数学方法.最佳拟合线: 这条线使得所有的y的观察值和期望值之间的距离和Σ(yi - ^yi) 最小.为避免实际距离相互抵消, 用 ‘误差平方和SSE’ 替换 ‘距离和’ .误差平方和: SSE=Σ(yi - yi)2斜原创 2020-06-28 00:06:47 · 531 阅读 · 0 评论 -
笔记:《深入浅出统计学》第十四章:卡方分布
X^2服从显著性水平为α,自由度为纽ν的卡方分布:X^2~χ2α(ν)χ2原理通过一个检验统计量来比较期望结果和实际结果之间的差别,然后得出观察频数极值的发生概率.检验统计量χ2提供了一种对观察频数和期望频数之间的差异进行量度的办法.所得结果与期望频数成反比.χ2越小,观察频数O与期望频数E之间的总差值越小.计算: 对于概率分布中的每一个概率,取期望频数和实际频数的差,求差的平方数,再除以期望频数,然后将所有结果相加.χ2 = Σ(O-E)^2/E自由度: 纽νv=组数-限值数卡方假设检原创 2020-06-27 18:40:36 · 650 阅读 · 0 评论 -
笔记:《深入浅出统计学》第十三章:假设检验(显著性检验)
假设检验思想1.进行假设检验时, 假定原假设H0为真;2.寻找反驳的证据,3. 如果有足够的证据反驳原假设,则拒绝原假设, 接受备择假设H1.假设检验步骤1.确定要进行性检验的假设(要对齐进行试验的断言)2.假定H0为真, 选择检验统计量(最有效地对断言进行检验的统计量)3.确定用于做决策的拒绝域(使用某种确定性水平)4.求出检验统计量的p值(在假定断言为真的情况下, 试验结果的可信程度)5.查看样本结果是否位于拒绝域内(了解试验结果是否位于确定性限值范围中)6.作出决策拒绝域拒绝域原创 2020-06-26 22:43:19 · 819 阅读 · 0 评论 -
笔记:《深入浅出统计学》第十二章:置信区间
概念用(a,b)表示概率区间, a,b的数值取决于你希望自己对于"该区间包含总体均值"这一结果具有的可信程度,因此(a,b)被称为置信区间正置信区间求解步骤1.选择用于构建置信区间的总体统计量2.求出其样本分布3.决定置信水平4.求出置信上下限(利用正态分布表/t分布表)正态分布置信区间简便算法超链接https://images-cdn.shimo.im/jiTj0Imygk09S9Bk__thumbnailt分布总体符合正态分布,方差未知,但样本量较小时,样本符合t分布. 曲线扁平,形原创 2020-06-26 19:04:24 · 1292 阅读 · 0 评论 -
笔记:《深入浅出统计学》第十一章:点估计与抽样分布
点估计量(用样本预测总体)点估计量: 由样本数据得出, 是对总体参数的估计.总体均值点估计量^μ用^标记μ表示.样本均值 ¯X 被称为总体均值 μ 的点估计量 ^μ .总体方差点估计量(σ2)总体方差点估计量=Σ((x-¯x)^2)/(n-1), 用标记σ2表示大部分情况下样本数值的方差会略小于总体方差,所以除以n-1样本方差s2被称为总体方差σ2的总体方差点估计量(σ2)总体比例点估计量^p^p=成功数目/样本数目抽样分布(用总体预测样本)从一个总体中用相同的方法抽取许多大小相原创 2020-06-26 18:33:40 · 777 阅读 · 0 评论 -
笔记:《深入浅出统计学》第十章:统计抽样
如何设计样本1.确定目标总体2.确定抽样单位3.确定抽样空间偏倚样本原因抽样空间条目不全抽样单位不正确为样本选取的一个个抽样单位未才出现在实际样本中问卷问题设计不当样本缺乏随机性如何选择样本简单随机抽样重复抽样/不重复抽样抽签/随机编号分层抽样查看每一层在总体中所占比例,按比例进行简单随机抽样. 尽可能每一层不一样整群抽样对群进行简单随机抽样. 尽可每一个群相似.系统抽样按照顺序列出总体名单, 每k个单位进行一次调查. 注意: 如果总体存在某种循环,会产生重大误差.原创 2020-06-26 16:58:45 · 197 阅读 · 0 评论 -
笔记:《深入浅出统计学》第八、九章:概率密度、正态分布(高斯分布)
概率密度:离散数据由单个数值组成,连续数据包含一个数据范围。连续随机变量的概率分布可用概率密度函数描述。1概率密度是一种表示概率的方法,并非概率本身。概率密度指出各种范围内的概率的大小,通过概率密度函数进行描述2概率密度函数是图形中的一条线条,而概率则是这条线下方的一定数值范围内的面积。3类似于频数密度,概率密度通过面积表示表示概率,频数密度通过面积表示频数。4满足条件的面积即为所求概率,图形总面积必须等于1。5对于连续概率,必须通过计算概率密度曲线下方的面积得出概率。正态分布:连续型数据的“理原创 2020-06-26 16:54:35 · 12976 阅读 · 0 评论 -
笔记:《深入浅出统计学》第七章:几何分布、二项分布、泊松分布
几何分布X~Geo§:X服从几何分布,其中成功概率为p,失败概率为q第r次成功:P(X=r) = p*q^(r-1)服从几何分布的前提条件:进行一系列独立的试验每次试验具有相同成功率和失败率求解:为了获得第一次成功需要进行试验的次数几何分布的期望为:E(X) = 1/p几何分布的方差:Var(X) = q/(p^2)二项分布X~B(n,p):X服从二项分布,n为试验总次数,p为成功概率,q为失败概率成功r次:P(X=r) = (nCr) * p^r * q^(n-r)服从二项分布的前原创 2020-06-26 16:24:42 · 1249 阅读 · 0 评论 -
笔记:《深入浅出统计学》第六章:排列与组合(Python实现)
排列-选取对象并关注这些对象的排位顺序一般排列:n!圆形排列:(n-1)!重复排列-k为重复对象:n!/k!import itertoolsitertools.permutations('BCD', 2)# 输出 BC BD CB CD DB DCprint('\n')组合-选取对象但不关注这些对象的排位顺序计算技巧:排列消序import itertoolsitertools.combinations('BCDEF', 2)...原创 2020-06-26 15:52:41 · 163 阅读 · 0 评论 -
笔记:《深入浅出统计学》第五章:概率分布(均值、方差、线性变换)
概率分布描述了一个给定变量的所有可能结果的概率。对于概率分布来说,所有概率都早已计算好。1.1 随机变量随机变量(random variable)是对一个试验结果的数值描述,是一个可以等于一系列数值的变量。而这一系列数值的每一个值都与一个特定概率相关联。▪离散型随机变量:可以取有限多个数值或无限可数多个数值的随机变量▪连续型随机变量:可以在某一区间或多个区间内任意取值的随机变量1.2 离散型概率分布随机变量的概率分布(probability distribution)是描述随机变量取不同值的原创 2020-06-26 15:36:29 · 3582 阅读 · 0 评论 -
笔记:《深入浅出统计学》第四章:概率计算(相关事件、独立事件)——条件概率、全概率公式、逆概率公式(贝叶斯公式)
无论某事件多么不可能发生,只要不是完全不可能,该事件就仍有可能发生。事件:有概率可言的一个结果或一件事。概率空间(样本空间):表示所有可能的结果。1.相关事件相交事件P(AUB)=P(A)+P(B)-P(AB)互斥事件P(AUB)=P(A)+P(B)P(AB)=0基本条件概率公式以事件B为已知的条件的事件A的概率:P(AIB)=P(AB)/P(B)概率树的条件概率:P(AB)=P(B)*P(AIB)全概率公式根据条件概率计算一个特定时间的全概率:P(B)=P(A)*原创 2020-05-11 10:15:58 · 2946 阅读 · 0 评论 -
笔记:《深入浅出统计学》第二、三章:集中趋势、分散性与变异性
1.均值μ存在异常值时会偏离大部分数据所在的位置;数据非常对称,且呈现一种趋势时使用;2.中位数从小到大排序在最中间的值,不受异常值影响,数值对称时等于均值,但随数据量增大会降低参考价值;在数据由于异常值而发生偏移时使用;当右(左)边线比较长时,数据向右(左)偏斜,均值大(小)于中位数。3.众数频数最大,且必须是数据集中的数值;是唯一能用于类别数据的平均数。遇到类别数据时使用、当数据可以分为多个组时使用。...原创 2020-05-11 09:48:49 · 835 阅读 · 0 评论 -
笔记:《深入浅出统计学》第一章:数据可视化(饼图、条形图、直方图、折线图)
图形的选用,取决于你想凸显的事实1.类别与数值类别数据(定性数据)数据被划分为各种类别,用以描述某类的性质或特征(不应将数据值理解为数字);折线图不适用与展现类别数据数值数据(定量数据)描述数字和数量,涉及计量和计数等。2.标度频数:用于描述类别中有多少个项,条形图高度百分数:频数密度:数据中数值密集度,等于频数除以组距;直方图高度累积频数(累计总和):3.图形3.1.饼图:描述占比3.2.条形图(比较样本大小)垂直条形图(更常用)横轴上每个长方形代表一类;原创 2020-05-11 09:41:33 · 1148 阅读 · 0 评论