Head First Statistics
三分之一给你
如果你有勇气
展开
-
Head First Statistics seven 经典分布
了解经典分布的意义一些特殊的概率分布有着十分固定的模式。通过判断模式,我们就能很快地计算出概率、期望、方差。伯努利实验在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。 在概率学与统计学中,一个伯努利过程就是有限或无限的一连串二进制随机变量,也就是说实验的结果只有两种情况,0或1.每个伯努利变量都有相同分布和独立性。例如,经典...原创 2018-05-01 15:11:16 · 306 阅读 · 0 评论 -
Head First Statistics six 排列与组合
排列组合的中心问题是研究给定要求的排列和组合可能出现的情况总数。 排列组合与古典概率论关系密切。排列:In mathematics, the notion of permutation relates to the act of arranging all the members of a set into some sequence or order, or if the set is al...原创 2018-04-29 17:37:48 · 210 阅读 · 0 评论 -
Head First Statistics five 离散概率
概率分布统计信息的意义统计分析的主要目的是思考数据生成过程,然后对数据进行预测、聚类、估计等。然而在对一个事物进行分析并加以应用时,我们首先要做的是对该事物的客观属性(性质)进行观测、研究。所以我们可以认为概率与统计的基础。所以我们也可以 利用数据的概率信息通过统计推断来预测长期结果,以及如何度量这些预测结果的确定性。概率分布介绍随机变量”是实验中出现的结果,将每一个可能出现的...原创 2018-04-29 17:28:50 · 200 阅读 · 0 评论 -
Head First Statistics four 条件概率
条件概率简介与公式与其他事件的发生情况有关的某个事件的概率。P(A|B):意味在事件B发生的情况下事件A发生的概率。 P(A|B)=P(A∩B)P(B)P(A|B)=P(A∩B)P(B)P(A|B)=\frac{P(A\cap B)}{P(B)} 从条件概率的延伸思考一切概率,都是条件概率。 如果说a代表全局空间,x|a就是x在a中的“比例”。P(x)=n(x)n(a)n(x)...原创 2018-04-29 16:40:11 · 174 阅读 · 0 评论 -
Head First Statistics three 分散性与变异性
分散性在描述一组数据时我们需要通过数据的中心位置与分散性来对该组数据的分布情况有个大体的了解,这样才便于我们后续的统计分析。中心位置就是平均数,而分散性的定义就是了解数据是在什么范围?那块区域的数据比较多?那块区域的数据比较少?大部分数据是在平均数的哪一侧,还是说两侧的数量都差不多?一般来说我们都是用分散性是用来描述数据分布分散或集中程度的。如下图所示,我们可以看出红色数据相对于蓝色数据更集中...原创 2018-04-29 16:08:16 · 841 阅读 · 0 评论 -
Head First Statistics two 统计学中平均数的意义
维基简介在统计学中平均数是一组数据的中间值或典型值 。不同的平均数概念被用在不同的地方。通常我们所说的平均数是算术平均数,就是对数据求和后再除以数据的个数。在统计学中,均值,中间值和众数都用作对数据集中趋势(central tendency)的测量。所以它们三个也可以被称为平均数。 In colloquial language, an average is a middle or ty...原创 2018-04-29 14:45:26 · 946 阅读 · 0 评论 -
Head First Statistics fifteen 相关与回归
相关系数为0是两变量独立的必要非充分条件。相关系数反映的是两变量间的线性关系,但是变量间除了线性关系还有其它关系,这时候相关系数就不能作为一种度量了。相关:散点图呈直线分布。我们可以观察两个变量是否相关,这两个变量为自变量和因变量。有正相关、负相关、不相关。 误差平方和SSE:SSE越小就表示回归方程拟合的越好,也就是说预测的因变量与实际的观察值y的距离和是最小的。 SSE=∑(y−y^)...原创 2018-05-12 15:42:58 · 176 阅读 · 0 评论 -
Head First Statistics thirteen 假设性检验
假设检验的步骤确定要检验的假设选择检验的统计量(统计量是统计理论中用来对数据统计、分析的变量)确定做决策的拒绝域计算出统计量的p值(也就是统计量发生的概率值)对比p值是否在拒绝域内做出统计推断 统计量的进一步说明统计量是统计理论中用来对数据进行分析、检验的变量。 把数据中所包含的关于人们所关心的事物的信息集中起来,即针对不同的问题构造出样本的某种函数,这种函数就是统...原创 2018-05-12 15:19:46 · 212 阅读 · 0 评论 -
Head First Statistics twelve 置信区间
前面已经知道了用点估计量来估计总体的均值、方差或一定比例的精确值 :是根据样本数据有可能做出的最好的猜测。现介绍另一种估计总体统计量的方法——一种考虑了不确定性的方法。:是根据样本求出总统统计量的一个有高可信度的数值范围。为什么要用置信区间在利用点估计量求出总体的主要统计量时,就算我们取到了无偏估计量,但是我们在取其他样本来做分析时也不会是该估计量,这就会对我们的分析做出错误的引导,而且...原创 2018-05-11 22:42:45 · 280 阅读 · 0 评论 -
Head First Statistics eleven 样本与总体的估计
最主重要的两个参数一、均值均值的符号:样本均值X¯¯¯¯X¯\overline X、均值点估计量μ^μ^\hat{\mu}、总体均值μμ\mu点估计量:是根据样本数据得到的最佳的总体均值的估计量,一般用到的方法有最小二乘法、似然函数二、方差方差的符号:样本方差s(包含有偏估计与无偏估计)、总体方差总体方差总体方差\sigma$方差的无偏估计公式:\frac{1}{n-1}...原创 2018-05-11 22:12:12 · 303 阅读 · 0 评论 -
Head First Statistics one 做图规则
饼图用于表现各个组(分类)的频数比例,就是要求数据要有特定的组,或者特定的分类。需注意在比例相接近时就不太好用。条形图条形图可分为有垂直条形图与水平条形图,一般情况下用垂直条形图,在坐标轴名较长时用水平条形图比较好。条形图相较于饼图的优点为在比例相接近时也比较好用。普通条形图需注意只能用于一维的变量。特殊条形图在处理多维数据时,可以用堆积条形图或分段条形图。...原创 2018-04-26 19:58:07 · 230 阅读 · 0 评论 -
Head First Statistics eight 离散概率分布与连续概率分布
离散概率分布与连续概率分布的区别对离散概率分布来说,我们关心的是取得一个特定数值的概率,而对连续概率分布来说,我们关心的是取得一个特定范围的概率。概率密度函数描述连续随机变量的概率分布。通过它可以求出一个数据范围内的某个连续变量的概率,它向我们指出该概率分布的形状。通过计算一个数值范围内的概率密度函数下方的面积,可得出该数值范围的概率。概率密度函数下方的总面积必须等于1。处理连...原创 2018-05-02 15:46:31 · 418 阅读 · 0 评论 -
Head First Statistics ten 抽取样本
统计学中相关名词总体:需要对其测量、研究或分析的整个群体普查:对总体进行研究或调查样本:从总体中选取一部分个体样本调查:只对样本进行研究或调查无偏样本:具有与总体相似的特征(统计量)偏倚样本:与总体的特征(统计量)不相似抽样的方法随机抽样:可分为重复抽样与不重复抽样分层抽样:很经常用到整群抽样:把总体分为一个个相似的群系统抽样:排列好后,每K个进行抽样...原创 2018-05-08 23:16:39 · 172 阅读 · 0 评论 -
Head First Statistics fourteen 卡方分布
什么是卡方检验?有两种类型的卡方检验。两者都使用了卡方统计量和分布。卡方拟合优度检验:检验一个样本数据是否匹配某一种分布。卡方独立性检验:对比两个组变量是否相关。通常它用来检验分类变量之间的分布的差异程度。当卡方统计量比较小时,意味着你的观察数据符合你期望的数据。换句话说,它们是相关的;当卡方统计量较大时,以为着数据不能很好地匹配。换句话说,它们无关。自由度就是我们计算过的期望频...原创 2018-05-01 16:58:05 · 1180 阅读 · 0 评论 -
Head First Statistics night 正态分布的运算
两个独立的正态分布相加还是正态分布正态分布的运算可分为独立变量的运算和线性变化的运算独立变量意为独立观察结果是数据的数量发生变化,两个正态分布相加的结果就是两个期望相加减与两个方差相加减:X±YX±YX\pm Y ~ N(μx±μy,σ2x±σ2y)N(μx±μy,σx2±σy2)N(\mu _{x}\pm \mu _{y},\sigma ^{2}_{x}\pm \sigma ^{2}_{...原创 2018-05-07 23:02:11 · 6691 阅读 · 1 评论