浅出深入统计学(一)

IVERSEN编著的《统计学——基本概念和方法》以浅显易懂,讲故事的方式令人对统计有了最实际的认知。即使这本书在设计和写作上的独特的初衷,或者说教师希望学生阅读这本书的初衷是获得对统计学的一个初步的印象,而非成为专家,但是,这并不妨碍启发了学生更深入的思考与兴趣。本文将结合其他学科,试图给予统计学不同于原文的视角探索。同时,本文最后同样思考由统计学发散开来的更多的学科的教材,该如何更好地去满足大众对知识日益增长而又未被满足的需求。


需要是研究之母

    从整本书的行文结构看,可以分为2大部分:前部分为统计学定义,并按照定义收集数据、分析数据然后得出结论的顺序,讨论了单个变量(研究对象)下的研究方法;后部分是多个变量下,如何利用方法回答四个关于变量之间联系的基本问题,从而得出结论。

    任何研究或者发明的开始都需要动力,原文在给出统计学术上的基本定义前,向我们显示了统计对于各个领域的影响:学术界、企业、政治、生活等。反过来说,正是来自这些现实生活中的需求,统计才得以诞生,并演变成一个严谨的学科体系。

    正如Raymond在其论文《大教堂与集市》中的第一个法则:每一个好的软件的起因都是挠到了开发者的痒处。这是显而易见的,需要是一切创造性事物之母。软件开发的起因就本质上来说和统计的产生没有什么区别。统计学经历政治算数学派、国势学派、社会统计学派、数理统计学派300多年的发展,已经成为横跨社会科学和自然科学领域的多科性的科学,完成了从适应具体应用需求到适应普适需求的转变(并不是指一种特定的统计方法可以应用于任何场景,而是就整个学科家族而言)。


由可知预测“不可知”

    哲学史上曾有“可知论”“不可知论”的争论,各个论断的支持者都不乏智者。在此不是来辩驳哪种论断是正确的,毕竟我不是想将统计上升到哲学的范畴里讨论,再说,对于普通大众来说,这些问题真的是属于“none of my business”。

    纵观整本书,都透露这样的一个三段式:我们有良好收集的数据,这些已知的数据本身以及可能存在的我们想要研究的某个问题是前提,然后,我们利用一系列图表描述数据,用一系列统计方法,如估计或者假设检验,利用任何我们可以用到的公式,最后,我们得到一个含有概率的结论或者推论。这些推论是未知的,或者说我们永远“不可知”的,随时间变化的,比如全世界的人中单亲家庭的比例,人口和人情总是变化的。在某个时刻,这个比例确实存在着。如果你有个魔法棒,可以令世界静止,这个比例也会在你的努力下公布于众。令人遗憾的,没有这个如果。好在统计拥有类似的能力,我们可以从一个随机抽样的大样本中算出样本的比例,由此估计全世界这个总体的比例,尽管其仍然未知,但是我们可以获得一个带有概率的可以大部分人信服的数据。这种信服来自于统计的严谨,很多时候一个重要的推论不仅仅包含推论相关研究对象本身,还有对各种误差的估计。

    正如统计本身的定义,收集数据,分析数据,然后根据分析,得出“令人感兴趣的”的结论的概念、原则和方法。人们是如此渴望探索未知,而统计正是这条荆棘之路的一把斩刀,部分人不断“利其器”。人人都需要对这把刀有所了解。


世界是普遍联系的

    世界是普遍联系的,统计中最有魅力的就是变量间的联系。原书中后半部分的每种令人称赞的方法都是在不同情形下回答四个基本问题的技巧:

1.        在数据中,变量是否存在有关系?

2.        变量之间的关系有多强?

3.        总体中是否有关系?

4.        观测到的关系是一种因果关系么?

    回答了问题,也就深入对变量的分析。原书提出的这四个问题的形式,让我想起了哲学,也是先提出了若干问题(终究问题、基本问题)。对应于不同类型的变量类型,所用的方法也各异,关系的度量也用了不同的值。

    统计在此方面的应用,令我影响最深刻的便是市场篮子分析。(市场篮子分析初次听见是在商务智能课程,然后是在数据挖掘课程,其次是在系统分析,最后在财经类论文中了解。)根据市场篮子的统计分析,得出了尿布与啤酒应该放在一起的推论,这实在是令人感到诧异!
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值