统计思维读书笔记

内容总览

大家好,本人是一名初入机器学习领域的小白。偶然之下看到了这本书,

感觉很有趣,很适合作为一个入门书籍来看(_)

简介

本书是一本全新的概率统计入门教材, 重点介绍如何用统计学方法分
析大型数据集。 本书会介绍如何使用计算机实现各种统计方法, 这有
诸多优点。

  • 学生可以通过编写程序来深化和检查自己对概念的理解。 例如, 编 写计算最小二乘拟合、 残差和判定系数的函数, 编写和测试这些代
    码需要他们正确理解相关概念,消除各种可能的误解。

  • 学生能够通过计算实验来验证统计学上的一些定理。 例如, 生成 服从各种分布的样本来验证中心极限定理(Central Limit Theorem, CLT)。 当发现服从帕累托分布的样本并没有收敛到正态分布时, 他 们肯定会记住中心极限定理的前提条件。

  • 有些从数学上很难理解的概念可以很容易地用模拟方法来阐述。 例 如,通过蒙特卡罗模拟近似求出 p 值,就能说明 p 值的含义。

  • 使用离散分布和计算方法可以把贝叶斯模拟之类在入门课程中很少 见的内容讲清楚。 例如, 本书中有个练习要求学生计算“德国坦克问题”(German tank problem) 的后验分布, 通过理论分析很难得到 答案,但用计算手段却很容易得出结果。

  • 因为学生使用的是通用编程语言 Python, 所以他们可以导入各种来 源的数据,并不局限于那些已经为特定统计工具整理好的数据。
    本书内容是按项目来组织的。 在我的课上, 学生会用一个学期的时间 来做一个项目, 在此期间他们要提出统计学问题、 找到合适的数据 集,
    并用学到的技术来处理这些数据。

  • 为了演示我想要学生做的分析, 本书会有一个贯穿全书的实例。 它所 使用的数据主要有以下两个来源。

  1. 由美国疾病控制与预防中心(Centers for Disease Control and Prevention, CDC)主持的全国家庭成长调查(National Survey of Family Growth, NSFG)项目,该项目是为了收集美国人的“家庭生活、婚姻状况、生育、 避孕和男女健康等信息”(参见 http://cdc.gov/nchs/nsfg.htm )。
  2. 由全国慢性病预防和健康促进中心主导的行为风险因素监测系统(the Behavioral Risk FactorSurveillance System, BRFSS), 该系统旨在跟 踪“美国人的健康状况和危险行为”(参见http://cdc.gov/BRFSS/) 。 其他例子所使用的数据则来自 IRS( 美国国税局) 、 美国人口普查和波士顿马拉松比赛
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值