看了 data mining - practical machine learning techniques and tools 一书,觉得很多概念与算法都与统计有关,所以索性把概率与统计也读一读。
统计分为两类: descriptive statistics 和 inferential statistics , 中文大概可以翻译为: 描述统计和推断统计。
描述统计: 类似上海申花 2014 年总共赢多少场球赛,进多少粒球等;
推断统计:当你下象棋时,当头炮之后,另一门炮将要形成双头跑的概率多有多少等;
下面的图是描述统计中的一类表示方法, 第一张表示数据集,第二章是概率分布图:
在第一张图里面,表示了一个赛季中,赢得固定进球次数的场数,比如: 在一个赛季中,一场球都没赢的次数是 20, 相对频次就是 20/19383, 即: 0.0010 。
第二张图,将频次可视化了,表示一场赛季的频次分布图. 看来概率分布也就是这个概念了。