参考书籍《白话大数据与机器学习》高扬等
1.基本概念
数据:承载了信息的东西。
信息:那些把我们不清楚的事情能够清晰的描述(注:已经明确或者知晓的东西让我们再知晓一遍,这些被知会的内容不再是信息)。
算法:计算的方法或技巧。通俗讲,为对处理逻辑问题的理解。
古典概率模型(传统概率模型):随机试验(包含有限个单位事件,且每个单位事件发生的可能性一样)下的概率模型。例如抛硬币。
非古典概率模型:特点是包含的单位事件不是有限的(如:我想知道每天出门碰到熟人的概率)或每个单位事件发生的可能性不一样(如:赌徒改造过的骰子,出现数字的概率不均等)。
概率:概率本身的解释是对于大量样本分布比例的解释,而不是对单次事件可能性的解释。
通常利用排列组合计算古典概率模型来解决生活中的问题。如:日常生活中很多人都有买彩票的经历,其中双色球为6个红球(1~33)和一个篮球(1~16)。最终能中奖的概率为0.0000000564%。
2.统计与分布基本概念
已知样本序列
加和值:样本数据累加值
平均值:加和值除以样本数
标准差:,反映样本数据的波动情况。
加权均值:,Wi为对应的权重系数。如:混合物的定价或股东大会的决策权衡等。
众数:反映的是多数的概念。
中位数:位于中间位置的数字。
设N维空间有两点与,则
欧式距离:N个维度的读数差的平方和再开方
曼哈顿距离(出租车距离):两个点在标准坐标系上的绝对轴距总和
同比:与相邻时段的同一时期相比。
环比:直接和上一个报告期 相比。
正态分布(高斯分布):分布特点:一般般的很多,极端的很少。
概率密度函数:
其中,为均值,为标准方差。符合高斯分布的非常多,如汽车价格,人的智商,游戏玩家消费等等。
泊松分布:一种离散概率分布,适合于描述单位时间内随机事件发生的次数。泊松分布适用的事件需要满足三个条件:
⑴这个事件是一个小概率事件。
⑵事件的每次发生是独立的,不会相互影响。
⑶事件的概率是稳定的。
随机事件X发生k次的概率函数:,其中,为单位时间内随机事件发生的次数。
例如:公交车站的例子。一个公共汽车站有多种不同路线的公交车,且平均5分钟会来2辆公交车。求5分钟内来5辆公交车的概率。
伯努利分布:离散分布,只有两种可能的结果,1表示成功,出现的概率为;0表示失败,出现的概率为。n次成功k次的概率为。
3.信息论基本概念
信息:被消除的不确定性,描述我们不清楚的东西。
信息量:一种信息数量化的规则。单位为比特bit。
日常生活中,极少发生的事件一旦发生是容易引起人们关注的,而司空见惯的事情不会引起注意,即极少见的事情所带来的信息量更大。统计学观点来说,概率小的事件信息量越大。
事件发生的概率为P,则事件发生所带来的信息量为
香农公式:
其中,单位bps;
B为码元速率极限值(B=2H,H为信号通道带宽,单位为Baud);
S为信号功率(瓦);
N为噪声功率(瓦)。
S/N 为信噪比,信噪比越大,传输速度越快。
信息熵:信息杂乱程度的量化描述。
计算公式:
信息越确定,越单一,信息熵越小;
信息越不确定,越混乱,信息熵越大。