大数据与机器学习中基本概念总结

参考书籍《白话大数据与机器学习》高扬等

1.基本概念

数据:承载了信息的东西。

信息:那些把我们不清楚的事情能够清晰的描述(注:已经明确或者知晓的东西让我们再知晓一遍,这些被知会的内容不再是信息)。

算法:计算的方法或技巧。通俗讲,为对处理逻辑问题的理解。

古典概率模型(传统概率模型):随机试验(包含有限个单位事件,且每个单位事件发生的可能性一样)下的概率模型。例如抛硬币。

非古典概率模型:特点是包含的单位事件不是有限的(如:我想知道每天出门碰到熟人的概率)或每个单位事件发生的可能性不一样(如:赌徒改造过的骰子,出现数字的概率不均等)。

概率:概率本身的解释是对于大量样本分布比例的解释,而不是对单次事件可能性的解释。

通常利用排列组合计算古典概率模型来解决生活中的问题。如:日常生活中很多人都有买彩票的经历,其中双色球为6个红球(1~33)和一个篮球(1~16)。最终能中奖的概率为0.0000000564%。

2.统计与分布基本概念

已知样本序列

加和值:样本数据累加值

平均值:加和值除以样本数

标准差反映样本数据的波动情况。

加权均值,Wi为对应的权重系数。如:混合物的定价或股东大会的决策权衡等。

众数:反映的是多数的概念。

中位数:位于中间位置的数字。


设N维空间有两点,则

欧式距离:N个维度的读数差的平方和再开方

曼哈顿距离(出租车距离):两个点在标准坐标系上的绝对轴距总和

同比:与相邻时段的同一时期相比。

环比:直接和上一个报告期 相比。


正态分布(高斯分布)分布特点:一般般的很多,极端的很少。

概率密度函数:

其中,为均值,为标准方差。符合高斯分布的非常多,如汽车价格,人的智商,游戏玩家消费等等。

泊松分布:一种离散概率分布,适合于描述单位时间内随机事件发生的次数。泊松分布适用的事件需要满足三个条件:

这个事件是一个小概率事件。

事件的每次发生是独立的,不会相互影响。

事件的概率是稳定的。

随机事件X发生k次的概率函数其中,为单位时间内随机事件发生的次数。

例如:公交车站的例子。一个公共汽车站有多种不同路线的公交车,且平均5分钟会来2辆公交车。求5分钟内来5辆公交车的概率。


伯努利分布:离散分布,只有两种可能的结果,1表示成功,出现的概率为;0表示失败,出现的概率为n次成功k次的概率为

3.信息论基本概念

信息:被消除的不确定性,描述我们不清楚的东西。

信息量:一种信息数量化的规则。单位为比特bit。

日常生活中,极少发生的事件一旦发生是容易引起人们关注的,而司空见惯的事情不会引起注意,即极少见的事情所带来的信息量更大。统计学观点来说,概率小的事件信息量越大。

事件发生的概率为P,则事件发生所带来的信息量为


香农公式

其中,单位bps;

   B为码元速率极限值(B=2H,H为信号通道带宽,单位为Baud);

   S为信号功率(瓦);

   N为噪声功率(瓦)。

   S/N 为信噪比,信噪比越大,传输速度越快。

 

信息熵:信息杂乱程度的量化描述。

计算公式:  


信息越确定,越单一,信息熵越小;

信息越不确定,越混乱,信息熵越大。





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值