大数据与机器学习中基本概念总结

最新推荐文章于 2021-12-24 20:53:10 发布

SnowScholar

最新推荐文章于 2021-12-24 20:53:10 发布

阅读量951

点赞数

分类专栏：大数据文章标签：机器学习大数据信息论统计分布基础知识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhonghua18517/article/details/72229108

版权

大数据专栏收录该内容

6 篇文章

订阅专栏

参考书籍《白话大数据与机器学习》高扬等

1.基本概念

数据：承载了信息的东西。

信息：那些把我们不清楚的事情能够清晰的描述（注：已经明确或者知晓的东西让我们再知晓一遍，这些被知会的内容不再是信息）。

算法：计算的方法或技巧。通俗讲，为对处理逻辑问题的理解。

古典概率模型（传统概率模型）：随机试验（包含有限个单位事件，且每个单位事件发生的可能性一样）下的概率模型。例如抛硬币。

非古典概率模型：特点是包含的单位事件不是有限的（如：我想知道每天出门碰到熟人的概率）或每个单位事件发生的可能性不一样（如：赌徒改造过的骰子，出现数字的概率不均等）。

概率：概率本身的解释是对于大量样本分布比例的解释，而不是对单次事件可能性的解释。

通常利用排列组合计算古典概率模型来解决生活中的问题。如：日常生活中很多人都有买彩票的经历，其中双色球为6个红球（1～33）和一个篮球（1～16）。最终能中奖的概率为0.0000000564%。

2.统计与分布基本概念

已知样本序列

加和值：样本数据累加值

平均值：加和值除以样本数

标准差：，反映样本数据的波动情况。

加权均值：，Wi为对应的权重系数。如：混合物的定价或股东大会的决策权衡等。

众数：反映的是多数的概念。

中位数：位于中间位置的数字。

设N维空间有两点与，则

欧式距离：N个维度的读数差的平方和再开方

曼哈顿距离（出租车距离）：两个点在标准坐标系上的绝对轴距总和

同比：与相邻时段的同一时期相比。

环比：直接和上一个报告期相比。

正态分布（高斯分布）：分布特点：一般般的很多，极端的很少。

概率密度函数：

其中，为均值，为标准方差。符合高斯分布的非常多，如汽车价格，人的智商，游戏玩家消费等等。

泊松分布：一种离散概率分布，适合于描述单位时间内随机事件发生的次数。泊松分布适用的事件需要满足三个条件：

⑴这个事件是一个小概率事件。

⑵事件的每次发生是独立的，不会相互影响。

⑶事件的概率是稳定的。

随机事件X发生k次的概率函数：，其中，为单位时间内随机事件发生的次数。

例如：公交车站的例子。一个公共汽车站有多种不同路线的公交车，且平均5分钟会来2辆公交车。求5分钟内来5辆公交车的概率。

伯努利分布：离散分布，只有两种可能的结果，1表示成功，出现的概率为；0表示失败，出现的概率为。n次成功k次的概率为。

3.信息论基本概念

信息：被消除的不确定性，描述我们不清楚的东西。

信息量：一种信息数量化的规则。单位为比特bit。

日常生活中，极少发生的事件一旦发生是容易引起人们关注的，而司空见惯的事情不会引起注意，即极少见的事情所带来的信息量更大。统计学观点来说，概率小的事件信息量越大。

事件发生的概率为P，则事件发生所带来的信息量为

香农公式：

其中，单位bps；

B为码元速率极限值（B=2H，H为信号通道带宽，单位为Baud）；

S为信号功率（瓦）；

N为噪声功率（瓦）。

S/N 为信噪比，信噪比越大，传输速度越快。

信息熵：信息杂乱程度的量化描述。

计算公式：

信息越确定，越单一，信息熵越小；

信息越不确定，越混乱，信息熵越大。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。