每日进步一点之灵魂拷问之知识盲盒6:熵。真的有答案。

#1
比特代表什么意思?位是什么?它们和 丢一枚标准硬币得到的结果 有什么关系?

比特其实就是信息的单位,1比特表示一位能传递的信息,比如0,1。或者说是,一枚标准硬币,没丢之前具备的信息量,可能是正-1,可能是反-0,两种可能。

#2
什么是信息量? ln(N)
如何类比到 硬币实例 中?

理解上,事件可能性数目,可以用 几位编码传递,这个位表示的是真实世界的概念,也就是可以是1.45这样的分数位,不考虑工程可实施性。
丢一枚标准硬币,有两种等可能结果。信息量就是 log(2)= 1 bit

#3
回到#1,标准硬币意味着什么? 意味着正反是()事件?
()事件意味着这个事件集熵是最()的?

等可能事件
熵最大,可以这么理解: 等概率可能事件的集合的熵最大,因为你最不可能知道哪件事会更可能发生。因为信息的作用是:第五问。
我一直认为,宇宙是熵增的,那么应该是大家都是同种状态,不应该是这么极端。无尽冰冷的真空中却有璀璨的星河,狂暴爆炸诞生的宇宙中,却有这么舒适美丽有氧气的蔚蓝星球,却有这么一种聪明却愚蠢的碳基🐒。如果,创造生命应该是熵减的,那么生命的死亡应该是熵增的,归于乱序蹦哒的粒子,大家都一样的粒子。地球这么高度有序的信息集合体,应该是熵减的,冰冷的真空宇宙应该是熵增的,它们之间是否会有联系。那么是谁的观测,引起了熵减?

#4
信息量的期望是什么?
【如何理解信息熵-哔哩哔哩】 https://b23.tv/CFAK18u

信息量的期望:就是 某个取值的概率x该概率代表的信息量,最后基于所有取值的累加。
比如,该事件x取值2时候,概率为0.5,  信息量应该是log(等概率系统中的球数),咋意思? 0.5概率表示 从有1/0.5=2个球的标准框框中取一个球的概率!那么这个信息需要log(2)长度的 编码就能搞定,也就是只要一位编码就能确定状态。信息量就是1bit。那么 0.5x1就是局部的熵。所有取值的局部熵值累加就是整个系统取值的 熵。描述的就是状态的不确定性。

#5
信息的作用是? (消除不确定性)
也就是 ()减?

#6
什么是 信息增益?
什么是经验条件熵?

给定D数据集,A特征,Y类别。
信息增益就是,我如果基于你这个特征进行划分(年龄>18和年龄<18)后的数据集的熵 能 减少,那么不就是说,你这个特征含有用?能给我蕴含的信息!熵减 = 信息获取。

给定某个特征划分数据集得到的熵。 

#7
给定数据集D,类特征Y,和某个特征A,怎么表示信息增益?
答:得知A特征而使得类Y的信息的不确定性()的程度?

#8
设有K个类别,问H(D)怎么计算?

#9
同理,经验条件熵,怎么算?

#10
信息增益怎么算?

#11
信息增益的 弱点?

如果特征取值很多,比如有100种取值,那意味着其实熵就很小,那就直接用这个就行了???那岂不是取值多就行了?太简单了

#12
既然有这个弱点,改进算法是?

C4.5
用信息增益比,用之前的信息增益再除以 特征取值 的熵。
一般来说,通过一种划分方式带来的纯度提升越大,信息增益就越高。ID3算法以信息增益为准则来选择决策树划分属性。值多的属性更有可能会带来更高的纯度提升,所以信息增益的比较偏向选择取值多的属性。这会带来一个漏洞的:在示例数据集中,如果选择唯一号码作为划分属性,那么会得到十个类别,每个类别都只包含一个样本,每个节点的纯度都是最高的(都只有一种水果),纯度提升也是最大的,带来的信息增益也是最高的。但是这样的划分是没有意义的。所以,为了避免ID3算法的选择偏好可能带来的不利影响,C4.5算法不直接使用信息增益为准则来选择划分属性,而是使用增益率(gain ratio)来划分。C4.5算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

作者:知乎用户
链接:https://www.zhihu.com/question/22928442/answer/354885414
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

#13
信息增益比,数学形式?含义?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

万物琴弦光锥之外

给个0.1,恭喜老板发财

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值