Information Theory in Data Mining & Decision Trees learning

Information Theory 

IT provides a powerful framework for dealing withsymbolic data.(和numeric相对)

y : symbolic attribute of arity Ay
• Information content 信息含量of one of Ay values of y,  yi:
  I(yi) = -log2 p(yi)   负的yi概率的对数,
• It is expressed in bits
• 可以理解成“惊讶程度”。 Ay的概率越大,信息含量越小,越不值得一提

举例:

• 属性“颜色”有红绿蓝三种可能
• 一共1000条记录: 红350 绿450 蓝200 

I(y=blue) = -log2(0.2)= -log(0.2)/log(2) = 2.322 bits

I(y=red) = -log2(0.35) = -log(0.35)/log(2) = 1.515 bits

I(y=green) = -log2(0.45) = -log(0.45)/log(2) = 1.152 bits

如果yi的概率是1,那么信息含量为零,因为,不要取样也知道,没什么新信息,没什么可以surprise的

信息含量不能小于零

如果有一枚理想的硬币,其出现正面和反面的机会相等,则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么,因此每一次抛硬币都是不可预测的。

另一个稍微复杂的例子是假设一个随机变量X,取三种可能值\begin{smallmatrix} x_1, x_2, x_3 \end{smallmatrix},概率分别为\begin{smallmatrix} \frac{1}{2}, \frac{1}{4}, \frac{1}{4} \end{smallmatrix},那么编码平均比特长度是:\begin{smallmatrix} \frac{1}{2} \times 1 + \frac{1}{4} \times 2 + \frac{1}{4} \times 2 = \frac{3}{2} \end{smallmatrix}。其熵为3/2。

因此熵实际是对随机变量的比特量和顺次发生概率相乘再总和的数学期望


高确定性,低信息含量,低熵

Information Gain

如何测量,使用symbolic attribute x 来预测另一个symbolic attribute y时,x的作用大小?

IG(y,x) = H(y) - H(y|x)y本身的熵 - 在x情况下y的熵

条件熵

如果已经完全知道第二个随机变量 X 的前提下,随机变量 Y 的信息熵还有多少。也就是 基于 X 的Y 的信息熵,用 H(Y|X) 表示。

对称: IG(x,y)=H(x)-H(x|y)=H(y)-H(y|x)=IG(y,x)
如果是完全相关, H(y|x)=H(x|y)=0, IG(y,x)=H(y), IG(x,y)=H(x)

如果完全不相干, H(y|x)=H(y), H(x|y)=H(x), IG(y,x)=IG(x,y)=0 知道了x完全没有帮助

Decision Trees learning

1. 使用最大IG的predictor(一个input列)做决策树的root节点; 不一定是IG(还有GINI index)但是这里拿IG做例子
2. 根据该input列划分数据
3. 对于每个子集进行(1)的递归

如果input列是numeric的,就找"最好"的二元分割点。该点不需要是mean或者median什么的,标准应该是Most informative splitting dimension:

子集们X’={XA,XB} to 来预测Y,最大程度的降低Y的uncertainty,此处用IG来表示

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Android是一种基于Linux内核(不包含GNU组件)的自由及开放源代码的移动操作系统,主要应用于移动设备,如智能手机和平板电脑。该系统最初由安迪·鲁宾开发,后被Google公司收购并注资,随后与多家硬件制造商、软件开发商及电信营运商共同研发改良。 Android操作系统的特点包括: 开放源代码:Android系统采用开放源代码模式,允许开发者自由访问、修改和定制操作系统,这促进了技术的创新和发展,使得Android系统具有高度的灵活性和可定制性。 多任务处理:Android允许用户同时运行多个应用程序,并且可以轻松地在不同应用程序之间切换,提高了效率和便利性。 丰富的应用生态系统:Android系统拥有庞大的应用程序生态系统,用户可以从Google Play商店或其他第三方应用市场下载和安装各种各样的应用程序,满足各种需求。 可定制性:Android操作系统可以根据用户的个人喜好进行定制,用户可以更改主题、小部件和图标等,以使其界面更符合个人风格和偏好。 多种设备支持:Android操作系统可以运行在多种不同类型的设备上,包括手机、平板电脑、智能电视、汽车导航系统等。 此外,Android系统还有一些常见的问题,如应用崩溃、电池耗电过快、Wi-Fi连接问题、存储空间不足、更新问题等。针对这些问题,用户可以尝试一些基本的解决方法,如清除应用缓存和数据、降低屏幕亮度、关闭没有使用的连接和传感器、限制后台运行的应用、删除不需要的文件和应用等。 随着Android系统的不断发展,其功能和性能也在不断提升。例如,最新的Android版本引入了更多的安全性和隐私保护功能,以及更流畅的用户界面和更强大的性能。此外,Android系统也在不断探索新的应用场景,如智能家居、虚拟现实、人工智能等领域。 总之,Android系统是一种功能强大、灵活可定制、拥有丰富应用生态系统的移动操作系统,在全球范围内拥有广泛的用户基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值