《大数据环境下决策树算法并行化研究》

日常扯:好饿啊,还没吃晚饭。这周心态爆炸,水一个论文总结吧

原文连接:知网:大数据环境下决策树算法并行化研究

  • 主要研究问题
    决策数算法(ID3)并行化

  • 为什么重要
    大数据环境下像决策树这种传统算法的局限越来约明显,并行化能能够有效减少执行时间

  • 研究现状及存在的问题
    1.对于决策树的改进方法都基于传统的串行方法,无法满足大数据环境下数据挖据的需求
    2.传统的并行方法主要是基于消息传送例如PVM和MPI,而此方法适合处理计算密集型问题,当处理数据密集型问题时,通讯代价迅速增加系统性能大大降低。
    3.传统的并行化方法抽象读较低,需要显式处理一些底层的细节问题,例如调度等,提高了并行程序设计的复杂度。

  • 论文方法和创新点
    1.摈弃传统的并行化方法,选择MapReduce并行化决策树算法开销最大的最佳分割点选择部分。
    在Map阶段遍历每个属性生成 key = <类标,属性名,属性值> , value = 1 的 < key, value > 对;
    在Reduce阶段,将Map阶段输出的< key, value > 对中key值相同的value相加。从而可以得到计算信息增益时所需的参数
    2.引入修正参数改进ID3利用信息增益进行属性选择时倾向于多属性选取的问题。
    修正项为:这里写图片描述 其中v为该属性的取值个数,取值个数越多,修正参数的值越小

  • 实验证实情况
    a)数据选自来自UCI数据集,基于hadoop平台,集群由7台PC组成,1台为Master,6台为Salve节点
    b)优劣评价的标准是运行时间
    c)通过实验证明,当数据规模增大时,单机处理到一定的程度是会由于内存不足而使得程序无法正常运行,而集群则始终平稳运行,且计算时间增加平稳,每个节点资源消耗波动小。由于MPI方法通信开销大,相同情况下MPI并行化的ID3算法性能低于基于MapReduce的并行化算法

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值