Learning from Uncertainty for Big Data

额,养成一个好习惯不容易,贵在坚持

原文链接 http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7549212

论文主要研究内容

文章以大数据背景下带来的“5V”特点作为引入。提出文章着重关注于,大数据背景下数据的不确定性急剧改变,同时数据建模/处理过程的不确定性也会发生改变,从而带来“Veracity”变低的问题。
5V:
1.Huge volume - 数据规模大
2.High velocity - 不仅是指数据收集的速度,也值数据分析和利用的速度快
3.Much variety - 数据类型多种多样
4.Low veracity - 数据规模不断增大,不确定性会急剧变化,同时大规模数据更容易存在数据丢失的问题,从而带来低可信度/准确率的问题
5.High value - 挖掘大数据背后隐藏的高价值信息

当前研究状况及存在的问题

文章总结了大数据分析比一般规模数据分析更具挑战性的六个原因:

这里写图片描述
Complex data representation - 由于数据的多模态,使用统一表示多类型数据变得困难
Super-high dimensionality - 维数灾难
Massive classes - 当处理的分类问题类别数成千上万时,现有的分类器能够处理这类分类问题,但是性能很差
Weak relation - relation 是相对于mapping来说的。对于大数据来说,很找出精确的映射关系,只能找到relation,但也只需要relation
Unscalable computation ability - 当处理大规模数据时,问题的复杂度和当前算法的计算能力急剧增大,但是计算能力还是赶不上复杂度的提升速度。

2.介绍了七种目前用于大数据分析的策略:

这里写图片描述
Divide-and-conquer - 分而治之就是把大化小,处理每个小块,再将单独的结果融合。在高性能计算领域常用
Parallelization - 把大问题分解成能过同时独立解决的小问题,无法减少工作量,但能减少工作时间
Incremental learning - 增量学习,每当新增数据时,并不需要重建所有的知识库,而是在原有知识库的基础上,仅做由于新增数据所引起的更新
Sampling - 是概率统计中常用的方法,通过抽样技术研究单样本和总体的关系
Granular computing - 粒度计算,将数据大小降低到不同的粒度级别
Feature selection - 特征选择,使用更具代表性/特征维度更少的集合代表原来的特征空间
Hierarchical Classes - 此方法在文章中未提及,补充:类别层次结构来分解问题和组织分类器,可有效解决多类分类问题

3.五种不确定性度量的方法

Shannon entropy - 香农熵,用于衡量随机不定性,值越大表明不确定性越大:
定义

Classification entropy - 类别分布的纯度,二分类问题:
这里写图片描述
多分类问题:
这里写图片描述
Fuzziness - Fuzzy subsets 用于说明类似于老和少的边界,这种人类语言描述中无法确切划分的不确定性。通常,对于一个集合
这里写图片描述
对应的fuzzy subset 定义为:
这里写图片描述
A中元素是通过映射函数得到的[0,1]之间的值,此映射函数称为隶属函数,表明属于某一个x的隶属度。
而Fuzziness是一种判定模糊程度的度量方法,定义为:
这里写图片描述
Nospecificity - 非特异性也称ambiguity,是另一种度量fuzzy subset不确定性的方法,定义如下:
这里写图片描述

Rough degree - 粗糙度

论文方法和创新点

介绍了两种基于不确定性的大数据研究方法:

1.基于fuzziness的半监督学习
假定A是一个大规模数据集,但存在label缺失的情况,B是A的一个子集。可以通过使用B训练出分类器,并对A-B集合中数据进行预测,根据预测结果挑选数据加入训练集合B中。关键问题是,这个训练好的分类器要达到什么要求–通常来说,训练精度应该在0.5以上才有意义; 另一个问题是如何挑选数据–利用不确定性进行数据挑选,算法如下:
这里写图片描述
创新点在于:将G3和G1都加入训练集

2.基于ambiguity的模型树(AMT)处理混合属性数据
模型树在处理混合属性,尤其是数据多模态下的分类问题时,非常高效率。模型树也是树形结构,但是叶节点是一些特殊的结构。文章提出的AMT是在划分孩子节点时,使用ambiguity度量的方法完成的,叶子节点是一个三层的前馈神经网络(ELM),算法如下:
这里写图片描述

AMT与deep learning结合应用于图像和文本特征的分析在近几年很火

实验

使用scene evaluation 函数和基于fuzziness的半监督学习算法,分别对1.86GB的中国象棋游戏场景分类数据进行训练/预测,最终结果表明基于fuzziness的半监督学习算法性能高很多
实验证明AMT在并行处理大数据集时性能表现有益,用了15个数据集进行测试,表明AMT的测试精度比functional tree/朴素贝叶斯 tree/logistic model tree都要高。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值