笔者按 :机器学习正在走向基于“语义”的可解释模型的新时代。但在很多场合,例如“语义”驱动的监督学习器在能够达到更强泛化能力前,也还需要数据驱动型算法,而后者的“养料”是标注的大数据,周登勇博士的这个报告介绍了大数据标注的关键技术。
其它评述链接在此。
概要
报告分两个主要部分,并主要围绕第二部分展开讨论:
1. 为什么需要众包?
2. 提升众包质量的策略:提出了基于众包的标记质量和众包动机两个问题,并分别给出并介绍了统计推断机制和激励机制设计两个解决方案。
1. 为什么需要众包(Crowd-Sourcing)?
其实这个问题不如反过来问,比如为什么不用半监督学习呢?为什么不用杉山将的弱监督学习呢?为什么不用Dr. Fei-Sha 多任务学习(multi-task learning)、领域适应(domain adaptation)和零样本学习(zero-shot learning)解决小数据问题呢?
周博士的回答是:基于众包的标注可以做到既省时间又省钱,而且引用了ML领域的经典Remark:“更多的数