数据表示的要素——An Abstract to the Review of Representation Learning
原文致力于通过Deep Learning来学习数据表示方法。本文将文中提到的数据表示一般依据从Deep Learning中剥离出来,希望对其他方法也有借鉴。
学习数据的表示方法可以使得在构建分类器或其他预测机制(classifiers or other predictors)时抽取有用信息更容易。由于数据表示方法的基础性地位, 该领域在机器学习范畴中变得举足轻重。NIPS和ICML等顶级会议均设置了相关的常规workshop。最近,一个针对该领域的新会议——International Conference on Learning Representations也得以创办。
- Representation Learning的一般先验假设
好的数据表示方法应该能够满足对世界知识的一般先验假设(general priors about the word around us)。这些先验假设并不是针对特定人工智能任务的,但却可以被应用于相关任务。这些先验假设的例子包括:
平滑性(Smoothness):如果一个方程满足,当x≈y时,f(x)≈f(y),那么这个方程是平滑的。这是许多机器学习任务的前提假设,但当维度灾难出现时,这一前提是很难满足的。
多解释因子(Multiple explanatory factors):数据的分布通常是由潜在的因子产生的。在大多数情况下,学习到一个潜在因子也就生成了其他潜在因子的相关配置信息。这一前提是distributed representations的前提假设。学习的目标是揭示这些潜在的因子。
解释因子的拓扑表示:描述宏观世界的概念可以使用更加抽象的概念定义,以此类推,表现为一个自顶向下,从抽象到具体的拓扑表示。
半监督学习(Semi-supervised learning):X是输入数据,Y是预测目标, 当已知X时,一个X的解释因子的子集同样