表示学习与特征工程的概念
当我们进行机器学习算法时,首先做的第一步是对数据进行提取特征,而在机器学习中一般有两种思路来提升原始数据的表达:
1.表示学习:
为了提高机器学习系统的准确率,我们就需要将输入信息转换为有效的特征,或者更一般性称为表示。如果有一种算法可以自动地学习出数据有效的特征,并提高最终机器学习模型的性能,那么这种学习就是可以叫做表示学习(Representation Learning),也叫特征学习。
2.特征工程:
主要指对于数据的人为处理提取特征,有时候也代指“洗数据”。
二者的区别与联系:
不难看出,两者的主要区别在于前者是“学习的过程”,而后者被认为是一门“人为的工程”。用更加白话的方式来说,表示学习是从数据中自动抽取特征或者表示的方法,这个学习过程是模型自主的。而特征工程的过程是人为的对数据进行处理,得到我们认为的、适合后续模型使用的样式。总的来说,表示学习是让机器自动提取特征,而特征工程是人为的提取特征。
根据这个思路,机器学习模型对于数据的处理可以被大致归类到两个方向:
- 表示学习:模型自动对输入数据进行学习,得到更有利于使用的特征(*可能同时做出了预测)。代表的算法大致包括:
深度学习,包括大部分常见的模型如CNN/RNN/DBN/GCN等,
某些无