端到端学习(End-to-End Learning):在学习过程中不进行分模块或分阶段训练,直接优化任务的总体目标。
上述概念略抽象,来进行举例说明一下:
在机器学习中,在input和output之间存在的很多模块或步骤,拿文本分类来说:首先得对文本进行分词处理,然后再选择利用不同的特征表示来对词进行数字化,比如one-hot或word embedding,然后根据需要可以进行词性标注之类的,然后选择不同机器学习模型进行分类。
而在深度学习中,更多的是端到端学习,也就是输入input就能得到output,比如输入一段文本,我能直接得到是什么类别,对比于机器学习相当于省去了特征处理、特征表示等步骤,或者说在深度学习的网络中暗自包含了这些东西,比如图片的纹理、方向或者哪里是人的头哪是动物什么的,这些特征在神经网络中其实是可以表现出来的。比如AlexNet论文中说了在最后一层4096维向量,一些类似的图片中这些4096维特征向量他们的欧氏距离确实是很小的,因此可以归为一类。这也相当于在网络中暗自体现了特征提取的步骤。
论文原文描述如下:
将最后一层相似图比较: