学习笔记 ——深度学习和机器视觉

最新推荐文章于 2024-07-26 17:16:06 发布

xtyang315

最新推荐文章于 2024-07-26 17:16:06 发布

阅读量1.7w

点赞数 2

分类专栏： machine learning 文章标签：深度学习机器视觉机器学习

本文链接：https://blog.csdn.net/yjn03151111/article/details/50437951

版权

这篇博客总结了2015年CVPR深度学习在计算机视觉研讨会的主要内容，涉及深度学习理论、语义学习、神经网络与GPU、深度视觉、视觉表示学习以及目标检测的最新进展。Yoshua Bengio探讨了深度学习的理论和注意力机制，Xiaodong He介绍了深度语义学习，包括多模态语义模型。Julie Bernauer讨论了GPU在深度学习中的应用，Rahul Sukthankar提出了使用同行压力方法找寻高价值错误，Andrea Vedaldi研究了CNN在图像识别和纹理分辨中的作用，而Xiaogang Wang则展示了可变深度卷积神经网络在目标检测中的应用。

摘要由CSDN通过智能技术生成

一直自称研究方向是“机器视觉、机器学习和深度学习”，然而除了做过几个相关的项目以外，感觉自己对这个领域并没有足够深入的认识和理解。趁着这个假期我要好好补补课了。今天先来看一些high level的内容，看看深度学习近期的最近进展以及其在机器视觉问题中的应用。学习资料来源于2015年CVPR的Deep Learning in Computer Vision Workshop 里invited speaker的slides，介绍了理论、应用、实现等方面的内容，应该是干货满满的。对于每一个talk，我会把内容框架记录下来（可以check一下对这些点是否有一定了解？），并记下一些个人觉得有趣的点。想看完整内容就戳这个链接吧：Deep Learning in Computer Vision Workshop

一、深度学习：理论和关注机制的进展（Yoshua Bengio）

顾名思义，Bengio的talk主要讲了两个部分：理论进展和attention mechanism。理论进展介绍了：

分布式表示的“指数级”优点
深度的“指数级”优点
非凸优化和局部最小值
自编码器的概率解释

Attention 机制则介绍了在机器翻译、语音、图像、视频和记忆单元中的应用。

分布式表示和深度的优点Bengio之前的talk里已经讲过不少次了。简单的说，虽然类似local partition的方法可以得到有用的表示，浅层（2层）的神经网络也可近似任意的函数，但是分布式表示和深度的引入可以使特征表示和模型变得更加紧凑（compact），达到exponentially more statistically efficient的效果。

接下来提到了在深度学习中凸性质（convexity）可能并不是必要的。因为在高维空间中，鞍点（saddle point）的存在是主要问题，而局部最小值通常都会很接近全局最小值了。这部分的内容比较陌生，有兴趣可以看看最近的论文。

Attention 机制方面，讲了很多最新的进展。有很多相关的paper都非常有趣，我要找个时间好好看看这个系列了。一个基本的思路是：我们给每一层引入一个额外的输入，这个输入反应的是之前的一个加权，来表示它们的关注程度。在所谓的soft-attention中，这个加权的值可以直接通过BP训练得到。记下几句有趣的话：
- They (Attention mechanism) could be interesting for speech recognition and video, especially if we used them to capture multiple time scales
- They could be used to help deal with long-term dependencies, allowing some states to last for arbitrarily long

二、深度语义学习（Xiaodong He）

来自微软研究院的报告，主要内容：

学习文本的语义性（semantic）表示
知识库和问答系统
多模态（图片——文本）语义模型

讲座开始引入了一点有趣的motivation：一般我们测试机器是否能够理解图片（其实就是训练对了），方法是给图片标记标签然后计算其错误率。然而对于含有丰富内容的复杂场景来说，很难定义所有fine-grained的类别。因此，用自然语言的描述来测试对图片的理解是比较好的方式。

从 Word2Vec 到 Sent2Vec：Deep Structured Semantic Model (DSSM)，虽然我们不知道该如何标记一个句子的语义，但我们知道哪些句子的语义是比较接近的，因此文章通过优化一个基于相似性的目标函数来训练模型，使具有相近语义的句子产生距离相近的向量。接着还介绍了很多模型的细节和变种（卷积DSSM、递归DSSM），在此就不赘述了。

Deep Multimodal Similarity Model (DMSM)：将目标函数中两个句子的相似性改成句子和图片的相似性，便可以将DSSM扩展为一个多模态的模型。

DMSM