cs小屋每日一读（计算机视觉快讯）_计算机视觉反恐-CSDN博客

本文链接：https://blog.csdn.net/yychentracy/article/details/94206567

极市平台（五年后计算机视觉）
1 数据集将会同时有手工标注的，生成的，弱监督数据三类，更好的视频理解，以及多模态特征，与世界有更好的互动，针对视频学习，视频数据集的规模不理想，并且现有的数据集多样性，时长，分辨率多有限，新型的数据集需要更多的动作，也更丰富多变。视频学习的目标需要判断时序依赖关系，动作预测，因此也需要新型的模型设计，多模态监督就是将视觉系统和世界互动，和机器人，强化学习结合，音频和文字数据加入可以带来更好的视觉理解。
2 对抗性攻击和鲁棒性问题，这个问题是避免不了的，没有必要花精力想办法避免，实际上可能也无法避免。短期内，视觉和语言是无法结合的，抽象程度相差太多，我们对于可解释性要求太严苛，有些问题没有简单的低维描述都是复杂的，就是需要足够多的数据才可以解决。重新思考数据集，虽然做实验，发论文的时候，需要一定的数据集，但是我们心里一定记得，数据集不等于整个世界。他只是一个相当固定的二维的侧写。
专知（谷歌公布数据集YouTube-8M）
视频片段标签为视频集标签无法实现的时间本地化提供了宝贵的资源，并支持新颖的应用，例如捕获特殊的视频片段，我们不能详细的标注视频中所有的片段，所以创造了YouTube-8M的扩展，进行了5个细分，总共237000个段视频，涵盖1000个类别。
计算机视觉-胶囊网络
胶囊代表的是图像中特定实体额的各种特征，比如位置，大小，方向，速度，色调，纹理等等，作为一个独立的逻辑单元存在，然后使用一个协议路由算法，当胶囊将自己学习并预测到的数据传递给更高层次的胶囊时候，如果预测一致，那么更高级别的胶囊变得活跃，这个过程被称为动态路由，随着路由机制的不断迭代，就能将各种胶囊训练成不同思维的单元，例如让神经网络去识别面部，就将面孔的不同部分分别路由到能够理解眼睛，鼻子，嘴，耳朵的胶囊中去。换句话说，胶囊就是一组被打包好的神经元，他们在内部进行大量的运算，然后仅向上层输出一个结果–高维向量。
胶囊网络相比于一般的神经网络好的地方一般总结为三点
1，卷积神经网络输出的标量，胶囊网络输出的带有方向的向量，向量不仅可以根据统计信息进行特征检测，根据鼻子眼睛等五官识别出来一张脸，还可以根据特征进行理解，比如五官不在特定的区域。他可以检测到不同方向的同一个物体的不同类别，从而学习到基本的思维，知道到底什么样的五官才是脸。
2 卷积神经网络每一层都要做同样卷积运算，因此需要相当多的网络数据才可以学习，否则无法准确的调参，非常耗时，低效且昂贵。胶囊网络可以学习特征向量，最大化的保留有价值的信息，因此可以使用更少的训练数据推断出可能的向量。达到CNN 的预期效果。
3 卷积神经网络不能很好的处理模糊性，因为不断地池化就会丢失很多重要的特征信息，因此对于微小的变化不是很敏感，在语义分割的复杂任务中需要构建复杂的体系结构来解决信息丢失的问题，但是胶囊网络不一样，每个胶囊都携带者大量的信息，目标的位置，旋转，厚度，倾斜，大小等详细因素都被保存并平移给上层胶囊，自然也就可以用一些简单一致的架构对应不同的视觉任务。
胶囊网络的缺陷
1 模型训练的周期局限，由于需要在每个胶囊网络单元中完成计算，导致模型训练的时间很慢
2学术起步阶段的研究局限，目前针对胶囊网络研究大多集中在零样本和少样本任务中，准确性还有待提高
3，胶囊网络的自身局限，如果一个胶囊网络彼此靠得太近，就没有办法区分出同一个类别的两个对象，因此在模型中，给定的位置上，只能有一个给定类别的胶囊。就大大局限了在现实中的应用。
几个重要的成就
1 胶囊网络抵御对抗性攻击，对抗性攻击对于不同方向的图片，cnn就很不容易辨认，如果一些特征被放错了位置，CNN就会被图片欺骗
2 胶囊网路+图卷积GCN的图分类能力（可以判别特征之间的相似性）
3 胶囊网络+注意力机制=零样本意图识别
例如在智能问答和对话系统中，如何快速识别和明确新用户的对话信息，对层次特征进行向量化处理。