何凯明论文系列
文章平均质量分 89
因为凯明大神是我的偶像,他的学术贡献实在是太大了,他甚至为了继续做学术从脸书研究所辞职到MIT任职,真的很崇拜他!
BlackBack_
随缘更新,随缘看私信,谢谢支持;如有急事,发邮件至BeyondHello@163.com
展开
-
Deconstructing Denoising Diffusion Models for Self-Supervised Learning
在本研究中,作者们研究了最初用于图像生成的去噪扩散模型(DDM)的表示学习能力。作者们的理念是解构DDM,逐步将其转变为经典的去噪自动编码器(DAE)。这种解构过程使作者们能够探索现代ddm的各个组成部分如何影响自监督表征学习。作者们观察到,只有很少的现代模块对于学习良好的表示是至关重要的,而其他许多组件则是不必要的;作者们把多余的简化,化繁为简得出了一种高度简化的方法类似于经典的DAE。l-DAE在很大程度上类似于经典DAE,可以在自监督学习中表现得很有竞争力,关键原因是加有噪声的低维潜在空间。原创 2024-03-23 22:26:08 · 993 阅读 · 1 评论 -
A Decade’s Battle on Dataset BiasAre We There Yet?
数据集在计算机出现之前成为“刺激”;1978以来,逐渐形成用Cameraman图像作为测试图像去评估计算机视觉算法的概念;机器学习方法的引入,也清晰了数据集的定义;ImageNet数据集如果用1000个SVM分类器进一步研究问题是不太可能的,所以有了更多样的任务,也就发展后续的深度学习,转变成另一种模式:在ImageNet上预训练表征并将其转移到下游任务中;后续则越来越多数据集为了预训练而构建,并不是单一的一个任务方向;后续数据集通过不同的领域划分;之后的内容都是在介绍数据集的偏见有多么的不好;原创 2024-03-18 01:13:33 · 1037 阅读 · 0 评论 -
Mask RCNN
论文下载:https://arxiv.org/pdf/1703.06870.pdf论文代码:https://github.com/facebookresearch/Detectron论文摘要:本文提出了一个概念简单、灵活和通用的对象实例分割框架,有效地检测图像中的对象,同时为每个实例生成高质量的分割掩码。这个框架称为Mask R-CNN,由Faster R-CNN扩展,通过增加一个分支来预测一个对象掩模,并与现有的分支来识别边框。Mask R-CNN很容易训练,并且只在Faster ..原创 2021-02-18 21:01:38 · 676 阅读 · 0 评论 -
Faster R-CNN
论文下载:https://arxiv.org/pdf/1506.01497.pdf论文代码:https://github.com/rbgirshick/py-faster-rcnn论文摘要:目前最先进的目标检测网络依赖于区域建议算法(region proposal algorithms)假设目标位置。该论文研究中,引入一种区域建议网络(RPN),RPN与检测网络共享图像的卷积特征。并且RPN是一个全卷积网络,同时预测每个位置的目标框(objects bounds)和目标分数(objec.原创 2021-01-19 15:57:40 · 249 阅读 · 0 评论 -
Rethinking ImageNet Pre-training
COCO上进行随机初始化(从零开始)训练,无需任何预训练,就可以达到竞争性目标检测和实例分割的准确性如果:(i)我们使用适当的归一化技术进行优化,(ii)我们对模型进行了足够长的训练,以弥补前训练的不足,没有根本的障碍阻止我们从头开始训练可以从零开始训练大型模型——比ResNet101大4倍——而不会过度拟合(i) ImageNet预训练的加速收敛,特别是在培训(ii) ImageNet预训练不会自动提供更好的正则化(iii)当目标任务/指标对精确定位的空间预测更敏感时,ImageNet的预训练。原创 2024-03-18 21:23:39 · 812 阅读 · 1 评论 -
ResNet
作者提到,更深层次的神经网络更难训练,提出一个残差学习框架(residual learning framework)能从大幅度增加的深度获得准确性,且这些残差网络(residual networks)更容易优化。作者在ImageNet数据集上评估高达152层的残差网络复杂性依然很低,尽管它比VGG网深8倍。该网络在2015年的ILSVRC和COCO 竞赛的各项目中均获得第一名。原创 2020-11-13 17:06:25 · 247 阅读 · 0 评论 -
Aggregated Residual Transformations for Deep Neural Networks(ResNeXt)
该论文提出了一个简单、高度模块化的图像分类网络结构。该网络结构是通过重复一个构建块(buildng block)搭建的,这个构建块聚合了一组具有相同拓扑结构(same topology)的转换。这种策略提出了一个新的维度概念,作者称为“基数(cardinality)”,定义为转换维度的大小(the size of the set of transformations),并且是作为一个除了深度和宽度对神经网络必不可少的因素。在ImageNet-IK数据集上,实验表明,即使在维持复杂性的限制条件下,原创 2020-10-24 16:44:24 · 514 阅读 · 0 评论 -
Focal Loss for Dense Object Detection(RetinaNet)
目前一阶段(one stage)目标检测器比二阶段(two stage)的算法更更快、更简单,但在精度方面仍然落后于二阶段检测器。在本文中,作者将研究这一情况的主要原因。作者发现其主要原因是密集的神经网络检测器(dense detectors)在训练中会遇到极端的前景-背景类不平衡(foreground-background class imbalance)。作者创造性的重新定义标准的交叉熵损失(cross entropy),来降低分配给良好例子的损失权值,从而解决这个类不平衡问题。原创 2020-11-01 17:31:26 · 263 阅读 · 1 评论