计算机视觉是否已经进入瓶颈期?

链接:https://www.zhihu.com/question/51863955

编辑:深度学习与计算机视觉

声明:仅做学术分享,侵删

1c27d2e8104256900fdc0fbe49da5ea8.png

近些年来在机器学习(深度学习)的支持下,计算机视觉迅速发展,并且与ML的发展在图像数据处理的交集上绑定在了一起。但CV领域自身的理论发展仿佛速度在放缓,那么未来CV的发展会不会因为自身发展的不足而只能依托其他领域发展的支持,计算机视觉领域是否会产生饱和甚至萎缩。不论兴趣,单从时机考虑,现在进入这个领域还来得及吗?

12605ebfb4a4e01a14cbe91122c9fef4.png

作者:HeptaAI

https://www.zhihu.com/question/51863955/answer/2525216135

先说结论:不,能做的方向太多了,但是比起以前需要能力或者更多时间:图像理解卷,但是是基础,要学但是可以不作为研究方向,图像理解的小样本学习、持续学习、医疗影像理解倒是比较乐观,3D也相对2D好一些;图像生成在大实验室,算力足,可以做;检索不推荐;Robotics建议大佬做,很有前景;图像序列的多目标跟踪、步态识别等建议专业Lab做;跨学科多模态很适合做,但是要学多个学科的知识。我们来看一下细致的分析:

  1. 图像理解(目标检测、图像分类、图像分割)这边,三个子领域都由于benchmark非常成熟,总体呈内卷态势,做的人很多,优秀的工作很少。仔细调查发现,这是行业的正常情况,因为这个领域和深度学习结合起来的发展时间是最长的,从李飞飞2009的ImageNet开始发展到现在,已经有13年的历史了,而ImageNet的benchmark已经相当完善,所以缺乏活力。我们总结了图像理解的突破口:一个是小样本学习的benchmark,建立一个有规模的迁移学习数据集;另一个是持续学习的benchmark。这两块,最近的会议都开始大量征稿,属于是热点方向。还有一个是医疗图像理解特别是MRI,这一块属于是造福人类的领域,世界各国给的Funding都很足。1个点在通用领域没什么价值,但在手术台上可能就直接决定一个人的生命。有研究指出多目标的工作还差点火候,可以继续做;但我们自己调查了论文的数量和质量,认为其实这也属于卷的比较严重的一边,厉害的模型像是YOLO,已经做到了非常好的效果,之后基本没有让人耳目一新的模型出现。另外,3D领域相对2D会好一些。

  2. 图像生成(超分辨率、文本to图像、图像去噪、风格迁移)这一块,超分辨率基本已经做烂了,而且因为本身就是个比较简单的task,内卷非常严重;文本to图像这一块卷倒是不卷,经常有好的工作出来,问题是好的工作都是几千亿算力的大公司例如Google在做,例如前段时间的DALL-E,如果在一般的实验室不建议入坑,很容易做完实验写paper的时候突然发现已经被大厂做完了,沦成同期工作;图像去噪是一个相对小众的分支,想入门看这个综述,主要与在MRI结合的方向比较有实用价值,所以可以预计这一块前景不错。风格迁移这边谈不上卷,但是跟艺术结合的领域Funding明显不够,就业面也窄,所以目前阶段各种评价都偏娱乐向。

  3. 图像检索(以图搜图、以文搜图)其实本质还是图像理解,而且算是一个已经比较成熟的区域了,例如搜索引擎、相似度推荐等,10年左右开始技术飞跃就困难重重了。现在这一块很少有Lab在做了,慎入。

  4. Robotics(计算机视觉在无人车、无人机、机械臂上的应用)这一块,能做的还有太多。这一块用到深度学习(基于统计的方法)的还很少,基本都是基于规则的方法,其实计算机图形学更多一些。最热门的算法像是SLAM,都是被规则方法统治的。问题是,想要把计算机视觉用到这些科目上的难度非常大,改模型调参的结果没有规则方法好。所以做这个方向数学一定要好,否则很容易变成做横向,我们隔壁Lab就大量接横向,研究性质的paper发的不多。

  5. 图像序列(目标跟踪、图像序列分类、步态识别)其实就是一串图片拼起来,多了个时间维度,这块总体就业面稍窄,无外乎安防监控、无人驾驶两个领域,这三个子领域相对更有前景。目标跟踪推荐多目标跟踪,应用价值最高,Funding也不错;热点在落地可行性,也就是实时监测和降低算力门槛。序列分类最火的是事件监测,在交通方面有比较大应用。步态识别属于偏小众的方向,但是图像序列的Lab一般都会涉猎,如果Lab是专做图像序列的,例如导师专门做这块,可以考虑入坑。图像序列工作总体上聚集程度高,在专业实验室会比较吃香。

  6. 与NLP的组合(特别是视频理解、视频生成、视频搜索,也就是上面三个经典图像命题的视频版本)这一块,基本上还在蓝海期。视频其实就是图像序列加上音频和文字信息。视频理解像是概括视频的内容、提取视频中的事件这些,跟图像序列主要多一个音频和文字,属于图像序列的超集。远机位视频理解的benchmark实在太少了,很缺苦干做数据集的人,现在风气太浮躁。视频理解里面,视频分类现在是大瓶颈,两三年了还是那个模型。视频生成像是从一幅图片生成一整个视频,研究算是非常火爆的,可以用作推理专家系统,从一幅图片里面进行有端联想。视频生成里面视频质量也是一个很值得做的方向,现在很多视频内容是优质的但分辨率太低,视频超分效率感人,这边的研究实在是少的可怜。视频搜索可以用来做视频推荐算法,作为视频除了标题的一个文本参照,在标题党越来越多的情况下提升推荐质量。视频这一块总体来说难度都比较大,需要对CV和NLP都有涉猎,所以你光会CV还是容易陷入内卷,博采众长才是王道。

  7. 多模态。这个学科就是大量知识的杂糅,其实也是一个跨学科的方向,还是很容易出paper的。其实视频方向也是一种多模态,但是和NLP的关系最大,也是多模态里面最火的一个方向,所以放到上面一条单独讲。因为我们并不认为多模态是CV的一个部分,而是CV的超集,因此没有做重点survey。

作者:陀飞轮
https://www.zhihu.com/question/51863955/answer/1879155038

先说结论:从2021年时间节点看,计算机视觉已经进入了瓶颈期。

最近计算机视觉入了Transformer,热度空前高涨,我觉得CV用Transformer我还能理解,这对于多模态统一架构来说是有意义的。

但是MLP-Mixer和ResMLP的出现,我就看不懂了,说白了MLP-Mixer和ResMLP其实还是用的卷积,概念玩的6的,只有LeCun说了大实话。

<img src="https://pic3.zhimg.com/50/v2-0051003dd3a68c8d483d4ee8c790b1a1_720w.jpg?source=1940ef5c" data-caption="" data-size="normal" data-rawwidth="1170" data-rawheight="1873" data-default-watermark-src="https://pic2.zhimg.com/50/v2-1ad9a258ab6de2eeae00b1a54809ef5f_720w.jpg?source=1940ef5c" class="origin_image zh-lightbox-thumb" width="1170" data-original="https://pic1.zhimg.com/v2-0051003dd3a68c8d483d4ee8c790b1a1_r.jpg?source=1940ef5c"/> 5bf5ca9204741ac27ca313686ef653f3.png

在我的认知里,大组应该利用好自身的资源人才影响力做一些推动领域发展的工作,现在已经沦落到把MLP翻出来炒冷饭的地步了吗?

种种怪异的现象足以说明计算机视觉已经进入了瓶颈期。

作者:凤舞九天
https://www.zhihu.com/question/51863955/answer/1794052854

前面讲得已经挺好了,不过我作为一线的开发人员,我主要从工业界应用角度出发,说下自己的看法。

确实人脸这个方向,工业上的问题也大多解的差不多了,而且无论共开的还是企业私人的,数据都非常多。但是目前在工业界,包括检测、分割、视频理解、生成模型、机器人、无人车等等都还没有得到比较好的解。而且,在少量训练数据、模型小型化、模型泛化、虚拟生成等等方向也需要技术上的突破。其实一线开发面临的算法问题还有很多,只不过目前也没有特别好的解决方案,新出的论文能有效解决这些实际问题的可能也不多。由于自己工作方向一直是做业务,所以比较关注实际问题的解决。从我的看法来看,目前无论是从算法技术本身还是从算法应用角度,计算机视觉都还大有可为。不过前几年的资本大量涌入,导致大量人涌入CV圈,从一定程度上有人才饱和的趋势,但是真正能解决问题而不是仅仅跑个demo的这种人才还是非常稀缺的。

作者:CW不要無聊的風格
https://www.zhihu.com/question/51863955/answer/1844945081

揭露一个事实:

最大的瓶颈就是人心,来自于该领域下的研究/工作者,而非领域本身。

一直以来,无论是哪个领域,在发展了一定程度之后,总会有大部分人理所當然地觉得到了瓶颈期而放弃,但仍会有一小部分善于发现问题、认真观察与体验生活并且坚持不懈地尝试解决问题的人。

最终,那小部分人始终走在实现自我价值与追求奋斗目标的道路上,而那大部分放弃的人无论到哪个领域都始终会迷茫,被“自我淘汰”。

事实上,所有领域始终在发展,只不过快慢程度不同罢了,而造就这发展程度的不同恰恰是领域研究/工作者。所以,如果你真心热爱这个领域,就请不要给它设置瓶颈,谢谢!

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

bda66b70b80b5f21e6e71ddbad778f78.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值