目前计算机视觉的现状和趋势，你怎么看？

最新推荐文章于 2023-12-28 10:24:39 发布

woshicver

最新推荐文章于 2023-12-28 10:24:39 发布

阅读量512

点赞数

文章标签：算法大数据编程语言 python 计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzU2NTUwNjQ1Mw==&mid=2247508420&idx=1&sn=c2e1c7e7601bea4742c48a8ecac13a18&chksm=fcb8593ecbcfd0285ed4bab4c40470fd7a1a543d1d73da5e8ebe024471b2649180f2c5798a68&scene=126&&sessionid=0

版权

链接：https://www.zhihu.com/question/361846939

编辑：深度学习与计算机视觉

声明：仅做学术分享，侵删

目前计算机视觉领域相对于目前硬件和技术水平来说目标检测，追踪，分割，VQA到底发展到了什么地步，未来有哪些可以走下去的方向？多模态融合？你怎么看？

作者：凤舞九天
https://www.zhihu.com/question/361846939/answer/1763892634

简单说下吧，在计算机视觉领域内也算是摸爬滚打三四年了。自己或组里其他同事检测，分类，OCR，视频，动作都接触过。不过这里更多偏向做业务，不是做学术。

直观的感觉就是现在各个问题算法效果都能出一个baseline，但是调优的空间并不大，更多的时候是靠苦力，比如标数据，清洗数据，badcase分析，写一些保护逻辑，前后处理等。就像学术界几篇无监督MOCO，CLIP等新作，确实很惊艳，但是，比不上我用业务数据训练出来的backbone模型，这个没办法。再说NLP里面bert大火，无论检测，识别，GAN，还是多模态都有论文，也不乏一些惊艳的论文。其中多模态bert我有试，单模型提升也不大，说起来很心塞。辛辛苦苦试了新模型，调整，调优，不一定搞得过写点策略，清洗下数据，说起来后者省时省力，一周就出效果去汇报。

最后谈点看法吧，主要是两点。一个是说技术是技术，产品是产品，技术要依赖产品，而不是我的产品厉害是因为我的视觉算法厉害，这个太难了。技术还是要依赖产品做出口，未必技术登峰造极，这里不单单是计算机视觉了。大家可以看看自己用的最多的软件，有多少是说哪个功能别人做不了呢。还有一点是我刚还是关注的产业AI，不过这块了解不多，希望能做起来吧，感觉是AI最后的希望了。

作者：匿名用户
https://www.zhihu.com/question/361846939/answer/945007433

今年视觉找工作都已经诸神黄昏了,头条官方劝退。好在我们组的几个硕士找的工作都还可以,可是我们组无论找算法,开发,还是游戏工作都可以呀, 这和组内氛围有关,和方向关系不大。另外视觉方面基本上已到天花板, 很少有新东西了。比如超分,基本上大家都在改结构,画电路图,一年大概只能出来三、五篇有价值的文章。分类,检测,分割也很少有新东西了,而且对卡要求比较高,没卡不推荐玩。行人重定位和图神经网络是新的灌水方向。跟踪代码很少有开源的,复现成本较高。多模态融合我们组没有做, 不发表评论。

总体而言,大家基本上都在公开数据集上刷指标。真实情况是,指标刷的再欢,到非限制性场景中分分钟被教做人。

作者：知乎用户
https://www.zhihu.com/question/361846939/answer/1907996410

自己毕业工作了也有几年了（在这个行业内也摸爬滚打至少六年了），这里侧重分析一下算法在工业界的应用前景和落地瓶颈。虽然对于过去几年行业内的大事件（显著的技术突破或者巨量的资金流入）如数家珍，但是对于计算机视觉行业的发展仍不敢妄言。

计算机视觉（Computer Vision，简称CV）行业的快速发展的确得益于人工智能概念的火热，当然这背后又有着计算机硬件算力的提升和深度学习理论的发展等诸多原因。

目前CV技术可以“不严谨”地分为这么几类：1、目标检测；2、图像分割；3、图像增强（图像修复，超分）；4、图像生成（风格迁移）；5、人脸（宠物，属性）分类识别；6、姿态估计；7、立体视觉；8、其他…… 他们或多或少的应用于安防、智能驾驶、物联网、手机拍照、工业自动化等领域。其中每一个细分类都至少是一个千亿市值的市场。

尽管如此，刷榜方面工业界CV算法并没有和学术界拉开差距。换句话说，工业界CV算法会比较偏重于业务，而且仅仅偏重于业务。对于CV中每个具体的问题，学术界都存在一个baseline实现了基本的或者可以接受的算法效果，但是在此基础上继续调优的空间并不大。

这一点上CV领域的发展类同于机器学习。听说这是机器学习论文现状？为了一点点的精确率或准确度提升而挣扎

刚才提到每个细分领域都有千亿级的市场，所以工业界CV算法值钱的地方在哪儿呢？在于基于业务理解的基础上对客户需求的定制。说白了就是为了能够紧贴客户的需求，工业界为了算法落地所做的努力。为了能够将算法落地，也就是为了能够满足客户需求，所做的努力包括不限于：网络架构实验，训练方法试验，造数据，清洗数据，badcase分析，打补丁，底层性能优化……每一点都要耗费巨大的人力物力。

另外提一点，数据在算法效果上的影响比你想象地要大。一般情况，我们会将数据放在与网络框架训练细节同等重要的位置；但是更常见的情况，数据会比其他算法细节更重要（数据是产生业务壁垒的重要原因）。所以工业界发展遇到的一些问题与学术界相似，学术界方法有所突破后工业界才可能产生更多的新应用。

不负责任地讲一下，目前能看得见的、可以落地、值得研究的研究方向有，视频处理方面的（包括视频检索，视频分类等等），端侧CV算法应用（例如视频实时换脸），多模态融合（语言、文字、视觉）等等……

长远来看，CV技术必然能在未来科技树中占有一席之地；但短期来看，AlphaGo在16年掀起的一阵人工智能热潮渐渐平息了下去，市场也渐渐回归了冷静。啰嗦一句，CV还在发展，还在前进，不要俯视，也没必要仰望。

作者：yy18dlz
https://www.zhihu.com/question/361846939/answer/1773780107

某安防行业算法工程师

日常工作最多的就是清理数据，提交标注，增加数据优化模型。

学术界很多的东西几乎很难用的上，因为不仅仅是训练模型，你增加新的结构，例如空洞卷积，得看移植的设备平台是否支持，一个模型要转换到各种平台，所以大部分的时候，为了减少不必要的麻烦，模型都是用最基本的卷积池化和激活操作堆积起来。

而且公司大部分都是业务驱动，安防行业最大的特点就是业务需求杂，碎片化。

基线不是基线，定制满天飞。

今天检测人机非，明天检测鸡鸭狗，这些玩意你说你用什么transformer， detr来解决吗？不现实，还不如我整理数据来的快。

cv工业界80%的问题都是数据问题，还有10%是策略问题，最后10%是学术界也解决不了的问题。

所以，工业界的算法可能和你想象的做研究不太一样，尤其是落地的算法。纯算法研究刷比赛水论文可能比较接近学校的状态。但是又有几个公司能花闲钱养这样的机构。