【计算机视觉】回顾2022年计算机视觉领域最激动人心的进展

2022年计算机视觉领域经历了显著发展,Transformer模型在图像识别中占据主导,以数据为中心的方法受到重视,AI艺术创作繁荣,多模态AI技术逐渐成熟。新应用包括运动中的越位检测、环保领域的废物监测、自动驾驶的进步以及医疗健康领域的非接触式血压检测。
摘要由CSDN通过智能技术生成

一、前言

过去 12 个月见证了计算机视觉的快速发展,从支持基础设施到跨行业的新应用,再到研究中的算法突破,再到 AI 生成艺术的爆炸式增长。本篇文章带大家一起回顾一下这些令人兴奋的发展。本文将通过五个部分来回顾计算机视觉领域在2022年的发展。

二、计算机视觉趋势

2.1 Transformer统治计算机视觉

Transformer 模型在 2017 年在Attention is All You Need论文中被提出,之后广泛用于深度学习领域,为各种 NLP 任务设定了标准,并开创了大型语言模型 (LLM) 的时代。Vision Transformer (ViT) 于 2020 年底推出,标志着这些基于自我注意的模型在计算机视觉环境中的首次应用。

今年,研究将 Transformer 模型推向了计算机视觉的前沿,在各种任务上实现了最先进的性能。例如:DETR、SegFormer、Swin Transformer和ViT。

这个GitHub总结了相当于的基于Transformer的网络。感兴趣的小伙伴可以关注一下。

https://github.com/Yangzhangcst/Transformer-in-Computer-Vision

2.2 以数据为中心的计算机视觉获得牵引力

随着计算机视觉的成熟,越来越多的机器学习开发工作专注于整理、清理和扩充数据。数据质量正在成为性能的瓶颈,行业正朝着数据模型协同设计的方向发展。以数据为中心的机器学习会越来越受欢迎。

这一努力的掌舵者是新一波的初创公司——合成数据生成公司(gretel、Datagen、Tonic)和评估、可观察性和实验跟踪工具(Voxel51、Weights & Biases 、CleanLab)——加入现有的标签和注释服务(Labelbox、Label Studio、CVAT、Scale、V7 ) 的努力。

2.3 AI 生成的艺术作品

在生成对抗网络 (GAN) 的改进和传播模型的快速发展和迭代之间,AI生成的艺术正在经历只能被描述为复兴的过程。借助Stable Diffusion、Nightcafe、Midjourney和 OpenAI的DALL-E2等工具,现在可以根据用户输入的文本提示生成令人难以置信的细微图像。Artbreeder允许用户将多个图像“培育”成新作品,Meta的Make-A-Video从文本生成视频,而RunwayML在创建动画和编辑视频方面改变了游戏规则。其中许多工具还支持修复和outpainting,可用于编辑和扩展图像范围。

随着所有这些工具彻底改变 AI 艺术能力,争议几乎是不可避免的,而且已经有很多。9 月,一张AI 生成的图像赢得了一场美术比赛,引发了关于什么才算是艺术,以及所有权、归属和版权如何适用于这类新内容的激烈讨论。估计这个讨论会越来约激烈。

2.4 多模态人工智能成熟

除了 AI 生成的艺术作品,2022 年还见证了多种模式交叉领域的大量研究和应用。处理多种类型数据(包括语言、音频和视觉)的模型和管道正变得越来越流行。这些学科之间的界限从未如此模糊,异花授粉也从未如此富有成果。

这种上下文冲突的核心是对比学习,它改进了将多种类型的数据嵌入同一空间的方法,开创性的例子是 Open AI 的对比语言-图像预训练 ( CLIP ) 模型。
这样做的一个结果是能够根据文本或其他图像的输入对图像集进行语义搜索。这刺激了矢量搜索引擎的繁荣,Qdrant、Pinecone、Weaviate、Milvus和其他引擎引领潮流。同样,模态之间的系统连接正在加强视觉问答和零镜头和少镜头图像分类。

三、计算机视觉的新应用

计算机视觉现在在从体育和娱乐到建筑、安全、农业等各个领域都发挥着重要作用,在这些行业中的每一个行业中,都有太多的公司采用计算机视觉来计算。本节重点介绍计算机视觉正在深入嵌入的一些行业中的一些关键发展。

国际足联在 2022 年卡塔尔世界杯上使用的半自动越位检测功能的图示:

在这里插入图片描述

3.1 运动领域

当国际足联在卡塔尔世界杯上使用半自动系统检测越位时,计算机视觉就出现在了最大的舞台上。他们还使用计算机视觉来防止体育场发生踩踏事件。

其他值得注意的发展包括Sportsbox AI 筹集了由 EP Golf Ventures 牵头的 550 万美元 A 系列,将运动跟踪引入高尔夫(和其他运动),以及新公司Jabbr 为格斗运动定制计算机视觉,从 DeepStrike 开始,这是一种自动计算出拳次数的模型并编辑拳击视频。

3.2 环境保护

循环经济初创公司Greyparrot为其计算机视觉驱动的废物监测系统筹集了 1100 万美元的 A 轮融资。Carbon marketplace NCX 使用尖端的计算机视觉模型和卫星图像来提供木材和碳潜力的精确评估,筹集了 5000 万美元的 B 轮融资。Microsoft宣布了 Microsoft Climate Research Initiative (MCRI),它将把他们的计算机视觉用于可再生能源测绘、土地覆盖测绘和冰川测绘方面的气候努力。

3.3 自动驾驶

2022 年对整个自动驾驶汽车行业来说有点喜忧参半,自动驾驶汽车公司Argo AI 在 10 月关闭运营,福特和Rivian将他们的重点从 L4(高度自动化)转移到 L2(部分)和L3(条件)自动化。Apple 最近还宣布缩减其自动驾驶项目“Project Titan”,并将发布时间推迟到 2026 年。

尽管如此,计算机视觉还是取得了一些显着的胜利。麻省理工学院的研究人员发布了第一个用于自动驾驶的开源逼真模拟器。在从英特尔分拆出来后,驾驶辅助部门Mobileye 筹集了 8.61 亿美元的 IPO 。谷歌收购了空间人工智能和移动创业公司 Phiar。Waymo在凤凰城市中心推出了自动驾驶汽车服务。

3.4 健康与医药

在澳大利亚,工程师们设计了一种很有前途的基于计算机视觉的非接触式血压检测方法,它可以替代传统的充气袖带。此外,谷歌开始将其基于计算机视觉的乳腺癌检测工具授权给癌症检测和治疗提供商iCAD

四、总结

2022 年对于机器学习来说非常活跃,对于计算机视觉来说尤其如此。疯狂的是,研究的快速发展、从业者人数的增长和行业的采用似乎都在加速。让我们看看 2023 年会发生什么!

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值