Arxiv Dives - 细分任何内容

最新推荐文章于 2024-08-29 16:44:05 发布

xiaoshun007～

最新推荐文章于 2024-08-29 16:44:05 发布

阅读量47

点赞数

分类专栏：翻译文章标签：机器学习

翻译专栏收录该内容

22 篇文章 0 订阅

订阅专栏

Arxiv Dives - 细分任何内容

每周五，我们都会在Oxen.ai举办一个名为“ Arxiv Dives ”的公共论文俱乐部，让我们变得更聪明 Oxen 🐂 🧠。这些是小组会议的笔记，供参考。如果您想加入我们的直播，请在此处注册。

如果下面的一些句子或想法感觉不完整，那是因为它们在现场演练中被更深入地覆盖，这更多的是为以后提供参考。请随意跟随视频进行操作。

Arxiv：https://arxiv.org/abs/2304.02643

发布时间：2023 年 4 月

演示

来源： https: //github.com/YavorGIvanov/sam.cpp

背景知识

分割是计算机视觉中的一项重要任务，可以应用于许多不同的用例。

您可以将其视为使用 Photoshop 中的套索/画笔/橡皮擦工具，放大到非常近，然后选择感兴趣对象周围的每个单独像素。

细分用例

会议

模糊背景

自动驾驶汽车

了解视频每一帧中道路、人行道、其他汽车和树木的位置。

图像编辑

Photoshop 或RunwayML等软件可以自动分割图像的一部分（或者现在重新生成图像的一部分）

体育/直播电视

实时分割球员或演员可以让您在球场上放置数字对象（足球中的第一线，篮球中的时钟）

增强现实

允许您将数字对象放置在具有遮挡的物理世界中。也许是 Meta 在这里付出努力的一个巨大动力。

库存管理

识别货架上的所有产品。

卫星图像

了解洪水、野火、土地与水、天气模式。

介绍

Meta 引入了一种名为“Segment Anything”（SA）的模型，以及 1100 万张许可且尊重隐私的图像上的 10 亿个掩模的数据集。

该模型旨在“快速”，以便用户轻松交互。如果您从法学硕士的角度来看，此设置中的提示可能会令人困惑。他们使用点击和边界框作为生成蒙版的提示。您还可以训练系统接受文本提示。

计算机视觉具有 CLIP 和 ALIGN 等基础模型，用于训练 DALLE 和 Stable Diffusion 等模型来对齐文本和图像。这些模型是根据图像->文本对（从网络图像中的替代文本中提取）进行训练的，但除此之外，对于其他任务，不存在丰富的训练数据。

三个关键组成部分

任务-提示分割
模型 - 支持实时提示和输出掩码以供交互使用的架构
数据 - 构建网络规模的数据集和“数据引擎”以收集更多数据。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Arxiv Dives - 细分任何内容

这些模型是根据图像->文本对（从网络图像中的替代文本中提取）进行训练的，但除此之外，对于其他任务，不存在丰富的训练数据。Meta 引入了一种名为“Segment Anything”（SA）的模型，以及 1100 万张许可且尊重隐私的图像上的 10 亿个掩模的数据集。如果下面的一些句子或想法感觉不完整，那是因为它们在现场演练中被更深入地覆盖，这更多的是为以后提供参考。您可以将其视为使用 Photoshop 中的套索/画笔/橡皮擦工具，放大到非常近，然后选择感兴趣对象周围的每个单独像素。识别货架上的所有产品。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。