视觉生产技术
定义和分类
视觉生产定义
视觉生产就是通过一个/一系列视觉过程,产出新的视觉表达。这里的产出是指人或机器能够感知的图像视频,而不是标签或者特征并且必须是新的视觉表达,和输入的不一样。在过去,这个过程大多数是由人工来实现,但是现在我们希望通过AI技术,来产生一系列新的图像
视觉生产分类
- 生成:从0到1
- 拓展从1到N
- 摘要:从N到1
- 升维:从An到An+1
- 增强/变换:从A到B
- 插入/合成: A+B=C
- 擦除: A-B=C
视觉生产-通用基础框架
请求(Request)
输入:参数 素材 草案 成品 案例
分发(Dispatch)
生产类型:
- 通用生成(General)
- 素材合成(Assemble)
- 照图生图(Imitate)
- 视频摘要(Summary)
- 编辑变换(Edit)
- 视觉拓展(Extend)
服务(Service)
视觉生产引擎:
- 生成引擎:模型+知识
- 搜索引擎:素材+案例
响应(Response)
输出:素材 成品 案例
视觉生产-五个关键维度
- 可用:带来用户/商业价值
- 可控:提供用户预期的抓手
- 多样:保证结果的丰富性
- 合理:合乎语义/内容逻辑
- 可看:满足视觉/美学表现
精细理解
分割抠图
- 识别:知道是什么
人的识别、物的识别
- 检测:识别+知道在哪儿
缺陷检测 多目标检测
- 分割:识别+检测 知道每一个像素是什么
全景分割 病灶分割
难点:数据严重不足,标注成本高
思路:
1、复杂问题拆解:粗mask估计+精准matting
2、丰富数据样本:设计图像mask统一模型
视觉生成
照图生图
参考原图,将风格、布局等信息学习并迁移到目标致据上。
个性化设计
多元化设计风格,结合商品品类、投放场景、目标客群的差异进行订制化设计.
Al实现场景设计能力
**场景智能美工 ** IN:营销场景+原始素材 OUT:营销图片调用方式: API
场设计初始化100-200张输入 | 人工还原机器学习JPG- PSD | 最终输出样式PNG |
---|---|---|
模板创作机器人 | ||
图片合成机器人 |
视频生成-框架流程
场景选择、关联商品、素材准备、参数设置-》视频算法(编辑器支持微调)-》渲染合成-》投放、上传
视觉编辑
视频内容擦除
应⽤:字幕、台标、⼴告、场景⽂字、⼈体相关内容的擦除
核⼼挑战和亮点:粗定位、精分割、像素填充、在线训练
视频植入
应⽤场景:⼴告植⼊
业务流程:
分镜检测
视频理解:⼴告位检测、跟踪、遮挡检测
素材匹配:场景标签
光影渲染:边缘⾛样、阴影、⾼光、装饰
核⼼挑战和亮点:位置、透视、尺⼨、遮挡、时间
视觉增强
单点核⼼技术:⼈脸增强、去噪⾳、通⽤场景超分、LDR升HDR、倍频、去划痕
复合应⽤技术:⼈脸修复、标清转⾼清、LDR-HDR互转、4K重⽣、⽼⽚修复、端上实时增强
核⼼挑战:分辨率、帧率、⾊彩
风格迁移
-
图像区域重要度分析:
-
- Self Attention GAN–m知元离区域的特征相关性
-
- 特征层计算, 1x1卷积,降低计算开销
-
多笔触融合
-
- 强注意力区域采用细拉度笔链,保证细节
-
- 弱注意力区域采用粗粒度等触,充分风恰化
颜色拓展
算法指标:⾼时效性、⾼合理性、⾼扩展度
输⼊:给定⽬的⾊系、给定参考图、AUTO
输出:⽬标图⽚
视觉制造
实体设计制造
- 效率低:多次打样,多次沟通(服装设计平均30天
- 协同差:设计、营销、生成脱节、倒置
- 定制难:无法实现柔性生产
核心逻辑
结构化知识图谱
数字商品:视点计算、2/3D融合、视觉迁移、素材匹配、模型⽣成 渲染:实时、离线
输出应⽤
视觉开放平台
定位
-
聚合阿里巴巴视觉(国像/视频/3D图形)原能力,以云上API方式统一提供服务;
-
建设视觉智能API开放平台,高效管理视觉!法能力生命周期,提供相应效率工具;
-
基于平台上的API能力,建设双向进入和使机制,扩大开发者生态,打造行业用户心智;
-
建设和运营阿里视觉平台品牌,扩大影响力,得能力提供者和使用者欢赢
一站式能力选择
- 规模化:将在平台荟萃数百个AP能力;
- 多样化:针对多种媒体(图像、视频、3D)多种对象的多个能力;
- 细粒度:原子化、被集成,解决细粒度的具体问题
- 场景化:有价值,能实用,针对特定场景特定优化的能力。