具身智能
简介
什么是具身智能
目前的AI都是旁观型的AI。
以具体的物体“包”为例,人对于这一概念的理解往往能直击本质,而AI目前仅仅从外观上来判断。
人之所以能举一反三,也正是因为理解了本质。
具身智能面向构建一种智能系统,类似人的智能,它考虑:
- 在亲身交互中学习到现实世界的各种概念;
- 在真实物理场景下正确执行任务。
智能体能够与现实世界交互的过程中,完成学习和理解,这一能力称为具身智能。所需要涉及的任务不再是静态的。
具身智能学习
现有问题
- 如何定义、获取、表达可以被机器人使用的物理概念。很多物理概念无法像强化学习显式地定义概念获取奖励,比如如何判断橘子剥完了?
- 如何教会具身智能系统一个任务?难以定义具身任务的执行过程及完成状态。
- …
现有方法
具身智能任务
- 机器人抓取任务
- 家具组装任务
- 视觉导航
- 具身问答系统
具身智能工具
仿真器:
- AI2THOR系列;
- Gibson系列;
- SAPIEN;
前两个数据集关注场景,第三个数据集关注物体。
计算机视觉可能的任务
具有具身智能的视觉。
3D视觉的知识图谱:检测出一些知识;
交互感知:存在遮挡,会把东西拿走再看;
人类行为理解;
多模态导航与问答系统;
视触融合;
基于人机交互的人类行为理解;
食品计算
人工智能在食品领域的渗透比较低。
用计算方法综合处理多媒体食品数据,以开展面向食品的图像识别、检测和多模态学习等任务,解决农业、食品产业和营养健康等不同领域的问题。
食品识别、检测、分割
- 数据集的建设;
- 食品识别之食材联合预测:提取食材视觉区域、建模食材关系(强关联、弱关联);
- 食品检测之团餐检测;
无论是识别还是检测,都离不开细粒度的特点。
类内方差大、类间方差小:一道菜本身会呈现出不同的形式,不同的菜又可能会呈现相近的样子。
在食品计算领域,细粒度问题更加复杂,食品本身的结构性比较弱,很多时候难以通过匹配特定区域的特征来作出分类。
未来工作
- 食品领域的多模态学习(视觉、文本、声音、嗅觉、口味、触觉);
- 多模态食品知识图谱的构建;
- 基于多模态食品分析的饮食管理;
- AI+大数据驱动的精准营养;
- 食品计算和理化试验方法相结合的高效食品分析方法。