simpread-机器人智能抓取 AI+Grasp

最新推荐文章于 2024-03-20 09:43:09 发布

Mr. GuoCH

最新推荐文章于 2024-03-20 09:43:09 发布

阅读量3.9k

点赞数 3

分类专栏：论文翻译——机械臂

本文链接：https://blog.csdn.net/weixin_44584250/article/details/108248529

版权

论文翻译——机械臂专栏收录该内容

1 篇文章 0 订阅

订阅专栏

https://baijiahao.baidu.com/s?id=1662839888777319062&wfr=spider&for=pc
抓取规划问题是指确定物体与手指间的一系列接触位置，使得手指能抵抗任意外力且灵活操作物体的能力。传统的基于分析的抓取规划需要根据已知的被抓物体模型根据力闭合的条件判断抓取的好，这种方法只适合对已知的物体进行抓取。然而日常生活中有很多相似物体（如圆柱，长方体），没有必要为每一个物体都建立精确的模型，因此可以用相似性匹配的方法解决这类物体的抓取。随着人工智能的发展，人工神经网络可以从大量的已知物体的抓取中提取出有用的抓取基元，从而实现对未知物体的抓取。这样做的好处是不必为每个被抓物体建立几何模型，让机器人智能抓取操作物体。2013 年以前的工作可以参考 [1]，下面就近几年的基于数据的机器人抓取概览如下。

1. 基于 RGB 图片的抓取

美国加州大学伯克利分校提出了利用大量的物体三维模型和分析的方法生成抓取数据集，并利用深度图和卷积神经网络（CNN）对抓取进行分类 [2]。他们首先把抓取简化为一个从上至下的夹取（top-down grasp），根据输入的点云生成上百个成对的抓取候选，再利用 CNN 对候选抓取进行快速评分，从而得到最好的抓取。与之前的基于数据的抓取不同的是，他们没有使用费时费力的人工标定抓取的方式或机器人随机抓取来采集数据集，而是利用力闭合的原理通过分析的方式计算出抓取的好坏（是否力闭合）。这样的好处是可以低成本的生成大量的数据集。

在这里插入图片描述

2. 基于点云的抓取

美国西北大学进一步使用点云在不同方向的投影作为人工神经网络的输入对抓取进行评分并把抓取数据集扩展到 6D 位姿抓取 [3]。利用点云的好处是可以让网络得到更丰富的信息。不同于 Dex-Net，这个工作使用的是 6D 抓取位姿作为抓取的表示。在生成抓取候选上，该文使用了一些设计好的策略。这个策略基于物体的曲面形状。首先随机在物体表面采样一点，以这个点所在的曲面法向作为抓取候选的朝向（下图 b 红色箭头表示），“主成分” 方向作为两个夹爪连线的方向（下图 b 中蓝色箭头表示）。并通过基于该抓取的旋转和平移扩充抓取候选的个数。通过这种采样方式，可以增加抓取候选中好抓取的比例（无后续人工神经网络分类的情况下可达 53% 抓取成功率）。得到抓取候选后，经过对抓取点云的投影得到网络的输入如下图（c-e）所示。经过 CNN 对抓取候选的分类后，最高可达 93% 抓取成功率（动态点云）。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qhTyEK3C-1598421387404)(https://pics0.baidu.com/feed/faedab64034f78f0a66277bd23797953b2191ce5.jpeg?token=cc18c3cdbb80eb6761da7d435659c2cd)]

进一步，德国汉堡大学张建伟教授团队和清华大学孙富春教授团队共同提出了对上述工作的改进 [4]。对于数据集的生成，通过在给抓取打分时不断调整夹爪和物体之间的摩擦系数得到一个更细化的抓取分数（摩擦系数越小，抓取分数越高）。这样的数据集可以得到一个带分数的抓取，从而可以让网络学得更细分的抓取分类。对于网络结构上，他们使用了 PointNet，这样的好处是可以直接使用点云作为输入，不需要对点云进行投影。更大的保留了点云的几何信息。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NjOYQHXQ-1598421387405)(https://pics6.baidu.com/feed/14ce36d3d539b600487f2474b118462cc75cb70a.jpeg?token=0444f1c4438fe4894f2f06e4d6a4f5f0)]

不同于首先生成抓取候选，再对抓取分类、评分的思路，英伟达公司的机器人研究团队提出了直接根据输入的物体点云生成抓取 [5]。在数据集生成上，他们使用了纯物理引擎仿真抓取的方式。这种方法的好处是可以生成用特定规则生成抓取[3.4] 得不到的抓取。这是因为通常分析的方法生成抓取数据集把抓取简化成了两个点。而在实际抓取中，机器人通常具有两个平行的手指作为夹爪。另一个原因是抓圆环物体如带柄的马克杯时，力闭合原理无法生成 “Caging” 的抓取。因此用物理引擎可以完全模拟真实中的抓取情形，生成更多样化的抓取。在网络上，他们把被抓物体点云和夹爪点云一起作为输入，使用 PointNet++ 网络和自编码机的结构生成好的抓取，并利用一个网络优化生成的抓取。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o9xGu0dX-1598421387406)(https://pics2.baidu.com/feed/e7cd7b899e510fb3199d4108837bbb93d0430c72.jpeg?token=3f71c29bfcb649eb0d000f15666baaa9)]

3. 基于多模态的抓取

基于多模态的抓取通常是指通过不同的指尖力传感器在正式抓取前通过 “预抓取” 判断抓取的稳定性，从而决定是继续抓取还是调整一个新的抓取姿态。清华大学孙富春教授团队提出使用视觉来生成抓取，并用指尖的触觉判断抓取的稳定性 [6]。为此，他们采集了一个视觉、触觉抓取数据集，并分别用两个网络对抓取进行生成和稳定性判断。该团队又与 Intel 中国研究院合作，建立了一个视觉、触觉、力等多模态的机器人抓取数据集，通过视触融合实现抓取稳定判断[7]。清华大学孙富春教授团队也是利用多模态信息实现的机器人智能抓取，而赢得了“IROS2019 机器人灵巧抓取操作比赛” 物流分拣项目的冠军。

加州大学伯克利分校提出了利用一个基于视觉的触觉传感器—GelSight 来进行多模态抓取任务 [8]。得益于他们使用的基于视觉的触觉传感器，可以天然的使用广泛应用的视觉处理神经网络（CNN），通过与抓取，机器人判断抓取的好坏并生成下一步的动作。这样这个机器人系统可以自主的根据触觉反馈调整抓取策略而不需要人工干预。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mJrDqW4s-1598421387409)(https://pics6.baidu.com/feed/5d6034a85edf8db1936c32b1516bae52574e7477.jpeg?token=d8c772edbd3fe126e128bb174f913bb7)]

4. 多指抓取

二指抓取的好处是对抓取的表达比较简单，但是抓取通常并不是机器人操作的最终目的，人们往往希望通过手内改变被抓物体的姿态和位置完成一些操作任务。如使用工具。美国马里兰大学的研究者提出了一个端到端的多指抓取生成网络 [9]。这个网络使用点云作为输入，使用 3DCNN 网络直接生成 Shadow 多指手的抓取规划。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3aA03GH-1598421387410)(https://pics1.baidu.com/feed/500fd9f9d72a60592cbda857707c479d023bba98.jpeg?token=4a5cd39dbd1ef10663bf2db372c7b967)]

美国麻省理工学院的学者针对多指抓取生成过程中网络不能适应不同的多指手的问题提出了解决方案 [10]。他们提了一个统一的多指抓取模型以适应不同的机械手。首先，他们把爪子和被抓物体的特征映射到一个低维空间。然后用一个点云选择网络去生成接触点，通过接触点继而生成一个无障碍的抓取。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jBew1tEt-1598421387410)(https://pics5.baidu.com/feed/ac345982b2b7d0a2b0e1d6c091a7050f4b369a16.jpeg?token=3ca48e7603835896fb17f72aa1420ab7)]

5. 基于任务的抓取

上面的工作都是与任务无关的无序抓取，但是在机器人操作上抓取通常是有目的的。如转移物体，递给其他机器人 / 人，使用抓取的物体。在这一领域最新的工作是西安交通大学的机器人课题组 [11]。他们在一个有重叠的场景下完成了基于任务的抓取。首先，他们建立了一个合成的堆叠物体的数据集，并使用条件随机场（CRF）建立了物体的语义模型。这个模型可以的推导过程用 RNN 来表示，这样整个基于任务的模型可以端到端进行训练。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-G20lMlIv-1598421387410)(https://pics5.baidu.com/feed/10dfa9ec8a13632716751bdfc9c7d3ea09fac715.jpeg?token=96b2c4fd3b0618441a7b928f303528c6)]

6. 基于功能可用性的抓取

在人机交互中，还有一种机器人抓取操作，是基于功能可用性的。想象一下这样一个场景：人给机器人一个模糊的指令，机器人理解这个指令并做出一定的动作。汉堡大学张建伟团队考虑了如下两个情况 [12]：

1）人说：嗨，机器人，我想学习。这时，机器人理解到人想让机器人递给他一个可以玩的物体，通过功能可用性网络，结合输入图片，机器人递给人一本书。

2）人说：嗨，机器人，给我左边的苹果。这时桌上有两个苹果，机器人理解语义并递给人左边的苹果。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-obv5VTrJ-1598421387411)(https://pics6.baidu.com/feed/c9fcc3cec3fdfc039a2039acb677f492a4c2261c.png?token=63be45525d7ea7bbf55e31a11487eb95)]

机器人的智能抓取已经成为研究热点，也逐渐在物流快件、工件、食品等分拣行业中凸显了重要性。未来如何实现机器人认知的智能抓取操作将会成为重点研究问题。

参考文献

[1] Bohg J, Morales A, Asfour T, et al. Data-driven grasp synthesis—a survey. IEEE Transactionson Robotics, 2013, 30(2): 289-309.

[2] Mahler, J., Liang, J., Niyaz, S., Laskey, M., Doan, R., Liu, X., … Goldberg, K. (2017). Dex-Net 2.0: DeepLearning to Plan Robust Grasps with Synthetic Point Clouds and Analytic GraspMetrics. Robotics: Science and Systems (RSS), 37(3), 301–316.

[3] ten Pas, A., Gualtieri, M., Saenko, K.,& Platt, R. (2017). Grasp Pose Detection in Point Clouds. The InternationalJournal of Robotics Research, 36(13–14), 1455–1473.

[4] Liang, H., Ma, X., Li, S., Grner, M., Tang, S., Fang, Bin Fang, … Zhang, J. (2019). PointNetGPD: Detecting GraspConfigurations from Point Sets. In International Conference on Robotics andAutomation (ICRA) (pp. 3629–3635).

[5] Mousavian, A., Eppner, C., & Fox, D. (2019). 6-DOF GraspNet: Variational Grasp Generation for ObjectManipulation. ICCV 2019

[6] Guo, D., Sun, F., Fang, B., Yang, C., & Xi, N. (2017). Roboticgrasping using visual and tactile sensing. Information Sciences, 417, 274–286.

[7] Tao Wang, Chao Yang, Frank Kirchner, Peng Du, Fuchun Sun, Bin Fang*, Multimodal grasp data set: a novelvisual-tactile data set for robotic manipulation. International Journal ofAdvanced Robotic Systems, 2019, 16(1)：1-10.

[8] Calandra, R., Owens, A., Jayaraman, D., Lin, J., Yuan, W., Malik, J., … Levine, S. (2018). More Than a Feeling: Learning to Grasp and Regrasp using Vision and Touch. In IROS2018.

[9] Liu, M., Pan, Z., Xu, K., Ganguly, K.,& Manocha, D. (2019). Generating Grasp Poses for a High-DOF Gripper UsingNeural Networks. IROS 2019.

[10] L. Shao et al., “UniGrasp:Learning a Unified Model to Grasp With Multifingered Robotic Hands,” inIEEE Robotics and Automation Letters, vol. 5, no. 2, pp. 2286-2293, April 2020.

[11] C. Yang, X. Lan, H. Zhang, N. Zheng, “Task-oriented Grasping in Object Stacking Scenes with CRF-based SemanticModel,” 2019 IEEE/RSJ International Conference on Intelligent Robots andSystems (IROS), Macau, China, 2019, pp. 6427-6434.

[12] Jinpeng Mi, Song Tang, et al. Object Affordance based MultimodalFusion for Natural Human-Robot Interaction. Cognitive Systems Research,54:128–137, 2019.

来自：梁洪濯，方斌 CAAI 认知系统与信息处理专委会，激光天地转载