读论文随笔 03：CALVIN: A Benchmark

DATE106

已于 2024-07-01 02:46:41 修改

阅读量896

点赞数 4

文章标签：人工智能机器人 nlp 计算机视觉

于 2024-06-27 15:05:30 首次发布

本文链接：https://blog.csdn.net/weixin_56004083/article/details/139991822

版权

标题 CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks

Abstract

文章发表于2022年，由于当时已经有很多人注意到nlp与robot结合，只不过没有一个好的评判标准。所以作者提出了一个benchmark，说是第一个公开的结合了自然语言控制、高维多模态输入、7自由度的机械臂控制以及长视野的机器人操纵。

他们用了之前的多情景模仿学习（MCIL）模型作为baseline，认为其对有目标导向的任务有较好的效果，但是在他们的长视野任务中表现并不理想，或许引入强化学习也会有一个不错的结果。

下面是他们对MCIL的评测结果：

Discussion

这个工作是2022年的，在当时或许不错，但放在今天而言满大街的benchmark来说也只是普通的工作了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DATE106

关注关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

CALVIN 项目常见问题解决方案

gitblog_01014的博客

12-30

837

CALVIN 项目常见问题解决方案 calvin CALVIN - A benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks ...

CALVIN：语言条件下的长时机器人操作任务基准

gitblog_00252的博客

09-09

865

CALVIN：语言条件下的长时机器人操作任务基准 calvinCALVIN - A benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks项目地址:https://gitcode.com/gh_mirrors/ca/calvin 项目介绍 CALVIN（Composi...

参与评论您还未登录，请先登录后发表或查看评论

论文导读：Benchmark Analysis of Representative Deep Neural Network Architectures

GL3_24的博客

07-07

1201

最近发现了一篇文章，个人感觉很不错，因此推荐给大家。论文题目：Benchmark Analysis of Representative Deep Neural Network Architectures 论文链接：https://arxiv.org/abs/1810.00736 题目：代表性DNN架构的基准分析摘要：这项工作提供了对现有技术中提出的用于图像识别的大多数深度神经网络（DNN）的...

Magma: A group-Truth Fuzzing Benchmark 论文总结

秀玉轩晨的博客

12-01

1131

摘要高扩展性和低运行成本使得模糊测试成为发现软件bug的一种标准的测试方法.但是由于缺乏对fuzz的评估指标和标准,因此想要比较各个fuzzer之间的性能十分困难.Magma就是为了解决指标和基准集而生. ...

MQBench: Towards Reproducible and Deployable Model Quantization Benchmark 论文学习

qq_31993233的博客

04-01

1979

论文链接摘要模型量化已成为加速深度学习推理不可或缺的技术。当研究人员继续推动量化算法的前沿时，现有的量化工作往往是不可重复和不可部署的。这是因为研究人员没有选择一致的训练流程，并且了硬件部署的需求。在这项工作中，我们提出了模型量化基准测试(MQBench)，这是第一次评估、分析和基准测试模型量化算法的再现性和可部署性的尝试。我们为现实世界的部署选择了多个不同的平台，包括CPU、GPU、ASIC、DSP，并在一个统一的训练框架流程下评估广泛的最先进的量化算法。MQBench就像一个连接算法和硬件的桥梁。我

论文笔记（1）——Benchmark Analysis of Representative Deep Neural Network Architectures

qq_40374812的博客

11-24

792

论文笔记（1）——Benchmark Analysis of Representative Deep Neural Network Architectures论文连接文章解读⚪ 准确率VS计算复杂度VS模型复杂度⚪准确率VS学习能力![在这里插入图片描述](https://img-blog.csdnimg.cn/2ddc38e81fae4a23b152d9bbbb38d5c1.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,sha

论文阅读：A Benchmark for Interpretability Methods in Deep Neural Networks

weixin_45251621的博客

06-02

453

机器学习可解释性方法的评估

论文笔记；LargeST: A Benchmark Dataset for Large-ScaleTraffic Forecasting

qq_40206371的博客

04-21

1668

Neurips 2023

【论文笔记】：CrowdHuman: A Benchmark for Detecting Human in a Crowd

Activewaste

07-12

3020

&Title: CrowdHuman: A Benchmark for Detecting Human in a Crowd &Summary CrowdHuman的训练集、验证集和测试集分别包括15000，4370和5000幅图像。图片上的人体实例包含了三种标注，包括人体可见区域边界框标注、头部区域边界框标注和人体整体边界框标注。其设计是为了解决人群问题,可以更好的评估拥挤情况下...

【论文阅读ICSE2024】CoderEval: A Benchmark of Pragmatic Code Generation with Generative Pre-trained Models

最新发布

HeeKaai的博客

11-03

1773

第二，尽管DS-1000中的一些函数依赖于第三方库，但DS-1000所反映的开发场景与实际代码生成相去甚远，因为DS-1000中没有任何函数依赖于目标函数外的用户定义函数。传统基准（如HumanEval）主要评估独立函数的生成能力，忽略了非独立函数在实际开发中的高占比（通过分析 GitHub 上分别用 Java 和 Python 编写的 100 个最受欢迎的项目发现非独立功能占开源项目功能的 70% 以上），导致无法全面评估模型在复杂依赖环境下的表现。（2）统计所有目标函数中，符合上述条件的函数的比例。

benchmark::State & benchmark 原理

不才的专栏

05-28

1315

除了时间，你还可以通过来报告其他自定义指标。// 测试代码// 设置自定义指标。

读论文：Toward Real-World Single Image Super-Resolution: A New Benchmark and A New Model

Janice_Fj的博客

04-04

3176

ICCV2019 论文：https://arxiv.org/pdf/1904.00523.pdf 源码：https://github.com/csjcai/RealSR 1 介绍近年来，爆炸性的增长通过训练CNN模型以实现SISR，通过设计新的CNN架构和损失函数。不幸的是，在这样的模拟数据集上训练的SISR模型很难推广到实际应用中，因为真实LR图像中的真实退化要复杂得多。 1.基于不同数据...

【读点论文】Benchmark Analysis of Representative Deep Neural Network Architectures当准确率不再是唯一衡量标准，给多目标优化一个导向

白水空空

05-26

430

Benchmark Analysis of Representative Deep Neural Network Architectures ABSTRACT 这项工作对目前（2018）提出的用于图像识别的大多数深度神经网络（DNNs）进行了深入分析。（可直接看结论）对每个DNN的多个性能指标进行了观察，如识别精度、模型复杂度、计算复杂度、内存使用和推理时间。本文分析和讨论了这些性能指标的行为以及它们的一些组合。为了测量这些指数，本文在两种不同的计算机架构上实验了DNN的使用，一种是配备了NVIDIA

论文阅读：Call for establishing benchmark science and engineering

Maple的博客

05-25

612

这篇文章是benchmark综述性文章，简单的说了benchmark的起源、benchmark的5个类型、当前的一些挑战建议。然后又对BenchCouncil这个期刊进行了一些宣传，主要讲了现在大多数期刊的一些问题，然后列出了针对期刊的一些改进措施。

w1hsxn的博客

06-21

302

看论文需要用到的一些专业词汇【SOTA,Benchmark,Baseline】

zik的博客

10-20

2119

那在论文中的实验部分你的方法需要比较的baseline就是BERT，而需要比较的benchmark就是BERT具体的各项指标。SOTA实际上就是State of the arts 的缩写，指的是在某一个领域做的Performance最好的model，一般就是指在一些benchmark的数据集上跑分非常高的那些模型。唯一的区别就是baseline讲究一套方法，而benchmark更偏向于一个目前最高的指标，比如precision，recall等等可量化的指标。

论文阅读-Baseline与Benchmark介绍

2301_82023330的博客

06-29

842

在科研和算法开发中，"benchmark"和"baseline"是两个常用的概念，它们在评估和改进算法性能时起着至关重要的作用。

论文中的baseline、benchmark、SOTA(state-of-the-art)释义解释

CV在读

12-06

5106

SOTA(state-of-the-art)：业界顶尖水平；SOTA，全称「state-of-the-art」，用于描述机器学习中取得某个任务上当前最优效果的模型。baseline：比较算法好坏中作为“参照物”而存在，在比较中作为基线；目的是比较提出算法的性能或者用以彰显所提出的算法的优势；benchmark：评价算法好坏的一种规则和标准。是目前的模型能做到的比较好的效果；

让VLM充当机器人大脑——VLM规划下加约束：从SayCan、VoxPoser到ViLA、CoPa、ReKep