三木今天学习了嘛
码龄5年
关注
提问 私信
  • 博客:544,690
    社区:60
    动态:3
    544,753
    总访问量
  • 139
    原创
  • 16,208
    排名
  • 1,380
    粉丝
  • 39
    铁粉
  • 学习成就

个人简介:行走知识里的拾遗者

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:陕西省
  • 加入CSDN时间: 2019-10-14
博客简介:

三木今天学习了嘛の博客

博客描述:
分享记录学习点滴,希望和大家一起进步。
查看详细资料
  • 原力等级
    成就
    当前等级
    7
    当前总分
    3,174
    当月
    1
个人成就
  • 获得1,481次点赞
  • 内容获得333次评论
  • 获得8,503次收藏
  • 代码片获得8,277次分享
创作历程
  • 16篇
    2024年
  • 18篇
    2023年
  • 29篇
    2022年
  • 51篇
    2021年
  • 25篇
    2020年
成就勋章
TA的专栏
  • 笔记记录
    6篇
  • 具身智能-Grasp
    8篇
  • Scene Graph Generation
    1篇
  • 时空动作定位
    10篇
  • Video Understanding
    1篇
  • Temporal Action Detection
    8篇
  • Temporal Action Localization
    1篇
  • Transfromer
    1篇
  • 深度学习入门——Pytorch框架
    12篇
  • 目标检测
    7篇
  • 多目标追踪(MOT)
    3篇
  • 数据集操作
    1篇
  • DL经典网络复现
    2篇
  • DL经典论文阅读
    3篇
  • STM32CubeMx
    19篇
  • 控制系统数字仿真
    2篇
  • 机器学习
    3篇
  • 数学建模
    16篇
  • Python基础语法
    22篇
  • pyplot绘图教程
    4篇
兴趣领域 设置
  • 人工智能
    pytorch
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

176人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【论文阅读】skill code 和 one-shot manipulate

自然语言,作为人类获取新知识的首要媒介,为将人类理解的概念转化为机器可学习格式提供了潜在的直观桥梁。在顶层,模型的任务是学习离散的技能代码;而在底层,策略网络将问题转化为体素化网格,并将离散化的动作映射到体素网格上。我们提出了一种名为不变匹配一次性策略学习(Invariance-Matching One-shot Policy Learning, IMOP)的算法。
原创
发布博客 2024.08.29 ·
1047 阅读 ·
14 点赞 ·
1 评论 ·
27 收藏

【论文阅读】通用的语义-几何表征的机器人操作

旨在通过改进视觉和动作表示来提高样本效率。SGRv2的核心设计是引入了一个关键的归纳偏差——动作局部性(action locality),它认为机器人的动作主要受目标物体及其与局部环境的交互影响。
原创
发布博客 2024.08.21 ·
1261 阅读 ·
30 点赞 ·
1 评论 ·
16 收藏

【强化学习——AI问答】在强化学习部分遇到的模糊概念

由于噪声的均值为0,所以对Q的均值求期望,就等于对x求期望。然而,Q最大值的期望却会大于等于x的最大值,且Q最小值的期望也会小于等于x的最小值。状态价值函数(State-value function),是不是任何一个策略pi,执行下一步所有可能的动作所带来的动作价值的期望。理解为,当前状态下,执行所有可能动作的带来的收益,一定程度上反映了当前状态的优劣?我是这样理解的:DQN是要学一个最优动作价值函数,而最优动作价值函数是在t时刻动作和环境下的,回报期望最大值。强化学习中DQN算法是基于价值学习的。
原创
发布博客 2024.07.08 ·
258 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

【论文阅读】LLM+3D (1)

1)利用3DSG的层次性质,允许LLMs通过语义搜索从完整图的较小、压缩表示中寻找与任务相关的子图;2)通过集成经典路径规划器来缩短LLM的规划范围;3)引入一个迭代重规划流程,利用场景图模拟器的反馈来细化初始计划,纠正不可行的动作,避免规划失败。SHAPELLM 架构:SHAPELLM 结合了一个预训练的3D编码器和一个大型语言模型(LLM),用于有效的3D表示学习和理解。特别是,采用了 LLaMA 作为其 LLM,并提出了一个名为 RECON++ 的新型3D模型作为3D编码器。
原创
发布博客 2024.07.05 ·
1442 阅读 ·
19 点赞 ·
0 评论 ·
17 收藏

【论文阅读——机器人操作】

人类能够形成3D场景的心理图像,以支持反事实想象、规划和运动控制。
原创
发布博客 2024.05.31 ·
1610 阅读 ·
23 点赞 ·
1 评论 ·
19 收藏

【Diffusion policy】

3D 感知表示非常适合机器人操作,因为它们可以轻松编码遮挡并简化空间推理。许多操纵任务在末端执行器姿态预测中需要高空间精度,这通常需要高分辨率的 3D 特征网格,而处理起来的计算成本很高。因此,大多数操纵策略直接在 2D 中运行,而忽略了 3D 归纳偏差。在本文中,我们介绍了 Act3D,这是一种,它使用 3D 特征场来表示机器人的工作空间,其自适应分辨率取决于手头的任务。该模型使用感测深度将 2D 预训练特征提升到 3D,并利用它们来计算采样 3D 点的特征。
原创
发布博客 2024.05.31 ·
1036 阅读 ·
11 点赞 ·
0 评论 ·
14 收藏

【Multi-Task Robotic Manipulation】

PERPACT 使用 Perceiver Transformer 对语言目标和 RGB-D 体素观察进行编码,并通过“检测下一个最佳体素(voxel)动作”输出离散化动作。与操作 2D 图像的框架不同,体素化 3D 观察和动作空间为有效学习 6-DoF 动作提供了强大的结构先验。虽然 PERACT 功能相当强大,但将其扩展到灵巧的连续控制仍然是一个挑战。PERACT 受基于采样的运动规划器的支配来执行离散动作,并且不容易扩展到像多指手这样的 N-DoF 执行器。
原创
发布博客 2024.04.06 ·
1389 阅读 ·
31 点赞 ·
0 评论 ·
26 收藏

【Functional Affordances】如何确认可抓取的区域?(前传)

如何确定可抓取的区域、利用stable diffusion特征、语义之间的correspondance。
原创
发布博客 2024.03.27 ·
836 阅读 ·
16 点赞 ·
0 评论 ·
18 收藏

【Functional Affordances】机器人manipulation

本文介绍了Robo-ABC框架,这是一个旨在提高机器人在操作任务中泛化能力的方法,特别是在面对未见过的物体时。Robo-ABC通过从互联网上的人类视频中提取可操作性记忆(包括接触点),使机器人能够通过检索视觉或语义上相似的物体来获取新的可操作性。该框架利用预训练的扩散模型自然地建立对应关系,从而实现跨不同物体类别的可操作性映射。Robo-ABC不需要手动注释、额外训练、部分分割、预编码知识或视角限制,就能以零样本的方式泛化操作跨类别物体。
原创
发布博客 2024.03.26 ·
1588 阅读 ·
12 点赞 ·
0 评论 ·
24 收藏

【强化学习抓取】偏机器人领域(略)

尽管双指抓取已经在文献中得到了广泛的研究,但多指机器人手的抓取仍然是一个开放的问题。类人手提供了执行灵巧任务的机会,例如物体重定向和使用工具(如锤子),但同时也带来了控制上的挑战,因为需要控制的自由度(DoFs)数量众多,使得寻找合适的操控策略变得困难。深度强化学习(DRL)的最新进展提供了设计高维控制策略的工具,而无需对环境和手部进行特定建模。然而,现有的无模型算法(如SAC或PPO)在学习多指操控任务时效率不高,因为在这些情况下,由于问题的高维性,环境的有效探索在策略优化的初始阶段是不可行的。
原创
发布博客 2024.03.12 ·
1176 阅读 ·
17 点赞 ·
0 评论 ·
13 收藏

【论文阅读-基于地图重建的导航】Vison-Language Navigation (3)

为了表示以前访问过的环境,VLN 的大多数方法使用循环状态、拓扑图或自上而下的语义图来实现内存我们构建了自上而下的自我中心和动态增长的网格记忆图(即GridMM)来构建访问的环境。从全局角度看,历史观测以自上而下的视角投影成统一的网格图,更能体现环境的空间关系。从局部的角度出发,我们进一步提出了一种指令关联聚合方法来捕获每个网格区域的细粒度视觉线索。大规模预训练在视觉和语言导航(VLN)任务上取得了有希望的结果。
原创
发布博客 2024.03.04 ·
1364 阅读 ·
29 点赞 ·
0 评论 ·
22 收藏

【论文阅读-基于VilLBERT方法的导航】Vison-Language Navigation 视觉语言导航(2)

视觉和语言导航(VLN)需要一个具身的智能体在现实的3D环境中使用自然语言指令进行导航。现有的VLN方法在小规模环境或不合理的路径指令数据集上进行训练,限制了对不可见环境的泛化。YouTube上有大量的房屋游览视频,提供了丰富的真实导航体验和布局信息。然而,这些视频之前还没有为VLN进行过探索。在本文中,我们提出通过创建一个大型数据集来从这些视频中学习智能体,该数据集包含来自房屋参观视频的合理路径-指令对(path-instruction pair),并在其上预训练智能体。
原创
发布博客 2024.03.01 ·
1093 阅读 ·
27 点赞 ·
1 评论 ·
27 收藏

【论文阅读】Vison-Language Navigation 视觉语言导航(1)

我们研究了一个简单的框架,车轮上的CLIP(CoW,CLIP on Wheels),以在不进行微调的情况下使开放词汇模型适应这项任务。为了更好地评估L-ZSON,我们引入了PASTURE基准,该基准考虑了查找不常见的对象、由空间和外观属性描述的对象以及相对于可见对象描述的隐藏对象。我们将CoW视为一个使用开放词汇表模型(open vocabulary model)和基于文本的界面在更灵活的环境中处理机器人任务的例子。
原创
发布博客 2024.02.27 ·
2018 阅读 ·
32 点赞 ·
0 评论 ·
40 收藏

开放词汇场景图生成Open vocabulary scene graph generation

提出了一种两步法,该方法首先对大量粗粒度数据进行预训练,然后利用两种基于prompt的技术对预训练模型进行微调,而不更新其参数。本文主要介绍了一种利用预训练视觉-语义空间(VSS)来解决场景图生成(SGG)中的两个难点的方法:1)训练SGG模型需要耗费大量时间和人力进行地面真实注释, 2)现有的SGG模型通常涉及预定义的有限物体类别,限制了它们识别训练语料库之外的新颖物体的能力。
原创
发布博客 2024.02.22 ·
1785 阅读 ·
22 点赞 ·
0 评论 ·
34 收藏

【论文阅读】GraspNeRF: Multiview-based 6-DoF Grasp Detection

本文首次提出了一种基于多视图rgb的六自由度抓取检测网络GraspNeRF,该网络利用可推广的神经辐射场(NeRF)在杂波中实现与材料无关的物体抓取。我们的系统可以使用稀疏 RGB 输入执行零样本 NeRF 构造,并实时可靠地检测 6-DoF 抓取。
原创
发布博客 2024.01.26 ·
1953 阅读 ·
22 点赞 ·
0 评论 ·
21 收藏

【论文阅读】Grasp-Anything: Large-scale Grasp Dataset from Foundation Models

提出了“Grasp-Anything”,这是一个由基础模型合成的新的大规模抓取数据集,用于机器人抓取检测的新的大规模语言驱动数据集。Grasp-Anything 在多样性和数量上都很出色,拥有100万个带有文本描述的样本和超过300万个对象,超过了以前的数据集。根据经验,我们证明了在基于视觉的任务和真实世界的机器人实验中,抓取任何东西都能成功地促进零镜头抓取检测。
原创
发布博客 2024.01.26 ·
1867 阅读 ·
17 点赞 ·
2 评论 ·
30 收藏

BLIP-2 官方库学习

BLIP-2通过在冻结的预训练图像编码器和大型语言模型(LLM)之间训练一个轻量级的12层Transformer编码器,利用它们,在各种视觉语言任务中实现最先进的性能。最值得注意的是,BLIP-2在可训练参数减少54倍的零样本VQAv2上比Flamingo(800亿参数模型)提高了8.7%。本文提出了 BLIP-2,这是一种通用且高效的预训练策略,可从现成的冻结预训练图像编码器和冻结大型语言模型 引导视觉语言预训练【hidden_size(int,可选,默认为1408)——编码器层和池器层的维度。
原创
发布博客 2023.12.15 ·
766 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【Code Reading】Transformer in vision and video

最后一行是单独做的实验,去掉了Model2的temporal transformer,直接在帧上做了pooling,EK上的精度下降很多,对于时序强的数据集需要用temporal transformer来做时序信息交互。在论文的Table1中有给出三个模型(Base/ Large/ Huge)的参数,在源码中除了有Patch Size为16x16的外还有。model3的实现和TimeSformer的实现是一样的,去掉cls-token即可,可以参考TimeSformer的文章。,这里把时间维度单独抽出来。
原创
发布博客 2023.11.02 ·
382 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【论文阅读】End-to-End Spatio-Temporal Action Localisation with Video Transformers

e2e,纯基于Transformer的模型,输入视频输出tubelets。无论是 对单个帧的稀疏边界框监督 还是 完整的小管注释。在这两种情况下,它都会预测连贯的tubelets作为输出。此外,我们的端到端模型不需要以建议的形式进行额外的预处理,或者在非最大抑制方面进行后处理。(DETR)
原创
发布博客 2023.10.31 ·
595 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【论文阅读】Efficient Video Action Detection with Token Dropout and Context Refinement

主要讲述了动机和作者针对动机的做法。又说了一下作者工作的指标:与普通 ViT 主干相比,我们的 EVAD 将整体 GFLOPs 降低了 43%,并且没有性能下降的情况下将实时推理速度提高了 40%。此外,即使在类似的计算成本下,我们的 EVAD 也可以在更高分辨率的输入下将性能提高 1.1 mAP。我们希望 EVAD 能够作为未来研究的有效端到端基线。我们的方法的一个局限性是,EVAD 需要重新训练一次,才能获得减少计算量和通过消除冗余进行更快推理的好处。
原创
发布博客 2023.10.30 ·
522 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏
加载更多