手机网站分享,做网站的网址是哪里来的,网站和虚拟服务器,wordpress设置特殊字体前言
由于最近我司接到几个订单中#xff0c;有一个涉及到快递分拣#xff0c;背后对应着抓取的成功率与泛化性
故关注到本文要介绍的GraspVLA#xff0c;当然#xff0c;只是做下了解和参考#xff0c;不代表用到了我司的项目中
其paper地址为#xff1a;GraspVLA: a…前言由于最近我司接到几个订单中有一个涉及到快递分拣背后对应着抓取的成功率与泛化性故关注到本文要介绍的GraspVLA当然只是做下了解和参考不代表用到了我司的项目中其paper地址为GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data作者包括Shengliang Deng∗,1,3 Mi Yan∗,1,2 Songlin Wei1,2 Haixin Ma1 Yuxin Yang1 Jiayi Chen1,2 Zhiqi Zhang1,2 Taoyu Yang2 Xuheng Zhang2 Wenhao Zhang2 Heming Cui3 Zhizheng Zhang†,1,4 He Wang†,1,2,4其项目地址为pku-epic.github.io/GraspVLA-web其GitHub地址github.com/PKU-EPIC/GraspVLA第一部分1.1 引言与相关工作1.1.1 引言如原论文所述作者系统性地探索合成数据在训练 VLA 模型中的潜力作为迈向这一方向的第一步他们将重点放在抓取这一机器人操作中的基础技能上首先构建了一个包含十亿帧抓取数据的数据集 SynGrasp-1B该数据集基于先进的光线追踪渲染 [11] 和物理仿真 [12]是全球首个达到此规模的数据集该数据集包含来自 240 个类别的 10,000个独特物体并进行了大规模的领域随机化从而实现对几何和视觉变化的广泛覆盖为高效地从该数据集学习来自1 Galbot, 2 Peking University, 3 The University of Hong Kong, 4 Beijing Academy of Artificial Intelligence的研究者提出了GraspVLA这是一种端到端网络将自回归式感知任务与基于 flow matching 的动作生成整合进一个统一的 Chain-of-ThoughtCoT过程中称为 Progressive Action GenerationPAG渐进式动作生成————PAG 将感知任务即视觉定位和抓取位姿预测视为动作生成中的中间步骤从而形成一个以因果方式推断动作的 CoT 过程这样的设计使得能够在统一框架下对合成数据和互联网数据进行联合训练其中互联网数据用于训练感知任务CoT过程的部分阶段而合成数据用于训练完整的 CoT 流水线总之合成数据为物体交互提供了关于物体的精细几何信息而互联网数据则提供了丰富的物体语义知识通过利用这两种互补的数据来源PAG 减小了仿真到真实sim-to-real的差距并促进已学习机器人动作向语义多样、在互联网中广泛出现的物体的迁移从而实现开放词汇抓取作者宣称得益于他们精心构建的十亿级规模合成抓取数据集以及所提出的 PAG 机制GraspVLA 实现了直接的仿真到现实sim-to-real迁移泛化并展现出优异的零样本性能作者宣称与传统抓取检测算法的最新方法AnyGrasp [14] 相比GraspVLA 不仅支持自然语言指令还能够提供鲁棒的闭环抓取策略它在常见物体上的表现与 AnyGrasp 相当但在透明物体上则显著优于 AnyGrasp。并且GraspVLA 在超出标准抓取行为的特定应用场景中对用户偏好展现出很强的少样本适应能力例如为保持清洁而避免接触饮水杯内壁以及在高密度堆放环境中按顺序抓取瓶子1.1.2 相关工作首先对于视觉-语言-动作VLA模型近期大量工作[15,16,17,18,19,20,21,22,23]通过学习大规模示教数据来探索端到端 VLA 的训练RT-2 [5] 和 OpenVLA [6] 提出利用预训练的视觉-语言模型VLM[24,25]以挖掘互联网数据集中的丰富知识沿着预训练 VLM 成功的方向一些工作[26,7,27,8,28,29]进一步探索借助额外的动作专家来生成高保真多模态动作其他工作[30,31,32,33,34,35]则在互联网规模的视频数据上采用生成式预训练从人类视频中学习然而由于真实世界机器人数据规模受限现有 VLA 模型在部署时主要依赖域内后训练————同期工作 π0.5[36] 提出通过利用多模态网页数据和跨机体数据来提升泛化能力从而实现直接的“开箱即用”部署作者宣称尽管他们的工作同样以零样本部署为目标但采用了不同的路线——仅在大规模合成数据上进行预训练——并展现出强大的零样本泛化能力其次对于合成数据随着 GPU 加速仿真和照片级真实感渲染的快速发展合成数据生成已成为训练机器人模型的一种流行方法以往工作 [37,38,39] 率先利用带有域随机化的仿真数据来训练开环抓取模型近来若干工作 [40,41,42] 在仿真环境中通过随机化物体配置并利用运动规划生成逼真的机器人轨迹探索自动扩增人类示范数据另一类工作 [43,44,45,46] 则在无需任何物理仿真的情况下从少量人类示范出发利用文本到图像生成模型和多视图立体渲染来合成数据尽管这些方法[47] 仍依赖人类示范来生成增广数据作者的工作则探索通过利用大规模合成数据以及预训练视觉和语言主干网络实现直接的仿真到现实sim-to-real迁移最后对于抓取抓取是具身智能体的一项核心技能 [48]在过去十年中受到广泛研究。一些工作通过开环抓取检测 [49,14,50] 来解决该问题然后利用运动规划器控制末端执行器这类基于模块的系统通常存在深度感知能力不足 [51]且缺乏故障恢复行为 [52,53] 等问题另一条研究路线则以视觉为基础采用端到端且闭环的方式构建抓取系统可以基于强化学习 [54] 或模仿学习 [55]随着视觉-语言基础模型 [1,56,57] 的出现一些工作通过构建将抓取检测模型与VLM 相结合的模块化系统试图将抓取泛化到开放词表的物体[58,59,60,61,62]尽管这些方法在标准抓取任务上取得了显著效果但在适应带有特定约束的抓取等专业化任务时仍面临挑战1.2 SynGrasp-1B 数据集生成如原论文所述训练一个具有良好泛化能力的基础模型需要一个涵盖多样物体和环境条件的大规模数据集。相比依赖代价高昂的现实世界人工数据采集作者提出完全基于合成数据进行训练——在只需原本一小部分时间和成本的前提下获得更高的多样性1.2.1 物体资产与布局生成作者使用 Objaverse 数据集 [63] 中的 LVIS 子集并仔细过滤掉武器等不合适的类别最终得到共 240 个类别和 10,680 个实例且作者对这些物体进行随机缩放并以各种姿态将其投放到桌面上从而生成多样且物理上合理的场景。更多细节见补充材料1.2.2 抓取合成与轨迹生成附给定初始布局作者利用先进的模块化系统建立专家策略用于生成高质量的抓取与提举目标物体的轨迹对于每一个物体实例作者采用抓取合成算法 [64] 生成稳定的对指抓取随后作者使用运动规划算法 CuRobo [65] 规划无碰撞轨迹以到达开环抓取位姿并将物体提起且作者在MuJoCo 物理仿真器 [12] 中验证所有候选轨迹以确保物体能够被成功提起1.2.3 视觉随机化与渲染借助多样化的布局及其对应的轨迹作者使用 Isaac Sim [66] 渲染高质量的 RGB 图像并在光照、背景以及相机设置上进行随机化Isaac Sim 提供高效的、具有照片真实感的光线追踪渲染。且作者采用多种光源并进行大范围随机化包括点光源、方向光源和穹顶光源图像从两个不同的视角进行渲染以便对场景形成全面观测并在预定义中心附近对相机外参进行随机扰动。更多细节见补充材料1.2.4 高效数据生成、为模仿学习裁剪数据此外作者进一步强调在设计数据生成流水线时的两个主要考量高效数据生成作者提出三项关键策略来提升效率1) 高质量网格通常体积庞大导致加载时间长且内存占用高。对此作者实现了一种缓存机制在保证数据多样性的同时避免重复加载2) 其次作者实现了异步数据写入使图像和标注可以并行保存从而提升整体数据生成效率3) 最后作者采用并行的物理仿真与渲染以进一步提高效率。更多细节请参见补充材料为模仿学习裁剪数据为了降低模仿学习的难度作者引入了两点改进首先尽管开环抓取 [14] 为避免碰撞采用了两步流程先进行预抓取定位然后执行抓取但这种分段式方法会在动作中产生停顿在此类数据上训练得到的模仿策略往往会表现出犹豫不决的行为 [6,67]为此作者改用单步运动规划在规划时将轨迹的平滑性置于规划成功率之上进行优先考虑其次作者对机器人的初始姿态进行随机化以提升专家示范在工作空间中的探索度和观测多样性从而增强模型的鲁棒性 [68]通过这一流水线作者使用 160 块 NVIDIA 4090 GPU 连续运行 10 天生成了包含十亿帧的数据集 SynGrasp-1Bps作者在附录中提供了关于数据多样性的分析1.3 模型1.3.1 整体架构GraspVLA 将视觉语言模型VLM与动作专家 [7] 集成起来并通过渐进式动作生成Progressive Action Generation, PAG机制相连接如图 3 所示『GraspVLA 由自回归视觉-语言骨干网络和基于流匹配的动作专家组成。它通过“渐进式动作生成”机制充分利用互联网指代数据与合成动作数据之间的协同效应模型首先在合成数据和网页数据上预测目标物体的2D边界框并在合成数据上进一步生成抓取姿态和分段动作』VLM 接收观测图像和文本指令用于实现视觉与语言的联合感知它由一个可训练的大型语言模型InternLM2 1.8B [69]一个受 OpenVLA [6] 启发、用于融合冻结的DINO-v2 [70] 与SigLIP [71] 特征的视觉编码器以及一个从视觉空间到语言空间的可训练投影器组成且作者采用条件流匹配conditional flow matching动作专家 [72] 来生成细粒度的末端执行器动作此外作者进一步引入 PAG以高效地将从互联网 grounding 数据集学习到的知识迁移到抓取技能上1.3.2 渐进式动作生成虽然 GraspVLA 从他们的SynGrasp-1B数据集中学习到了具有泛化能力的抓取技能但它仍然受限于该合成数据集中所包含的类别集合为了将抓取策略扩展到新的类别一种直接的方法是将其与互联网 grounding 数据集作为独立任务进行联合训练并依赖模型将其在 grounding 数据集中学到的物体类别隐式泛化到抓取任务中另一种方式即是Progressive Action Generation(简称PGA)作者将图像定位和抓取位姿预测建模为生成动作的中间步骤对于后者具体而言VLM 被训练在统一的格式下为互联网 grounding 数据集和合成动作数据集同时生成 2D 边界框随后对于合成数据集VLM 进一步在机器人的基座坐标系中预测目标抓取位姿最后动作专家根据 VLM 针对输入和中间推理 token 所产生的键值缓存key-value cache生成动作片段action chunk————为促进精确的 3D 感知最近两个时间步的本体感知数据被离散为 token并在生成抓取位姿之前插入序列中为使互联网数据集与SynGrasp-1B的双相机配置对齐输入图像会被复制以匹配视角数量并分别进行随机缩放、裁剪、水平翻转和颜色抖动等增强处理两个数据集共享同一个文本提示模板且均先生成边界框 token这一统一的训练策略充分利用了互联网图像定位数据集与合成数据集之间的协同效应并类似于在大型语言模型中被广泛研究且被证明能有效处理高度复杂任务的思维链Chain-of-Thought推理机制 [73]1.3.3 VLM 与动作专家的联合训练在每个 batch 中作者从互联网数据集GRIT [74]和合成动作数据集中随机采样前者仅用于以自回归方式监督 VLM 的边界框预测后者则同时监督边界框、抓取姿态以及基于 flow-matching 的动作预测VLM 的损失函数形式上定义为其中和分别是边界框与抓取位姿两类 token 序列的长度和是各自序列中位置处的 token则表示输入的图像和文本动作专家通过对分块后的末端执行器增量动作end-effector delta actions施加 flow matching 损失进行监督学习其中是流匹配的时间步是在时刻加噪的动作主干是模型预测的流匹配向量场是真实向量场作者宣称他们通过实验证明将和简单相加作为整体损失可以带来良好的性能// 待更