做网站的顶部图片成都专门做网站的公司-彰化县网站建设公司-Seo优化

做网站的顶部图片,成都专门做网站的公司,wordpress小工具友情链接,wordpress 分类页面层级点击下方卡片#xff0c;关注“自动驾驶之心”公众号戳我- 领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Jialv Zou等编辑 | 自动驾驶之心时隔一年#xff0c;DiffusionDrive终于升级到v2了。华科王兴刚教授团队近年来产…点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Jialv Zou等编辑 | 自动驾驶之心时隔一年DiffusionDrive终于升级到v2了。华科王兴刚教授团队近年来产出了很多大家耳熟能详的工作比如MapTR、VAD系列、ReCogDrive、首个闭环3DGS训练框架-RAD、DiffusionDrive等等工作而廖本成博士也是这些工作的核心开发者。在端到端自动驾驶的轨迹规划任务中扩散模型常面临mode collapse的问题倾向于生成保守且单一的行为。尽管DiffusionDrive通过预定义的锚点代表不同驾驶意图对动作空间进行划分从而生成多样化轨迹但该方法依赖模仿学习缺乏足够约束导致在多样性与持续高质量之间陷入两难困境。本文提出DiffusionDriveV2利用强化学习既约束低质量模式又探索更优轨迹。该方法在保留核心高斯混合模型固有多模态特性的同时显著提升了整体输出质量。首先引入适用于轨迹规划的尺度自适应乘法噪声以促进更广泛的探索其次采用锚点内GRPO管理单个锚点生成样本间的优势估计并通过锚点间截断GRPO整合不同锚点的全局视角避免不同意图如转弯与直行间不当的优势比较此类比较可能进一步导致mode collapse。在NAVSIM v1数据集的闭环评估中DiffusionDriveV2结合对齐的ResNet34网络实现了91.2的PDMS在NAVSIM v2数据集上实现了85.5的EPDMS创下新纪录。进一步实验验证该方法解决了截断扩散模型在多样性与持续高质量之间的矛盾实现了最优权衡。论文链接https://arxiv.org/abs/2512.07745论文标题DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving开源链接https://github.com/hustvl/DiffusionDriveV2一、背景回顾近年来随着3D目标检测、多目标跟踪、预训练、在线建图和运动预测等传统任务的日益成熟自动驾驶系统的发展浪潮已转向端到端自动驾驶E2E-AD——该方法直接从原始传感器输入中学习驾驶策略。该领域的早期方法在建模方面存在局限性传统端到端单模态规划器仅回归单一轨迹无法在高不确定性的复杂驾驶场景中提供备选方案基于选择的方法采用大型静态候选轨迹词汇库但这种离散化方式灵活性有限。近年来已有多项研究将扩散模型应用于轨迹生成该模型可根据周围场景动态生成少量候选轨迹。然而将原始扩散模型直接应用于多模态轨迹生成时会面临模式崩溃的挑战——模型会收敛到单一高概率模式无法捕捉未来的多样性可能如图1(a)所示。为解决这一问题DiffusionDrive提出利用多个预定义轨迹锚点定义的高斯混合模型GMM构建初始噪声的先验分布。这种结构化先验将整个生成空间划分为多个子空间每个子空间对应特定驾驶意图例如一个模式用于变道另一个用于直行从而有效促进多样化行为模式的生成。然而DiffusionDrive受限于模仿学习IL范式在生成轨迹的多样性与持续高质量之间陷入根本性两难。尽管高斯混合模型先验确保了模式生成的多样性但其训练目标旨在最大化整个混合模型中专家轨迹的似然性而在实际应用中被简化为仅优化单一正模式即与专家轨迹最接近的模式的参数。因此该方法忽略了对来自负模式占样本绝大多数的采样轨迹施加任何显式约束导致模型在生成高质量轨迹的同时也会产生大量无约束、低质量且常发生碰撞的轨迹无法保证持续的高质量如图1(b)所示。这种危险的混合轨迹迫使系统依赖下游选择器但由于选择器的参数通常远少于生成器其鲁棒性更弱。这种过度依赖存在显著风险当筛选大量低质量轨迹时尤其是在分布外场景中选择器容易失效。强化学习RL为这一困境提供了强有力的解决方案。与局限于单一正模式的模仿学习不同强化学习采用“探索-约束”范式一方面通过对所有模式施加目标对齐约束来提高模型的下限——奖励期望行为同时惩罚负模式的不安全动作另一方面通过推动模型探索更广泛的动作空间来提高模型的上限寻求在质量和效率上可能超越专家的策略。受DeepSeek-R1成功的启发已有多项研究将GRPO引入端到端自动驾驶领域但这些应用仅限于原始扩散模型。与这些方法不同在基于锚点的截断扩散模型中每个预定义轨迹锚点代表不同的驾驶意图。若直接对不同驾驶意图对应的轨迹进行优势估计会加剧模式崩溃。例如左转轨迹和直行轨迹应共存而非进行优劣比较。这一见解促使我们提出锚点内GRPO通过仅在每个锚点内进行组优势估计阻止不同意图间的比较从而防止模式崩溃同时引入锚点间截断GRPO以提供全局视角并稳定训练。借助这些创新本文提出一种新型框架DiffusionDriveV2利用强化学习解决DiffusionDrive因依赖模仿学习而面临的多样性与持续高质量之间的两难问题。我们在面向规划的NAVSIM v1和NAVSIM v2数据集上通过闭环评估对该方法进行基准测试。DiffusionDriveV2在两个基准测试中均达到当前最优水平结合ResNet-34主干网络在NAVSIM v1上实现91.2的PDMS在NAVSIM v2上实现85.5的EPDMS相比现有方法有显著提升。此外与其他基于扩散的生成模型相比DiffusionDriveV2在轨迹多样性与持续高质量之间实现了最优权衡。本文的贡献可总结如下提出DiffusionDriveV2——一种引入强化学习的新型方法用于解决DiffusionDrive因模仿学习中多模态监督不完整而导致的多样性与持续高质量两难问题。据我们所知DiffusionDriveV2是首个直接面对并解决这一困境的工作。引入锚点内GRPO和锚点间截断GRPO解决了将原始GRPO直接适配到DiffusionDrive时在高斯混合模型框架下无法跨不同模式进行组优势估计的问题。DiffusionDriveV2是首个成功将GRPO迁移到截断扩散模型的工作。采用尺度自适应乘法噪声作为探索噪声而非加法噪声有助于保留探索轨迹的平滑性和连贯性。在NAVSIM v1和NAVSIM v2基准测试中的大量评估表明DiffusionDriveV2在保留底层高斯混合模型生成多模态轨迹能力的同时显著提升了整体输出质量实现了当前最优性能。二、预备知识端到端自动驾驶端到端自动驾驶E2E-AD系统通过模仿学习习得专家驾驶策略将原始传感器数据映射为未来自车轨迹预测结果。轨迹由一系列未来路径点表示记为其中为第时刻路径点的位置代表规划时域。截断扩散模型扩散策略模型通过学习反向马尔可夫噪声过程对随机高斯噪声进行迭代优化从而生成轨迹。然而实验表明原始扩散模型易出现模式崩溃问题无法生成多样化驾驶行为。这使其难以应对复杂驾驶场景无法提供丰富的备选轨迹例如跟车与超车、路口直行与左转等场景。为解决原始扩散模型的模式崩溃问题DiffusionDrive提出将轨迹分布建模为高斯混合模型Gaussian Mixture Model, GMM分布。该方法通过K-Means算法对专家驾驶行为进行聚类得到个锚点轨迹用这组离散轨迹表示不同的驾驶意图。每个锚点对应轨迹空间中的特定区域进而代表一种具体驾驶意图如超车、左转或直行。锚点对应的轨迹分布可表示为值得注意的是与直接从随机噪声中预测轨迹的原始扩散模型不同DiffusionDrive的训练目标是预测轨迹与其对应锚点之间的偏移量。其中表示基于场景上下文的、相对于锚点状态的场景特定偏移量。整个轨迹分布可表示为该分布即为高斯混合模型其中为混合权重表示在给定场景上下文时选择锚点所对应驾驶意图的概率。DiffusionDrive采用截断扩散过程通过缩短标准噪声调度表将每个锚点轨迹扩散为对应的锚定高斯分布其中且为标准扩散模型的噪声步数为截断扩散步数。训练阶段DiffusionDrive以锚定高斯分布中采样的带噪轨迹为输入预测去噪后的轨迹及概率得分其中是公式(2)中的简写。然而DiffusionDrive仍受限于模仿学习IL的固有缺陷。尽管其基于锚点的设计缓解了模式崩溃问题并提供了多样化轨迹选择但训练过程本质上受限于每个场景仅存在一条真实轨迹GT trajectory。因此模型在训练时仍需选择一个锚点作为正模式进行优化将与真实轨迹最接近的锚点指定为正样本其余锚点则为负样本。训练目标函数为受模仿学习的约束每个场景中仅有一个模式能获得监督。这导致模型虽能生成多样化轨迹但也会产生大量可能引发碰撞的低质量轨迹对系统安全性构成重大威胁。DiffusionDriveV2算法详解截断扩散生成器本文提出的DiffusionDriveV2整体架构如图2所示。为生成多模态轨迹我们直接采用DiffusionDrive作为轨迹生成器并利用其在真实轨迹上通过模仿学习预训练得到的权重实现冷启动使模型初步具备多模态轨迹生成能力。基于感知网络提取的特征截断扩散解码器以锚定高斯分布中采样的带噪轨迹为输入经过步迭代优化后生成最终的去噪轨迹。面向扩散生成器的强化学习尽管DiffusionDrive在多模态轨迹生成方面表现出较强能力但它继承了模仿学习的核心缺陷——对负模式缺乏监督。这往往导致低质量轨迹的生成对系统构成严重威胁。为解决该问题我们引入轨迹级强化学习目标对所有模式施加约束同时推动模型探索更优驾驶策略。受DPPO启发我们将去噪过程视为马尔可夫决策过程MDP。从锚点出发的扩散链中每个条件去噪步骤均可视为一个高斯策略其中为模型预测的均值由预定义的噪声调度表确定。该式表示高斯似然可通过解析方式求解且适用于基于REINFORCE的策略梯度更新其中表示优势函数。 ### 尺度自适应乘法探索噪声 DiffusionDrive采用DDIM更新规则将去噪步数大幅减少。该更新规则通常通过设置作为确定性采样器使用。为实现更广泛的探索并避免狄拉克分布下的似然计算问题我们在训练阶段设置以引入探索噪声等价于采用DDPM而在验证阶段保持以实现确定性推理。然而由于轨迹的近端段与远端段存在固有尺度不一致性直接在每个点施加加法高斯噪声会破坏轨迹的结构完整性降低探索质量。如图3(a)所示对标准化轨迹施加加法高斯噪声后生成的探索路径通常呈锯齿状类似折线丧失了原始轨迹的平滑性。为保留轨迹连贯性我们提出仅添加两个乘法高斯噪声一个纵向噪声、一个横向噪声其表达式为其中。这种尺度自适应乘法噪声确保生成的探索路径保持平滑如图3(b)所示。 ![](https://files.mdnice.com/user/22429/746da175-7034-42bc-bd73-810ff4e08f23.png) ### 面向轨迹生成的锚点内GRPO GRPO是一种适用于多智能体或多模式场景的强化学习方法其通过共享的组级基线更新每个智能体的策略。与传统PPO不同该方法通过基于组条件期望归一化的优势函数定义策略梯度。通过利用轨迹级奖励优化非可微目标GRPO对标准模仿学习进行了增强可引导扩散模型生成多样化、面向目标的轨迹且性能有望超越人类驾驶员。然而若直接将不同锚点采样的轨迹作为GRPO策略更新的“组”则会适得其反。这种做法与我们利用锚点将轨迹空间划分为不同驾驶意图对应区域的核心动机相冲突甚至会导致模式崩溃。例如若将代表“右转”和“直行”的锚点采样轨迹如图2中红色和绿色轨迹进行相对优化策略可能会崩溃为更常见的“直行”单一模式。这些锚点代表本质不同的意图不应在同一优化组内直接比较。基于这一洞察我们提出锚点内GRPOIntra-Anchor GRPO。对于每个锚点首先通过随机高斯噪声和探索噪声对其进行扩散生成个轨迹变体组成的组随后在该组内执行GRPO更新而非跨不同锚点的组进行更新。该方法将策略优化约束在每个特定行为意图的状态空间内引导模型生成更安全、更面向目标的轨迹同时不损害其多模态能力。强化学习损失函数可表示为其中为折扣系数用于缓解早期去噪步骤中的不稳定性为优势函数GRPO通过计算组相对优势进行估计无需价值模型为基于最终去噪轨迹计算的单一奖励估计值该奖励被应用于扩散链中的所有去噪步骤且每个步骤的影响通过去噪折扣进行缩放。此外与原始GRPO通过添加策略模型与参考模型之间的KL散度实现正则化类似我们引入额外的模仿学习损失以防止模型过拟合并保障其通用驾驶能力。组合损失函数为其中为权重系数。面向轨迹生成的锚点间截断GRPO锚点内GRPO虽能防止模式崩溃但完全隔离不同模式会引发新问题优势估计丧失全局可比性。例如某一模式中次优但安全的轨迹可能获得负优势而另一模式中危险且存在碰撞的轨迹若为其组内“最优”样本则可能获得正优势。这种依赖局部组内比较的方式会向模型传递误导性学习信号。为解决该问题我们提出锚点间截断GRPOInter-Anchor Truncated GRPO其核心原则简洁而有效奖励相对改进但仅惩罚绝对失败。具体实现方式为修改锚点内GRPO的优势估计将所有负优势截断为0并对存在碰撞的轨迹分配-1的强惩罚这一设计为模型提供了清晰且一致的学习信号。随后该截断优势将替代公式(7)中的用于强化学习损失计算。模式选择器我们在模型末尾添加了一个模式选择器负责从代表不同意图的多模态预测结果中选择最优、与目标最对齐的轨迹。得分越高表示与整体目标的对齐程度越强。具体而言轨迹坐标首先作为查询向量通过可变形空间交叉注意力与BEV特征交互随后通过与智能体查询和地图查询的交叉注意力层进行优化最后富含上下文的特征表示被输入多层感知机MLP以预测得分。受DriveSuprim启发我们采用两阶段“粗到细”评分器首先由粗评分器筛选出排名前的候选轨迹再由细粒度评分器进行更细致的选择。得分学习采用二元交叉熵BCE损失。针对连续指标我们引入额外的Margin-Rank损失其中为真实得分为预测得分为正超参数。该损失引导模型比较轨迹的相对质量避免直接回归绝对连续值的难题进而增强模型对细微差异的区分能力。四、实验结果分析基准测试数据集我们在NAVSIM v1和NAVSIM v2数据集上对DiffusionDriveV2进行评估。NAVSIM基于OpenScene构建包含一系列真实世界、以规划为核心的驾驶场景是大规模nuPlan数据集的精简版本。该数据集的传感器套件包括8台摄像头提供360°视野和5台激光雷达生成融合点云并分为训练集navtrain1192个场景和测试集navtest136个场景。实现细节为保证公平对比我们的模型采用与Transfuser和DiffusionDrive相同的ResNet-34主干网络并匹配DiffusionDrive的扩散解码器尺寸。DiffusionDriveV2的输入包括3张裁剪并下采样的前向摄像头图像拼接为1024×256尺寸以及激光雷达点云的栅格化鸟瞰图BEV表示。我们以DiffusionDrive在模仿学习中预训练的权重作为冷启动随后在navtrain训练集上通过强化学习训练10个epoch。优化器采用AdamW学习率为总批次大小为512分布式训练于8台NVIDIA L20 GPU。模式选择器采用相同配置训练20个epoch。推理阶段与DiffusionDrive一致仅需2步去噪即可生成预测结果。主要结果NAVSIM v1数据集结果如表1所示DiffusionDriveV2在NAVSIM v1测试集上实现当前最优性能PDMS规划决策度量分数达到91.2。该模型相较于DiffusionDrive提升了3.1个PDMS且EP自车进度分数显著提升5.3证明其能提供更高质量、更高效的驾驶策略——这一改进归功于精心设计的强化学习方法。与同样基于强化学习的DIVER相比DiffusionDriveV2的PDMS高出2.9验证了锚点内GRPO和锚点间截断GRPO训练框架的卓越有效性。此外仅配备ResNet-34主干网络2180万参数的DiffusionDriveV2性能仍优于基于更大V2-99 主干网络9690万参数的GoalFlow和Hydra-MDP。多样性与质量受DIVER启发我们引入多样性指标Div.定量评估模型生成多模态轨迹的能力。该指标定义路径点处的未归一化 pairwise 多样性为为保证不同场景下轨迹的尺度一致性通过平均轨迹尺度对其进行归一化最终多样性得分为所有路径点的平均值。为评估生成轨迹的整体质量我们进一步报告Top-K PDMS前K个排名轨迹的PDMS分数。由于基于回归和基于选择的端到端自动驾驶方法仅能生成确定性轨迹我们仅在测试集中将本文方法与其他基于扩散的方法进行对比。参考DiffusionDrive的设置每个模型生成20条轨迹用于评估结果如表3所示。结果验证了我们的理论原始扩散方法生成质量稳定但缺乏多样性陷入单一“保守”轨迹DiffusionDrive生成多样性极高但无法保证持续高质量而DiffusionDriveV2通过精心设计的强化学习算法实现“探索-约束”效果——对所有模式施加约束以提高模型下限Top-10 PDMS同时推动模型探索更优策略以提高模型上限Top-1 PDMS。该方法解决了截断扩散模型在多样性与持续高质量之间的矛盾实现了最优权衡。消融实验我们通过一系列消融实验验证DiffusionDriveV2各设计模块的有效性。为保证公平对比所有实验采用相同超参数配置并通过减少训练轮数实现快速验证。探索噪声类型表4展示了不同探索噪声的对比结果。实验证实尺度自适应乘法噪声优于加法噪声能有效解决轨迹近端与远端的尺度不一致问题。更多可视化结果五、结论本文提出DiffusionDriveV2框架通过结合锚点内GRPO、锚点间截断GRPO与尺度自适应乘法探索噪声解决了DiffusionDrive因模仿学习多模态监督不完整而面临的多样性与持续高质量两难问题。大量实验和定性对比验证DiffusionDriveV2在保证规划质量持续优异与模式多样性之间实现了最优权衡并取得了当前最优的闭环性能。自动驾驶之心面向量产的端到端实战小班课添加助理咨询课程知识星球交流社区

做网站的顶部图片成都专门做网站的公司

有没有做网站的电话做网站怎么打空格

用织梦后台修改网站logowordpress怎样

建设旅游网站建议南昌网站建设和推广

全国卫生机构建设管理系统网站程序员培训机构出来找工作好找吗

如何编写一份网站开发需求文档网站怎么推广怎么做

暗网是什么网站网站版块设计教程