admin 管理员组文章数量: 1184232
我自己的原文哦~ https://blog.51cto/whaosoft/13960249
#端到端自动驾驶算法实现原理
1从传感器数据到控制策略的端到端方法
端到端自动驾驶基本流程:
(1)子任务模型被更大规模的神经网络模型取代,最终即为端到端神经网络模型;
(2)由数据驱动的方式来解决长尾问题,取代rule-based的结构。
优点:
(1)直接输出控车指令,避免信息损失;
(2)具备零样本学习能力,更好解决OOD问题;
(3)数据驱动方式解决自动驾驶长尾问题;
(4)避免上下游模块误差的过度传导;
(5)模型集成统一,提升计算效率。
2完全端到端是怎么做的
评估指标
●开环指标
○L2误差
○碰撞率
●闭环仿真
○路线完成率(RC)路线完成的百分比
○违规分数(IS)衡量触发的违规行为
○驾驶分数(DS)表示驾驶进度和安全性
3端到端的一些主流方法
3.1 UniAD算法详解
算法动机
●跨模块信息丢失、错误积累和特征misalignment
●负向传输
●安全保障和可解释性方面
●考虑模块较少
开创性思路
●第一项全面研究自动驾驶领域包括感知、预测和规划在内的多种任务的联合合作的工作
●以查询方式链接各模块的灵活设计
●一种以决策为导向的端到端框架
主体结构
该模型包括特征提取,特征转换,感知模块(目标检测+多目标跟踪+建图部分,TrackFormer、MapFormer),预测模块(MotionFormer、OccFormer),规划模块(指令导航、Occ矫正轨迹)
性能对比
消融实验证明各个模块都是不可或缺的,然后再去对比单个模块的性能。各个模块的对比这里不再展开。
3.2 VAD算法详解
算法动机
●栅格化表示计算量大,并且缺少关键的实例级结构信息
●矢量化表示,计算方面效率高
主体结构
该模型包括特征提取、特征转换、矢量化场景学习、规划模块。
性能对比
3.3 UAD算法详解
算法动机
●现存方法的标注和计算开销过大,所以本篇没有人工标注的需求
●感知模块的标注不是提升规划性能的关键,扩大数据量才是关键。只对数据量扩大但不增加标注成本。
开创性思路
●无监督代理任务
●自监督方向感知策略
主体结构
整体结构包括两部分的内容,分别是
●无监督的代理任务
输入是一个环视的图像,通过GroundingDINO(开集检测器,在训练集中10个类别的数据,但是验证集中有多出来的其他类别也要要求能检测出来),然后得到BEV特征,经过Dreaming Decoder得到预测结果与刚才说获取的标签去计算一个loss(二分类交叉loss)
用于对物体预测的Dreaming decoder的整体结构是:初始化K个角度的Query,BEV特征被分成了K个区域跟Query一一对应,经过GRU模块(用t-1时刻的Query和当前时刻t的特征F去计算当前时刻t的Query),用t时刻的特征和t时刻的Query做一个CrossAttention得到下一时刻的特征。即自回归的一种方式。Query之间对平均值和方差进行一个DreamingLoss,让其分布尽量相似。
●利用方向感知的规划模块
该模块包括三部分的内容
(1)PlanningHead规划头(通过模仿学习来计算未来轨迹,对BEV特征进行旋转,过规划头得到响应的预测轨迹,然后GT也要旋转,两者得到一个模仿学习的loss。)
(2)Directional Augmentation方向增强(先对轨迹沿着车辆行驶方向划分为直行、左转、右转,然后通过这个预测头做一个三分类)
(3)Directional Consistency方向一致性(旋转后的特征得到的轨迹再旋转回去之后,跟之前的对比得到loss。)
性能对比
3.4 SparseDrive算法详解
算法动机
●认为传统方法中BEV特征计算成本高
●忽略了自车对周围代理的影响
●场景信息是在agent周围提取,忽略了自车
●运动预测和规划都是多模态问题,应该输出多种轨迹
开创性思路
●探索了端到端自动驾驶的稀疏场景表示,并提出了一种以稀疏为中心的范式
●修改了运动预测和规划之间的巨大相似性,提出了一种分层规划选择策略
主体结构
输入环视的6幅图像,输出是其他agent的预测和规划结果。
中途处理过程包括:特征提取、对称稀疏感知、平行运动规划三大模块。
在对称稀疏感知模块中,主要包含:稀疏检测、稀疏跟踪、稀疏在线建图任务,我们来具体看一下。
在平行运动规划器模块中:作者认为其他agent的轨迹预测和自车的轨迹预测应该是一个任务,并且是互相影响的。
性能对比
3.5 ReasonNet算法详解
这是一个时序+多模态的方案,这篇论文对一些特殊的场景进行了考虑。
算法动机
●应该对驾驶场景的未来发展做出高保真的预测;
●处理长尾分布中罕见不利事件,遮挡区域中未被发现但相关的物体。
开创性思路
●提出一种新型的时间和全局推理网络,增加历史的场景推理,提高全局情景的感知性能;
●提出一种新基准,由城市驾驶中各种遮挡场景所组成,用于系统性地评估遮挡事件。
主体结构
这篇文章是多模态的,所以其输入是图像输入和雷达点云的输入所组成的,输出是waypoints。
主体结构分为三个模块:
●感知模块:从Lidar和RGB数据中提取BEV特征;
●时间推理模块:处理时间信息并维护存储历史特征的存储库;S用于计算存在Memory Bank中的历史特征和当前特征的相似度
●全局推理模块:捕获物体与环境之间的交互关系,以检测不利事件(如遮挡)并提高感知性能。
性能对比
基于本文提出的新的benchmark叫做DOS benchmark:四种场景分别包含25种不同的情况,包括车辆和行人的遮挡,有间歇性遮挡和持续遮挡但有交互线索。
3.6 FusionAD算法详解
这是一篇多模态的方案,是在UniAD的基础上加入了点云数据,改造成了多模态的方案。
算法动机
●传统的模块化方法没办法支持梯度反传,会造成信息的丢失。
●UniAD只支持图像输入,不支持激光雷达信息。
开创性思路
●第一个统一的基于BEV多模态、多任务的端到端学习框架,重点关注自动驾驶的预测和规划任务;
●探索融合特征增强预测和规划任务,提出一个融合辅助模态感知预测和状态感知规划模块,称为FMSPnP。
主体结构
该模型的主体结构包括特征融合模块、预测模块、规划模块。
性能对比
3.7 Hydra-MDP算法详解
CVPR 2024端到端自动驾驶挑战赛冠军+多模态方案,具备多个目标的多头蒸馏。
算法动机
本文作者提出的新的范式,就是规划模块是多模的输出,同时,目标也是多样性的,即不仅是GT的轨迹也同时引入了更多的正样本,由不同的专家给出的。此外,将后处理的模块变成了可微分的用于训练的神经网络的模块,从而消除了第二种范式中由于不可微分而带来的信息损失的情况。
开创性思路
●引入了更多的正样本,由不同专家给出;
●感知真值引入规划模块用于训练。
主体结构
第一部分是感知的信息处理融合和提取,第二个模块是用前面得到的特征去解码出轨迹,最后一个模块是多目标学习范式部分。
感知模块用的Transfuser的baseline
轨迹解码器:计算不同的预测轨迹与GT轨迹的距离,这里用的是L2,用这个距离做softmax,然后去产生不同轨迹的得分情况,从而去监督得分。
多目标多头蒸馏模块:我们看到轨迹模仿学习之后的轨迹还过了其他的MLP,这就是其他头,它的目标也是不一样的,第一个是跟碰撞相关的,第二个是跟行驶区域相关的,第三个是跟舒适度相关的,也就是说不同的评判指标都有一个teacher,之前的模仿学习就是人类的teacher,那么这些teacher是怎么来的呢?怎么通过这些teacher来蒸馏的呢?我们看下作者是怎么去做的,首先我们得到规划词表Planning Vocabulary之后,对规划词表进行了一个模拟(用感知模块的GT进行训练的),有了这两个之后,我们就能算出来这些评估指标,从而计算每条轨迹的得分。总结一下就是对整个训练数据集的规划词汇进行离线模拟,在训练过程中引入每条轨迹的模拟分数的监督。
性能对比
....
#xxx
....
#GuideFlow
轻舟智航最新!GuideFlow:端到端轨迹规划新方案,超越一众SOTA......
今年学术界和工业界很大的精力都投入在Action的建模上,也就是自车轨迹的输出。先前的MLP只能输出单模的轨迹,实际使用中无法满足下游不确定性的需求。所以从去年开始,我们看到了生成式的很多算法问世。
经过这一年的发展,生成式的算法进一步收敛到Diffusion和Flow matching两个方向上。xxx了解到上半年有不少公司都在尝试将这两种方法落地量产,期间坎坷无需多言。
今天为大家分享的是一篇北交&轻舟智航等团队最新的工作,提出一种基于Constrained Flow Matching的新型规划框架GuideFlow,整体效果还不错。
具体而言,GuideFlow显式建模流匹配过程,该过程本质上可缓解模态坍塌的问题,并能灵活融合多种条件信号的引导。本文的核心贡献在于,将显式约束直接嵌入流匹配生成过程,而非依赖隐式约束编码。关键创新点在于,GuideFlow将流匹配与Energy-Based模型的训练相统一,增强模型自主优化能力,以满足物理约束。其次,GuideFlow将驾驶激进度参数化为生成过程中的控制信号,实现对轨迹风格的精准调控。在主流驾驶基准数据集(Bench2Drive、NuScenes、NavSim和ADV-NuScenes)上的大量实验验证了GuideFlow的有效性。值得注意的是,在NavSim测试集的高难度子集(Navhard)上,GuideFlow取得了当前最优(SOTA)性能,其扩展PMD分数(EPDMS)达到43.0。
- 论文标题:GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving
- 论文链接: https://arxiv/abs/2511.18729
一、背景回顾
近年来,端到端自动驾驶(E2E-AD)已成为传统模块化流水线的一种极具吸引力的替代方案。与单独优化感知、预测和规划模块不同,端到端自动驾驶将整个驾驶过程构建为一个可微分的统一系统,能够通过数据进行整体训练。以UniAD为代表的框架便是该方向的典型范例,其将空间感知、在线建图、运动预测和控制决策等功能耦合在一个连贯的架构中。这种联合范式支持跨任务推理,有效减轻了分阶段设计中常见的级联误差问题。其中,规划模块的核心作用是预测可行的、面向目标的轨迹,最终决定车辆的行驶行为。
近年来,端到端自动驾驶规划技术已从单模态轨迹生成向多模态轨迹生成演进,以更好地反映真实驾驶场景中的固有不确定性。在许多场景中,往往存在多种合理的驾驶意图,但单模态端到端自动驾驶规划器仅能输出一条确定性路径,限制了系统的鲁棒性。相比之下,多模态端到端自动驾驶规划方法会预测多条候选轨迹,提供更丰富的意图表达。然而,如图1所示,这些方法大多仍基于模仿学习(IL)进行训练。由于每个驾驶场景仅提供一条真实轨迹(GT),模型学习到的多模态输出往往会向单一主导模式收敛——尽管名义上具备多样性,但最终预测结果高度相似。这种现象被称为模式崩溃。为缓解模式崩溃问题,近期研究探索将生成式建模用于轨迹规划。生成式方法(流匹配和扩散模型)旨在表征可行未来轨迹的完整分布,通过迭代采样自然实现多样化的轨迹假设。尽管生成式方法提升了多模态轨迹预测性能,但采样过程中固有的随机性和高方差,给保证生成轨迹满足严格安全约束带来了根本性挑战。当前方法极少探索在生成过程中融入显式的风格引导和安全引导以确保约束满足,这给系统的可靠部署带来了难题。
为解决上述问题,本文提出GuideFlow框架——一种基于流匹配架构、生成过程受显式监督的规划模型。GuideFlow从随机采样出发,通过多样化的条件信号引导生成过程,从而缓解模式崩溃问题。其核心创新在于将安全约束直接嵌入生成过程的策略:(1)速度场约束(CVF):采用预定义的、满足约束的速度场,主动修正模型预测的速度场,引导结果满足约束;(2)流状态约束(CF):对偏离约束的流路径进行修正,使流路径朝向满足约束的生成终点演进;(3)EBM流优化(RFE):通过统一流匹配架构与能量基模型(EBM),赋予模型在数据流形内自主探索的能力,使其能够“发现”满足约束的结果。本文的贡献如下:
- 提出一种基于流匹配的多模态轨迹规划器GuideFlow,有效缓解模式崩溃问题。其核心创新在于在流匹配过程中施加显式硬约束,并结合EBM提升轨迹的可行性;
- GuideFlow将环境奖励作为条件信号,在推理阶段支持激进驾驶与保守驾驶风格的灵活切换;
- 在自动驾驶数据集(NuScenes、ADV-NuScenes、NavSim和Bench2Drive)上的大量实验验证了其优异性能。值得注意的是,在NavSim测试集的高难度子集(Navhard)上,GuideFlow取得当前最优结果,EPDMS分数达43.0。
二、预备知识
Flow Policy and Rectified Flow:本文首先将规划问题建模为基于流的轨迹生成问题,该方法通过学习一个向量场,将简单的高斯先验分布映射到目标轨迹分布。设沿概率路径遵循如下常微分方程(ODE)演化:
其中是可学习的向量场。该模型的一种常见实现形式是修正流(Rectified Flow, RF)。修正流在先验分布与目标分布之间构建线性概率路径,即样本满足。在此设定下,流匹配的学习目标定义为:
该目标函数能高效学习朝向数据流形的直线映射。在推理阶段,通过数值积分生成轨迹,且需满足:
这种形式可实现快速稳定的采样,但直线映射路径本质上具有“模式趋同”特性,往往会收敛到主导性的驾驶模式。
能量匹配:近期提出的“能量匹配”(Energy Matching)方法引入能量函数,使流模型能够恢复多个可行模式。其动力学公式的最优条件满足:在数据流形附近,映射项消失(因),此时式(4)可简化为终端分布满足玻尔兹曼形式:
其中,能量权重调度函数控制系统从纯流映射过渡到能量引导的流形优化,具体定义为:
由此,将数据流形塑造为多个低能量“盆地”,每个盆地对应一种独特的可行模式(如“让行”“合流”)。在采样阶段,离散化更新需引入离散调度器:实际上,在$0<t<1$阶段,流项将样本高效映射至轨迹流形;而当$t ≥\tau^{*}$时,能量项激活,引导样本进入不同的低能量模式。这为guideflow优化过程中确保多模态多样性提供了理论基础。<="" p="">
三、GuideFlow算法详解
本文提出的GuideFlow框架如图2所示,其本质是一种基于流的轨迹生成器,可生成可行且安全的未来运动规划。该模型包含三个核心模块:(i) 感知条件速度场生成器;(ii) 无分类器引导(在采样阶段注入驾驶意图与风格);(iii) 安全约束采样过程(通过截断与基于能量的动力学在数据流形附近运行,具体包括“速度场约束(CVF)”“流状态约束(CF)”和“EBM流优化(RFE)”三种策略)。
感知条件流生成器
如图2所示,GuideFlow首先解码理想速度场,并采样可行的未来轨迹,具体流程如下:
感知到场景令牌的映射:给定多视角图像,先提取图像特征,并将其提升为鸟瞰图(BEV)表示。感知模块通过查询该BEV特征,生成两组结构化令牌:(1) 智能体令牌(编码动态智能体间的交互关系);(2) 地图令牌(嵌入道路与车道拓扑结构)。
流状态与条件建模:将时刻的轨迹表示为流状态(见式(2)),其中为预测时域。为使速度场适应场景条件,需将映射为latent表示(为正弦时序嵌入),随后执行序列交叉注意力操作:
最终,通过解码速度场采样未来驾驶轨迹:
Classifier-free Intent与奖励引导
GuideFlow通过将轨迹生成过程与多个表达意图和风格的动态元素关联,实现高层驾驶行为建模。具体而言,模型考虑四种动态条件信号:(1) 规划锚点;(2) 目标点;(3) 驾驶指令;(4) 塑造轨迹偏好的奖励(详见4.4节)。需注意:驾驶引导信号、、在语义上存在重叠,因此不会同时使用。
实现细节:
- 规划锚点构建:通过对训练集执行最远点采样,构建规模为的轨迹词汇表。训练阶段,选择与真实轨迹(GT)最接近的规划锚点作为;采样阶段,GuideFlow通过对中每个锚点施加条件,生成条轨迹,从而获得多样化的候选运动。
- 目标点生成:目标点由选定的规划锚点推导得出,训练与推理阶段均采用与规划锚点一致的处理策略。
- 驾驶指令编码:将驾驶指令编码为独热向量(one-hot vector)以进行后续处理。
Classifier-free Intent引导训练:采用无分类器引导训练框架,对条件输入以概率进行掩码(记为):
其中表示交叉注意力融合模块。随后预测条件速度场:。在采样阶段,通过引入引导尺度,控制条件信号对运动的影响强度。
约束生成
尽管感知条件与意图引导共同实现了多样化且目标一致的运动假设,但二者本身无法保证轨迹的物理可行性与安全性。结合式(3)和式(8)的采样过程可知,每条轨迹的更新同时依赖于:(1) 速度场;(2) 前一流状态;(3) 优化阶段()的能量项。基于这一洞察,本文提出以下三种互补约束机制(如图3所示)。
速度场约束(CVF):首先,引导预测运动方向与满足约束的参考方向对齐。根据物理或安全约束,从轨迹锚点集中手动选择可行轨迹,或采用预训练评分器(如GTRS)选择约束满足概率最高的轨迹。该轨迹对应的速度场为(即与间的线性速度场)。尽管这种方向设定可能并非最优,但能确保流终点满足约束。为平衡约束合规性与运动合理性,构建修正后速度场:
其中设置为0.1,(为简化表述)。式(14)的核心目标是在最小化对速度大小影响的前提下,调整的方向。相关证明详见附录。
流状态约束(CF):速度场修正虽能对齐整体运动方向,但在积分过程中,流轨迹仍可能偏离约束流形。设从到的连续流为,根据离散时序将其离散化为序列:
其中设置为100。若生成轨迹无法满足约束,可认为偏离了理想流。一种直接的修正方式是在每个时序步手动调整以满足约束,但这种方法会严重干扰采样过程且效率低下。为此,GuideFlow采用类截断策略:直接用满足约束的锚点替换接近目标真实轨迹的离散变量,并从该点继续采样,即(实际中设置为50)。与DiffusionDrive在训练阶段使用截断策略不同,GuideFlow仅在推理阶段激活该机制,以保留模型在测试时的适应性。这种后期修正可确保轨迹终止于可行区域,同时不破坏已学习的映射动力学。
EBM流优化(RFE):为进一步将约束执行融入生成过程,本文将其直接嵌入能量图景。基于式(8),将时的流匹配模型解释为能量基模型(EBM),该模型既鼓励样本收敛到低能量区域,又确保其满足约束。据此,定义能量代理函数:
其中表示式(3)中的采样算子,参考的方法评估约束满足度(如道路合规性、碰撞惩罚)。上述为可行轨迹分配较低能量,为违反约束的轨迹分配较高能量,从而使速度场在训练过程中隐式学习约束感知能力。
遵循EBM训练范式,定义训练目标(表示模型在时生成的终点,为目标真实轨迹):该目标函数的核心作用是提升违反约束样本的能量,同时降低满足约束样本的能量,从而引导速度场向约束满足概率更高的区域优化。
奖励作为风格条件
为在推理阶段动态调整轨迹激进度,本文基于NavSim数据集引入激进度评分(EP)——定义为单位时间内沿车道中心线行驶的距离,取值范围为[0,1]。该评分针对每条真实轨迹(GT)在线计算,并作为条件输入融入模型。通过调节EP值,可直接控制生成轨迹的激进度:实际中,当推理阶段将EP设置为接近1时,模型会生成更具激进性的驾驶行为。
实验结果分析
实验设置
数据集与评价指标:
- 开环测试:在NuScenes(简称NuS)和ADV-NuScenes(简称ADV-NuS)两个数据集上对GuideFlow进行评估。其中,NuScenes数据集包含1000个驾驶序列,每个数据样本涵盖6张图像和点云数据,可提供360°视野;本研究仅将图像数据作为模型输入。ADV-NuScenes数据集包含150个物理可行的对抗性驾驶场景,共6115个样本,涵盖多种激进驾驶行为。对于NuS和ADV-NuScenes数据集,研究用碰撞率(Collision Rate) 替代L2距离作为唯一评价指标。
- 闭环测试:在NavSim和Bench2Drive两个数据集上评估GuideFlow。Bench2Drive是基于CARLA排行榜2.0的端到端自动驾驶闭环评估协议,提供官方训练集(本研究使用基础集的1000个片段,以确保与其他基线模型的公平对比),评估采用官方提供的220条路线。NavSim是基于OpenScene构建的规划基准数据集,整合了多视角相机和激光雷达(LiDAR)数据以实现360°感知,标注频率为2Hz,包含高清地图(HD maps)和目标边界框;该数据集采用无反应仿真(non-reactive simulation)和闭环评估方式,可对规划性能进行全面评估。对于Bench2Drive,研究遵循其数据集设置,采用驾驶分数(Driving Score, DS) 和成功率(Success Rate, SR,单位:%) 作为评价指标;对于NavSim,采用其提出的扩展PMD分数(Extended PMD Scores, EPDMS) ——一种加权组合型指标——作为评价标准。
实现细节:研究在四个不同基准数据集上验证了GuideFlow的性能,通过统一训练协议和基线模型确保对比公平性,具体设置如下:
- NavSim数据集:以TransFuser为基线模型,在NavTrain子集上训练100轮(学习率LR:);采用GTRS-Dense(基于v2-99 backbone)评分模型选择多模态轨迹。
- NuScenes数据集:基于SparseDrive(700个训练场景)实现,遵循其两阶段训练协议;GuideFlow以第一阶段的感知模型为初始模型,微调8轮(学习率LR:)。需特别说明:ADV-NuScenes数据集仅用于域外(OOD)评估,不参与任何训练过程。
- Bench2Drive数据集:以Hydra-Next为基线模型,将其轨迹生成模块替换为GuideFlow后,对整合后的模型训练20轮(学习率LR:)。更多实现细节详见附录。
主要结果
闭环结果:如表1所示,在NavSim数据集的Navhard高难度子集上:
- 未使用评分器(No Scorer)时,GuideFlow的EPDMS得分为27.1,在多数指标上优于无评分器的基线模型(如LTF、GTRS-DP),体现了其在无辅助评分情况下的稳健规划能力。
- 集成评分器(Scorer)后,GuideFlow创下当前最优(SOTA)性能,Navhard子集的EPDMS得分达43.0,较此前最佳结果提升1.3分。
如表2所示,在Bench2Drive数据集上:
- GuideFlow的驾驶分数(DS)达75.21,成功率(SR)达51.36%,优于多数端到端自动驾驶基线模型。相比基于专家知识蒸馏的方法(如ThinkTwice、DriveAdapter)及Hydra-Next基线模型,GuideFlow在闭环稳健性和决策稳定性上展现出显著优势。
Bench2Drive和NavSim数据集上的性能提升,证实了将约束机制融入生成过程的有效性——该设计可直接转化为规划与驾驶关键指标的提升。这些跨数据集的一致性能增益,源于GuideFlow将安全约束直接嵌入轨迹生成过程的核心能力,进而系统性地改善了EPDMS等关键规划与驾驶指标。
开环结果:在开环数据集(NuScenes、ADV-NuScenes)上,由于传统L2距离无法合理评估非模仿类方法,研究仅以碰撞率作为评价指标。如表3所示:
- GuideFlow在所有预测时域下均实现最低碰撞率,在正常与对抗性场景中均表现出持续的安全性能。在NuScenes数据集上,其平均碰撞率为0.07%;在ADV-NuScenes数据集上,平均碰撞率为0.73%。
- 与SparseDrive相比,GuideFlow在NuScenes和ADV-NuScenes上的碰撞率分别降低0.08%和1.02%,且在NuScenes上显著优于UniAD和VAD。
- 值得注意的是,GuideFlow在1秒预测时域内几乎无碰撞(碰撞率0.00%),2秒预测时域内碰撞率仅为0.02%,体现了其在短时域预测中的高可靠性。
这些安全性能的提升,直接源于GuideFlow将安全约束融入生成过程的能力——生成的轨迹本质上具备碰撞感知能力,且在不同场景中均表现稳健。
消融实验
不同动态条件的影响:研究针对不同动态条件信号开展消融实验,结果如表4所示。与基线模型相比,所有模型变体均实现性能提升,验证了“无分类器意图与奖励引导”方法的有效性。其中,基于规划锚点(Plan Anchor, PA)引导的模型变体表现最优:EPDMS得分为29.0,驾驶分数达75.21,优于采用简单驾驶指令(Driving Command, CM)或目标点(Goal Point, GP)引导的变体。这一优势源于规划锚点能够封装更丰富的决策信息,同时解决“行驶目标(where to drive)”与“行驶方式(how to drive)”两大核心问题。消融实验结果表明:在“无分类器意图与奖励引导”框架下,尽管每种引导信号均能提升模型整体性能,但设计更具信息性和有效性的引导信号,仍是大幅提升模型生成能力的关键。
约束生成模块的影响:研究探究了三种约束生成方法对模型性能的影响,结果如表5所示。单独使用任意一种约束模块均能提升模型性能,充分证明了GuideFlow中“约束生成”设计的有效性。具体来看:
- 流状态约束(CF)模块的性能增益更为显著(EPDMS提升1.6分,成功率提升0.45%),优于速度场约束(CVF)模块。二者的核心差异在于:CVF在每一步生成过程中均进行修正,可能干扰概率路径的平滑性并降低生成质量;而CF仅在生成过程中进行一次修正,这种“单次干预”既能最小化对概率路径的干扰,又能确保约束满足,同时为模型预留充足时间以根据场景调整轨迹。
- EBM流优化(RFE)模块对EPDMS的提升最为显著,尤其在域外(OOD)场景评分(第二阶段EPDMS)中表现突出。这一结果凸显了RFE的核心作用:感知约束规则并引导模型修正结果。由于约束规则具有本质上的泛化性,且RFE模块能有效感知这些规则,GuideFlow在域外场景中实现了最优性能。
- CF与RFE模块组合使用时,模型性能达到最佳:EPDMS得分为27.1,驾驶分数达75.21,成功率达51.36%。这表明约束生成中的三种方法并非相互对立,而是具有互补性——CVF与CF负责在生成过程中执行约束,RFE则确保生成结果进一步优化以符合约束规则。更多消融实验细节详见附录。
奖励作为风格条件(RAS)的影响:本消融实验旨在探究RAS模块对模型性能的影响。实验中,将激进度评分(EP)设置为1,以专门鼓励生成更激进的轨迹。结果显示:
- 当模型集成RAS模块时,EP评分从79.6显著提升至82.3,证实了通过奖励条件调节轨迹激进度的可行性。
- 但与此同时,EPDMS评分下降0.8分。这表明:无差别鼓励激进轨迹会损害安全约束,进而导致性能下降。
GuideFlow的超参数敏感性:研究对三个关键超参数进行了消融实验,结果如表6所示:
- 超参数λ的影响:当λ从0.1增至0.5时,EPDMS评分持续下降。性能下降并非源于约束策略本身,而是由于对预测速度场的过度干扰,破坏了流的平滑性并降低了轨迹质量。
- 超参数的影响:当从10增至50时,EPDMS评分先升后降。这一趋势表明:CF模块能有效修正累积偏差,但过晚启动约束会导致模型缺乏充足步骤适应动态场景,从而限制生成质量。
- 超参数K的影响:尽管修正流理论上允许采用较大的采样步长,但实际中,与理想模型的偏差会限制过大步长的使用。步长过大将破坏采样稳定性,导致轨迹异常并引发性能下降(如表6所示)。
定性结果
如图4所示,在多种驾驶场景下的视觉对比表明,本文提出的GuideFlow方法相比DiffusionDrive具有显著优势:GuideFlow能生成满足约束的轨迹,在大幅降低碰撞风险的同时,严格遵守车道行驶规则。具体而言:
- 在图4(c)和(d)的避障场景中,与DiffusionDrive相比,GuideFlow生成的轨迹能明确响应周围车辆,执行避撞操作;
- 在图4(b)的刹车场景中,GuideFlow能维持静止状态,避免与前方车辆发生潜在碰撞;
- 在转弯、变道等更复杂的驾驶任务中,GuideFlow同样表现更优。
结论
本文提出了一种基于流匹配的规划框架GuideFlow。该方法的核心在于:通过融入驾驶指令、目标点、规划锚点等多种条件信号,引导生成过程向场景感知型行为演进;此外,本文创新性地提出三种策略,在生成过程中执行显式约束。
在NavSim、NuScenes、Bench2Drive等数据集上的大量实验证实了GuideFlow的有效性。尤其在具有挑战性的域外场景中,GuideFlow展现出卓越的稳健性。尽管GuideFlow性能优异,但加速采样会导致其性能下降。未来的研究方向将是整合重流(reflow)与均值流(meanflow),以提升模型的采样速度。
....
#交大一篇自动驾驶在线高精地图综述
中稿TITS!
上海交通大学智能网联电动汽车创新中心团队在钱烨强和杨明老师指导下,于智能交通领域旗舰期刊IEEE Transactions on Intelligent Transportation Systems(T-ITS)上发表题为“Local Vectorized High Definition Map Construction for Autonomous Driving: A Comprehensive Review”的综述论文。文章系统梳理了局部矢量化高精地图构建(LV-HDMC)的演进脉络,将“真值制作—网络结构—评测基准”纳入统一任务框架进行全景式剖析。通过归纳现有范式在特征提取与地图解码环节的网络结构差异,辅以详尽的定性定量对比,系统揭示了各类方法在精度、效率与鲁棒性上的具体表现。在此基础上,文章进一步指出当前局部建图领域的关键瓶颈,并给出可扩展、可落地的研究路线,为自动驾驶局部建图技术提供新的理论视角与实践路径。本文第一作者是自动化与感知学院2023级硕士生张洋榕。
01 研究背景 Research Background
随着自动驾驶迈入产业化关口,厘米级环境表征正成为决定安全与智能上限的关键因素。传统全局高精地图依赖昂贵的测绘车与人工后处理,更新周期长、维护成本高,难以匹配城市场景的快速演化,“无图”方案因此呼声渐高。然而,完全摒弃先验信息又使感知系统陷入“单帧幻觉”困境,尤其在复杂路口、施工区域等强语义场景中,实时生成局部、可扩展、实例级高精地图的需求愈发迫切。
车载相机与激光雷达的算力红利,使“边行驶边建图”成为可行路线:通过传感器在线感知,在鸟瞰视角下即时恢复车道线、路缘、交通标志等矢量要素,从而既保留高精地图的几何—语义一致性,又摆脱对全局底图的依赖,为后续定位、预测与规划提供轻量化、可差分更新的局部先验。由此,局部矢量化高精地图构建(LV-HDMC)应运而生,以有序点集表示地图实例,天然对齐下游控制所需的连续参数曲线,成为连接“重地图”与“无地图”范式的关键桥梁。
02 研究现状 Current Reserach
随着局部矢量建图技术自2023年以来的迅速发展,相关论文已超过五十篇。然而,针对该领域的系统性综述仍然缺乏。现有综述多将矢量建图作为BEV感知或广义高精地图综述的附属章节,侧重于栅格语义分割或SLAM位姿优化,对实例级矢量解码、真值自动化生产、基准指标等核心问题着墨甚少。因此,亟需一篇聚焦局部矢量建
本文标签: 合集
版权声明:本文标题:51c自动驾驶~合集57 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1766105881a3437785.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论