admin 管理员组

文章数量: 1184232

研究背景:在自动驾驶领域,多模态大语言模型的应用多限于理解复杂环境或生成高级指令,而少有涉及端到端路径规划,主要因缺乏包含视觉、语言和行动的大规模注释数据集。为解决此问题,本文提出了CoVLA数据集,含80小时真实驾驶视频,通过自动数据处理技术,匹配精确轨迹与自然语言描述,超越了现有数据集。研究利用CoVLA数据集,探索了多模态大语言模型在自动驾驶中的视觉、语言和动作处理能力,证实了模型在生成连贯输出方面的强大性能,展现了视觉-语言-动作模型在自动驾驶领域的应用潜力。

主要贡献:

介绍了CoVLA数据集,这是一个大规模数据集,提供了多种驾驶场景的轨迹目标,以及详细的逐帧情境描述。

提出了一种可扩展的方法,通过传感器融合准确估计轨迹,并自动生成关键驾驶信息的逐帧文本描述。

开发了CoVLA-Agent,这是一种基于CoVLA数据集的新型VLA模型,用于可解释的端到端自动驾驶。本文的模型展示了持续生成驾驶场景描述和预测轨迹的能力,为更可靠的自动驾驶铺平了道路。

数据集生成 pipeline 概述。

1.自动标注视频帧和传感器信号以生成轨迹和其他标签。

2.对视频帧应用自动描述生成,以生成行为和推理的描述。

视频帧(Video frames): 行驶中的车辆前方摄像头捕捉到的视频帧,画面中标注了检测到的目标(如交通灯和前方的车辆)。这些视频帧是后续处理的基础数据。

传感器信号(Sensor signals): 来自车辆各种传感器(如IMU、GNSS、雷达等)的数据,这些传感器可以提供速度、油门/刹车、转向等信息。为了提高数据的准确性,使用了卡尔

本文标签: 论文 Comprehensive Vision Language CoVLA