admin 管理员组文章数量: 1184232
研究背景:在自动驾驶领域,多模态大语言模型的应用多限于理解复杂环境或生成高级指令,而少有涉及端到端路径规划,主要因缺乏包含视觉、语言和行动的大规模注释数据集。为解决此问题,本文提出了CoVLA数据集,含80小时真实驾驶视频,通过自动数据处理技术,匹配精确轨迹与自然语言描述,超越了现有数据集。研究利用CoVLA数据集,探索了多模态大语言模型在自动驾驶中的视觉、语言和动作处理能力,证实了模型在生成连贯输出方面的强大性能,展现了视觉-语言-动作模型在自动驾驶领域的应用潜力。
主要贡献:
介绍了CoVLA数据集,这是一个大规模数据集,提供了多种驾驶场景的轨迹目标,以及详细的逐帧情境描述。
提出了一种可扩展的方法,通过传感器融合准确估计轨迹,并自动生成关键驾驶信息的逐帧文本描述。
开发了CoVLA-Agent,这是一种基于CoVLA数据集的新型VLA模型,用于可解释的端到端自动驾驶。本文的模型展示了持续生成驾驶场景描述和预测轨迹的能力,为更可靠的自动驾驶铺平了道路。
数据集生成 pipeline 概述。
1.自动标注视频帧和传感器信号以生成轨迹和其他标签。
2.对视频帧应用自动描述生成,以生成行为和推理的描述。
视频帧(Video frames): 行驶中的车辆前方摄像头捕捉到的视频帧,画面中标注了检测到的目标(如交通灯和前方的车辆)。这些视频帧是后续处理的基础数据。
传感器信号(Sensor signals): 来自车辆各种传感器(如IMU、GNSS、雷达等)的数据,这些传感器可以提供速度、油门/刹车、转向等信息。为了提高数据的准确性,使用了卡尔
本文标签: 论文 Comprehensive Vision Language CoVLA
版权声明:本文标题:读论文CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1766497450a3463961.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论