合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
本文经自动驾驶之心公众号授权转载,转载请联系出处。
2023年已经匆匆过去大半,不知各位自动驾驶小伙伴今年的工作生活情况是否顺利呢?高阶ADAS方案量产了吗?新的文章和实验进展又是否顺利呢?今天给大家总结了2023年前后的一些自动驾驶结合大模型的开创性研究工作。
2023年是大模型蓬勃发展的一年,也是高阶自动(辅助)驾驶走向现实和落地的一个关键节点。一些头部自动驾驶企业和学术团队也积极的在大模型与自动驾驶这个领域积极探索。其中除了上海人工智能实验室,清华大学,港大,港科大等自动驾驶研究强校外。也有Nvidia,waymo,wayve,GigaAI,Bosch,华为诺亚这些自动驾驶创新公司以及传统巨头分别提出了自己对于自动驾驶以及大模型的视角与展望。
具体而言,LLM直接参与自动驾驶 (LLM + 端到端的自动驾驶,LLM + 语义场景理解,LLM + 驾驶行为生成)成为了一个比较火热的主旋律。另一些研究方向则关注在了多模态大模型进行仿真或世界模型的构建,也有部分学者尝试对大模型在自动驾驶应用中的安全性和可解释性作出了探讨。本篇文章一共总结了30余篇自动驾驶结合大模型的论文和开源项目,并进行了非常简单的总结,希望对大家有用!
论文来自上海AILAB和东南大学,通过LLM的理解环境能力,作者尝试构建闭环系统探索LLM在自动驾驶的环境理解和环境互动的可行性,并且发现其在推理和解决长尾问题上也有一定的能力。
来自港大和诺亚实验室,DriveGPT4是一个使用LLM的可解释的端到端自动驾驶系统,能够解释车辆行为并提供相应的推理,还可以回答用户提出的各种问题,以增强互动性。此外,DriveGPT4以端到端的方式预测车辆的低级控制信号。
这是一个上海AI Lab提出了DiLu框架,它结合了推理和反思模块,使系统能够基于常识知识做出决策并不断演化。大量实验证明DiLu能够积累经验,并在泛化能力上明显优于基于强化学习的方法。此外,DiLu能够直接从现实世界的数据集中获取经验,突显了其在实际自动驾驶系统上的潜力。
这是一篇南加州大学的论文,可以将OpenAI GPT-3.5模型转化为可靠的自动驾驶车辆运动规划器。GPT-Driver将规划器的输入和输出表示为语言标记,并利用LLM通过坐标位置的语言描述生成驾驶轨迹。提出了一种新颖的提示-推理-微调策略,以激发LLM的数值推理潜力。借助这一策略,LLM可以用自然语言描述高度精确的轨迹坐标,以及其内部的决策过程。
这篇文章来自于Wayve, 论文中引入了一种独特的物体级多模态LLM架构,将向量化数字模态与预训练的LLM相结合,以提高在驾驶情景中的上下文理解能力。除此之外论文还提供了一个包含来自1万个驾驶情景的160,000个问答对的新数据集,与由RL代理程序收集的高质量控制命令和由教师LLM(GPT-3.5)生成的问答对相配对。
这篇文章来自于清华大学和UC Berkeley,本研究将大型语言模型(LLMs)作为复杂AD场景的决策组件,这些场景需要人类的常识理解。作者设计了认知路径,以使LLMs能够进行全面的推理,并开发了将LLM决策转化为可执行驾驶命令的算法。通过这种方法,LLM决策可以通过引导参数矩阵适应与低级控制器无缝集成。
本文来自Purdue University,研究包括在HighwayEnv中进行的实验,这是一个用于自动驾驶和战术决策任务的环境集合,旨在探讨LLMs在不同场景中的解释、互动和推理能力。作者还研究了实时个性化,展示了LLMs如何基于口头命令影响驾驶行为。论文的实证结果突显了采用“思维链”提示的重大优势,从而改进了驾驶决策,并展示了LLMs通过持续的口头反馈提升个性化驾驶体验的潜力。
本文来自Purdue University,本文主要讨论如何利用大型语言模型(LLMs)来增强自动驾驶汽车的决策过程。通过将LLMs的自然语言能力和语境理解、专用工具的使用、推理与自动驾驶汽车上的各种模块的协同作用整合在一起。
本文来自清华大学,提出了一种基于大型语言模型(LLMs)的生成式驾驶代理模拟框架,能够感知复杂的交通场景并提供逼真的驾驶操控。值得注意的是,我们与24名驾驶员进行了访谈,并使用他们对驾驶行为的详细描述作为“思维链”提示,开发了一个“教练代理”模块,该模块可以评估和协助驾驶代理积累驾驶经验并培养类似人类的驾驶风格。
哥伦比亚大学和Nvidia联合提出了CTG++,一种能够受到语言指导的场景级条件扩散模型。开发这一模型需要解决两个挑战:需要一个现实且可控的交通模型骨干,以及一种使用语言与交通模型进行交互的有效方法。为了解决这些挑战,我们首先提出了一个配备有时空变换器骨干的场景级扩散模型,用于生成现实且可控的交通。然后,我们利用大型语言模型(LLM)将用户的查询转化为损失函数,引导扩散模型生成符合查询的结果。
本文由北理和旷世提出,在驾驶场景中使用语言提示的进展受到了数据匹配的瓶颈问题的限制,因为匹配语言提示和实例数据的配对数据相对稀缺。为了解决这一挑战,本文提出了第一个针对三维、多视图和多帧空间内的驾驶场景的以物体为中心的语言提示集,名为NuPrompt。它通过扩展Nuscenes数据集,构建了共计35,367个语言描述,每个描述涉及平均5.3个物体轨迹。基于新的数据集中的物体-文本配对,我们提出了一项新的基于提示的驾驶任务,即使用语言提示来预测跨视图和帧描述的物体轨迹。
本文来自海得拉巴国际信息技术学院,Talk2BEV结合了通用语言和视觉模型的最新进展以及BEV结构化地图表示,消除了需要专门的任务模型。这使得一个单一系统能够满足各种自动驾驶任务,包括视觉和空间推理、预测交通参与者的意图以及基于视觉线索进行决策
港科大提出了BEVGPT,这是一个集成了驾驶情境预测、决策和运动规划的生成式预训练大模型。该模型以鸟瞰图(BEV)图像作为唯一的输入源,并基于周围的交通情景做出驾驶决策。为了确保驾驶轨迹的可行性和平稳性,我们开发了一种基于优化的运动规划方法。我们在Lyft Level 5数据集上实例化了BEVGPT,并使用Woven Planet L5Kit进行了真实驾驶模拟。
GigaAI和清华携手推出DriveDreamer,这是一个全新的世界模型,完全源自真实的驾驶场景。鉴于在复杂的驾驶场景中对世界进行建模涉及庞大的搜索空间,该文章提出利用强大的扩散模型构建复杂环境的综合表示。此外,论文中引入了一个两阶段训练流程。在初始阶段,DriveDreamer深入了解结构化的交通约束,而随后的阶段赋予其预测未来状态的能力。DriveDreamer是第一个建立在真实世界驾驶场景中的世界模型。
MagicDrive,这是一个新颖的街景生成框架,提供多样的3D几何控制,包括相机位置、道路地图和3D边界框,还包括文本描述,通过定制的编码策略实现。此外,论文的设计还包括一个跨视图注意力模块,确保多个相机视图之间的一致性。使用MagicDrive实现了高保真的街景合成,捕捉了精细的3D几何形状和各种场景描述,增强了鸟瞰图分割和3D物体检测等任务的性能。
近期大名鼎鼎的GAIA-1('Generative AI for Autonomy')这是一个生成式世界模型,由Wayve推出,利用视频、文本和行为输入来生成逼真的驾驶场景,同时对自车行为和场景特征进行精细控制。我们的方法将世界建模视为一个无监督的序列建模问题,通过将输入映射到离散标记,并预测序列中的下一个标记。我们模型中的新特性包括学习高级结构和场景动态、上下文意识、泛化能力以及对几何形状的理解。GAIA-1学得的表示能够捕获未来事件的期望,再加上其生成逼真样本的能力,为自动驾驶技术领域的创新提供了新的可能性,实现了自动驾驶技术的增强和加速训练。
本文由港科大和诺亚实验室提出,首次利用单一的多模态大型语言模型(MLLMs)来整合多个自动驾驶任务,即风险目标定位和意图与建议预测(ROLISP)任务。ROLISP使用自然语言来同时识别和解释风险目标,理解自动驾驶汽车的意图,并提供运动建议,消除了需要特定任务架构的必要性。
这篇文章来自自动驾驶Tier 1, Bosch,文章提出了一种新颖的基于文本的交通场景表示,并使用预训练的语言编码器处理它。首先,我们展示了文本表示与传统的栅格化图像表示相结合,可以产生描述性的场景嵌入。
复旦大学提出了OpenAnnotate3D,这是一个开源的开放词汇自动标注系统,可以自动生成用于视觉和点云数据的2D掩模、3D掩模和3D边界框注释。我们的系统整合了大型语言模型(LLMs)的思维链能力和视觉语言模型(VLMs)的跨模态能力。
LangProp自动评估了输入-输出对数据集上的代码性能,以及捕获任何异常,并将结果反馈给LLM在训练循环中,使LLM可以迭代地改进其生成的代码。通过采用度量和数据驱动的代码优化过程的训练范式,可以轻松地借鉴传统机器学习技术,如模仿学习、DAgger和强化学习等的发现。在CARLA中展示了自动代码优化的第一个概念验证,证明了LangProp可以生成可解释且透明的驾驶策略,可以以度量和数据驱动的方式进行验证和改进。
作者确定了两个主要瓶颈原因:处理复杂和无结构的观测空间以及具备可扩展性的生成模型。因此,我们提出了一种新颖的世界建模方法,首先使用VQVAE对传感器观测进行标记,然后通过离散扩散来预测未来。为了高效地并行解码和去噪标记,我们将遮蔽的生成式图像变换器重新构建成离散扩散框架,只需进行一些简单的更改,结果有显著的改进。
特定于城市的gym(例如波士顿-Gym和匹兹堡-Gym)来评估规划性能。使用我们提出的gym集合来评估最先进的规划器导致性能下降,这表明一个优秀的规划器必须适应不同的环境。借助这一见解,我们提出了City-Driver,一种基于模型预测控制(MPC)的规划器,它展开了适应不同驾驶条件的城市特定世界模型。
论文首先展示了更强大的LLM(如GPT-4)在调整连续目标函数参数方面的zero-shot能力,以符合自动驾驶示例的指定高级目标。然后,作者开发了一种规划器,它将LLM作为矩阵游戏的设计者,用于具有离散有限动作空间的场景。在给定场景历史、每个智能体可用的动作和高级目标(用自然语言表达)时,LLM评估与每种动作组合相关的回报。从获得的博弈结构中,智能体执行Nash最优动作,重新评估场景,并重复该过程。
作者展示了数据驱动的交通仿真可以被构建为一个世界模型。文章提出了TrafficBots,这是一个基于运动预测和端到端驾驶的多智能体策略,基于TrafficBots获得了一个专门为自动驾驶车辆的规划模块定制的世界模型。现有的数据驱动交通仿真器缺乏可配置性和可扩展性。为了生成可配置的行为,对于每个智能体引入了目的地作为导航信息,以及一个不随时间变化的潜在个性,指定了行为风格。为了提高可扩展性提出了一种用于角度的位置编码的新方案,允许所有智能体共享相同的矢量化上下文,以及基于点积注意力的架构。
在现有的二维图像检索方法下,可能会出现一些场景检索的问题,比如缺乏全局特征表示和次优的文本检索能力。为了解决这些问题,本文作者提出了BEV-CLIP,这是第一个利用描述性文本作为输入以检索相应场景的多模态BEV检索方法。这种方法应用了大型语言模型(LLM)的语义特征提取能力,以便进行广泛的文本描述的零次检索,并结合了知识图的半结构信息,以提高语言嵌入的语义丰富性和多样性。
Waymo引入了Waymax,这是一种用于自动驾驶多智体场景的新型数据驱动模拟器,专为大规模模拟和测试而设计。Waymax使用已公开发布的实际驾驶数据(例如Waymo开放运动数据集)来初始化或回放各种多智体模拟场景。它完全在硬件加速器上运行,如TPU/GPU,并支持用于训练的图内模拟,使其适用于现代的大规模分布式机器学习工作流。
这篇论文随着机器人获得越来越复杂的技能并观察到越来越复杂和多样化的环境,边缘案例或异常故障的威胁随时存在。这些系统级故障不是由于自动驾驶系统堆栈的任何单个组件的故障,而是由于语义推理方面的系统级缺陷。这种称之为语义异常的边缘情况对于人类来说很容易解开,但需要具有深刻推理能力。为此,作者研究了赋予大型语言模型(LLMs)广泛的上下文理解和推理能力,以识别这类边缘情况,并引入了一种基于视觉策略的语义异常检测的监控框架。我们将这一框架应用于自动驾驶的有限状态机策略和物体操作的学习策略。
在人工辅助或自动驾驶的背景下,可解释性模型可以帮助用户接受和理解自动驾驶车辆所做的决策,这可以用来解释和说明驾驶员或车辆的行为。论文中提出了一种新方法,使用概念瓶颈作为控制命令预测和用户以及车辆行为解释的视觉特征。作者学习了一个人可以理解的概念层,用来解释顺序驾驶场景,同时学习车辆控制命令。这种方法可以用来确定人类(或自动驾驶车辆)对于首选车距或转向命令的改变是否受到外部刺激或偏好的改变的影响。
考虑到在安全关键的自动化系统中的情境感知功能,对驾驶场景中风险的感知以及其可解释性对于自动驾驶和合作驾驶尤为重要。为实现这一目标,本文提出了一个新的研究方向,即驾驶场景中的风险联合定位及其以自然语言描述的风险解释。由于缺乏标准基准,作者的研究团队收集了一个大规模数据集,名为DRAMA(带有字幕模块的驾驶风险评估机制),其中包括了在日本东京收集的17,785个交互式驾驶场景。我们的DRAMA数据集包含了有关驾驶风险的视频和对象级问题,以及与重要对象相关的问题,以实现自由形式的语言描述,包括多级问题的封闭和开放式回答,可用于评估驾驶场景中的各种图像字幕能力。
作者认为一个主要的大语言模型很难获得安全驾驶的障碍是缺乏将感知和规划连接起来的综合和标准的中间件表示。作者重新思考了现有中间件的局限性(例如,3D框或占用情况)并提出了超越名词的3D密集字幕(简称为DESIGN)。对于每个输入场景,DESIGN指的是一组带有语言描述的3D边界框。特别是,综合的描述不仅包括这个框是什么(名词),还包括它的属性(形容词),位置(介词)和运动状态(副词)。我们设计了一种可扩展的基于规则的自动标注方法来生成DESIGN的地面真实数据,以确保中间件是标准的。
这篇论文研究了关于在高速公路情境中进行变道和超越其他较慢车辆的高级决策问题。具体来说,本文旨在改进旅行辅助功能,以实现对高速公路上的自动超车和变道。在模拟中收集了大约900万个样本,包括车道图像和其他动态对象。这些数据构成了"模拟高速公路上的超车"(OSHA)数据集,用于解决这一挑战。为了解决这个问题,设计并实施了一种名为SwapTransformer的架构,作为OSHA数据集上的模仿学习方法。此外,提出了辅助任务,如未来点和汽车距离网络预测,以帮助模型更好地理解周围环境。提出的解决方案的性能与多层感知器(MLP)和多头自注意力网络作为基线在模拟环境中进行了比较。
本文来自于复旦大学,作者引入了一个新颖的视觉问答(VQA)任务,即自动驾驶背景下的VQA任务,旨在基于街景线索回答自然语言问题。与传统的VQA任务相比,自动驾驶场景中的VQA任务具有更多挑战。首先,原始的视觉数据是多模态的,包括由摄像机和激光雷达(LiDAR)捕获的图像和点云数据。其次,由于连续实时采集,数据是多帧的。第三,室外场景同时包括移动的前景和静态的背景。现有的VQA基准未能充分解决这些复杂性。为了填补这一差距,作者提出了NuScenes-QA,这是自动驾驶场景中的第一个VQA基准,包括34,000个视觉场景和460,000个问题-答案对。具体而言利用现有的3D检测注释生成场景图,并手动设计问题模板。随后,问题-答案对是基于这些模板自动生成的。全面的统计数据证明了我们的NuScenes-QA是一个平衡的大规模基准,具有多样的问题格式。
随着自动驾驶技术的成熟,端到端方法已经成为一种主要策略,承诺通过深度学习实现从感知到控制的无缝集成。然而,现有系统面临着意想不到的开放环境和黑盒模型复杂性等挑战。与此同时,深度学习的发展引入了更大的多模态基础模型,提供了多模态的视觉和文本理解。在本文中,作者利用这些多模态基础模型来增强自动驾驶系统的健壮性和适应性,实现了端到端的多模态和更具解释性的自主性,使其能够在分布之外、端到端、多模态和更具解释性的环境下进行操作。具体而言,作者提出了一种应用端到端开放集(任何环境/场景)自动驾驶的方法,能够从可通过图像和文本查询的表示中提供驾驶决策。为此,文中引入了一种从Transformer中提取微妙的空间(像素/补丁对齐)特征的方法,以实现空间和语义特征的封装。我们的方法在多种测试中表现出色,同时在分布之外的情况下具有更大的健壮性,并允许通过文本进行潜在空间模拟,从而改进训练(通过文本进行数据增强)和策略调试。
最后这篇是一篇综述,这篇文章来自于慕尼黑工业大学的IEEE Fellow, Alois C. Knoll. 2023年是视觉-语言大模型的爆发年,其的出现改变了计算机领域的方方面面。同样的,视觉语言大模型在自动驾驶(AD)和智能交通系统(ITS)领域的应用引起广泛关注。通过整合视觉语言数据,车辆和交通系统能够深入理解现实场景环境,提高驾驶安全性和效率。这篇综述全面调研了该领域视觉语言大模型的各类研究进展,包括现有的模型和数据集。此外,该论文探讨了视觉语言大模型在自动驾驶领域潜在的应用和新兴的研究方向,详细讨论了挑战和研究空白。
TOP