理想汽车亮相2024世界智能网联汽车大会智能驾驶技术创新应用成全场焦点

2024年10月18 17:35 来源：蜀锦传媒

2024年10月17-19日，由工业和信息化部、交通运输部、北京市人民政府联合主办的2024世界智能网联汽车大会在北京亦庄正式召开，理想汽车智能驾驶研发副总裁郎咸朋出席并现场分享了理想汽车智能驾驶技术的创新应用与未来规划，向与会各方展示了端到端、VLM、世界模型等理想当前阶段最新智驾研发成果，吸引全场关注。

郎咸朋表示：“在过去的一年时间里，理想汽车智能驾驶进行了三代技术迭代，NPN（先验信息）、无图、端到端+VLM双系统，完成了从追赶、持平到领先的超越。NPN（先验信息）使理想汽车具备了全场景NOA的能力，连通了高速和城市场景；无图方案将城市NOA的使用范围扩展到了全国；而最新的端到端+VLM双系统的方案则使智驾的AI能力获得了再次提升。目前端到端+VLM正处于万人内测阶段，预计将在本季度开启全量用户推送。”

理想汽车智能驾驶研发副总裁郎咸朋现场发言

全球首创端到端+VLM双系统架构

理想汽车全球首创的端到端+VLM双系统架构，灵感来源于诺贝尔奖获得者丹尼尔·卡尼曼提出的双系统理论，在自动驾驶领域模拟人类的思考和决策过程，形成更智能、更拟人的驾驶解决方案。

系统1由端到端模型实现，善于处理简单任务，具备高效快速响应能力，主要负责应对驾驶车辆时95%的常规场景，传感器输入后，直接输出轨迹用于控制车辆。系统2由VLM视觉语言模型实现，具备逻辑推理、复杂分析和计算能力，在驾驶车辆时用于解决复杂甚至未知的交通场景，占日常驾驶的约5%，其接收传感器输入后，经过逻辑思考，输出决策信息给到系统1。系统1和系统2相互配合，分别确保大部分场景下的高效率和少数场景下的高上限。双系统构成的智能驾驶能力还将在云端利用世界模型构建的虚拟环境进行训练和验证。世界模型结合重建和生成两种路径，构建的测试场景既符合真实规律，也兼具优秀的泛化能力。

端到端模型实现高效决策

端到端模型的输入主要由摄像头和激光雷达构成，多传感器特征经过CNN主干网络的提取、融合，投影至BEV空间。为提升模型的表征能力，记忆模块的加入使模型兼具时间和空间维度的记忆能力。在模型的输入中，理想汽车还加入了车辆状态信息和导航信息，经过Transformer模型的编码，与BEV特征共同解码出动态障碍物、道路结构和通用障碍物，并规划出行车轨迹。多任务输出在一体化的模型中得以实现，中间没有规则介入，因此端到端模型在信息传递、推理计算、模型迭代上均具有显著优势。在实际驾驶中，端到端模型展现出更强大的通用障碍物理解能力、超视距导航能力、道路结构理解能力，以及更拟人的路径规划能力。

VLM模型冲击高上限

系统2VLM视觉语言模型的算法架构由一个统一的Transformer模型组成，将Prompt（提示词）文本进行Tokenizer（分词器）编码，并将前视相机的图像和导航地图信息进行视觉信息编码，再通过图文对齐模块进行模态对齐，最终统一进行自回归推理，输出对环境的理解、驾驶决策和驾驶轨迹，传递给系统1辅助控制车辆。

理想汽车在端侧部署的VLM视觉语言模型已拥有22亿参数量，对物理世界的复杂交通环境具有更拟人的理解能力，即使面对首次经历的未知场景也能自如应对。VLM模型可以识别路面平整度、光线等环境信息，提示系统1控制车速，确保驾驶安全舒适。VLM模型也具备更强的导航地图理解能力，可以配合车机系统修正导航，预防驾驶时走错路线。同时，VLM模型可以理解公交车道、潮汐车道和分时段限行等复杂的交通规则，在驾驶中作出合理决策。目前，理想汽车通过突破性的技术创新与优化，已经将部署在车端量产芯片的模型推理速度从0.24Hz提升到3.34Hz，基本做到了准实时。

世界模型：重建+生成实现高效迭代

对于双系统架构的训练以及安全验证，理想汽车的世界模型结合了重建和生成两种技术路径，将真实数据通过3DGS（3D高斯溅射）方法进行重建，并使用生成模型补充新视角。在场景重建时，其中的动静态要素将被分离，静态环境得到重建，动态物体则进行重建和新视角生成。再经过对场景的重新渲染，形成3D的物理世界，其中的动态资产可以被任意编辑和调整，实现场景的部分泛化。相比重建，生成模型具有更强的泛化能力，天气、光照、车流等条件均可被自定义改变，生成符合真实规律的新场景，用于评价自动驾驶系统在各种条件下的适应能力。

重建和生成两者结合所构建的场景为自动驾驶系统能力的学习和测试创造了更优秀的虚拟环境，使系统具备了高效闭环的迭代能力，确保系统的安全可靠。

技术创新厚积薄发，模型迭代与落地快速推进

从2021年至今，理想汽车研发团队已在世界顶级会议发表多篇论文，在国际竞赛获得多个第一。端到端+VLM双系统也在公测阶段推送给了分布在334个城市的10924名用户，累计行驶里程达195万公里。

对于以大模型为基础的智能驾驶系统架构，高质量数据的在训练及验证数据中尤为重要。郎咸朋表示：“随着模型训练数据的增长，我们发现智能驾驶模型的性能提升规律也体现出了Scaling Law。数据的规模与质量已经成为模型性能的决定因素，接下来理想汽车智能驾驶系统会继续扩大高质量数据的规模，以获得更好的模型效果。”

在产品端的落地应用方面，基于双系统的技术架构，理想汽车已经实现了车位到车位的全场景智能驾驶出行体验。能够衔接高速、城市、园区内部道路，达到接近人类司机的驾驶智能，覆盖跨层地库、园区闸机、交通博弈等复杂场景。

训练数据与算力，技术创新落地的核心基础

在大模型训练层面，郎咸朋表示：“双系统等智能驾驶技术及产品的创新落地，离不开两个最核心的基础设施，即训练数据和训练算力。”

当前，理想汽车智能驾驶的训练里程已达25亿公里，预计今年年底将突破30亿公里；训练算力已达5.39EFlops，预计年底将达到8EFlops。