自动驾驶迈向新纪元,理想汽车推出MindVLA-o1;物理世界智能体初现雏形。

自动驾驶技术的发展历程,仿佛一部从机械辅助到智能认知的演进史诗。过去多年,辅助驾驶主要扮演可靠帮手的角色,帮助车辆维持车道、控制跟车距离以及完成自动泊车等功能。这些能力虽已显著提升驾驶便利性,但始终停留在工具层面,驾驶员仍需保持高度警惕。进入2026年,这一格局迎来潜在转折点。随着大型模型从云端逐步迁移至车端,视觉感知、语言理解与行动控制开始融合于统一框架,自动驾驶的本质问题浮出水面:它究竟止步于更先进的辅助系统,还是演变为能够真正感知环境、进行深度推理并自主行动的物理实体智能? 自动驾驶迈向新纪元,理想汽车推出MindVLA-o1;物理世界智能体初现雏形。 汽车科技

 自动驾驶迈向新纪元,理想汽车推出MindVLA-o1;物理世界智能体初现雏形。 汽车科技

3月17日,在NVIDIAGTC2026大会上,理想汽车基座模型负责人詹锟分享了公司最新成果——下一代自动驾驶基础模型MindVLA-o1。这一发布标志着理想汽车在具身智能方向上的重要推进。该模型并非简单升级,而是基于前期大规模实践积累,向构建更全面物理世界智能体迈进的关键尝试。通过整合多模态能力,MindVLA-o1让车辆具备更强的环境洞察、未来预测与稳定执行潜力,从而开启自动驾驶从功能工具向智能主体的转变。

回顾理想汽车在辅助驾驶领域的探索路径,可以清晰看到技术演进的脉络。自2021年起,公司启动自研辅助驾驶项目,技术架构经过多次迭代优化,积累了坚实的研发基础。2024年成为重要节点,端到端结合视觉语言模型的双系统架构实现量产落地,使系统首次获得跨场景、跨任务的统一理解能力。2025年进一步突破,将空间感知、语言处理与决策行动整合至同一模型框架,推出基于视觉-语言-行动、世界模型及强化学习的技术栈VLA司机大模型。该模型随理想i8车型交付,并在后续向更多用户推送。经过真实路况验证,用户使用活跃度显著提高,为后续创新提供了丰富数据支撑。MindVLA-o1正是在这一坚实基础上发起的跃升,依托海量场景数据与工程验证,向更高层次的智能形态演进。

MindVLA-o1的核心在于五大技术创新,这些创新共同赋予模型面向物理世界的强大智能。以原生多模态混合专家Transformer架构为基础,模型在感知、推理、行为生成、迭代优化及部署效率等方面实现全面提升。在感知维度,采用以视觉为主的3D视觉编码器,辅以激光雷达点云引导,实现对真实三维结构的深入理解。同时通过前馈式三维高斯表示,将场景区分为静态背景与动态元素,并借助下一帧预测机制学习深度、语义及运动信息,形成融合时空上下文的高质量三维表征。这种设计显著增强了模型对远距离复杂环境的洞察能力。

在推理层面,模型不仅处理当下场景,还需预判未来动态演化。在语言模型提供语义常识与交互基础上,引入预测型隐式世界模型,在隐空间高效模拟潜在未来。训练过程分阶段推进,先通过海量视频预训练隐世界表征,再在MindVLA-o1中持续推演形成推理能力,最后联合世界模型、多模态思考与驾驶行为进行对齐训练。由此,模型能够在内部“预演”多种可能场景,将抽象决策转化为具象画面,实现更深刻的逻辑思考与风险评估。

行为生成方面,MindVLA-o1构建统一机制,利用混合专家架构中的专用动作模块,从多源输入提取关键特征,结合深度推理输出高精度轨迹。系统采用并行解码与离散扩散迭代优化,确保轨迹平滑连续、符合车辆物理约束,从而带来更稳定的驾驶表现。在模型持续优化上,建立闭环强化学习体系,不仅依赖真实数据,还在高保真模拟环境中探索策略。前馈场景重建与生成式技术支持快速生成多样场景,结合专用渲染引擎与分布式框架,大幅降低训练成本,提升迭代速度。

针对端侧部署挑战,理想汽车提出软硬件协同设计方法,通过系统性评估多种架构配置,在特定平台上验证优化,将开发周期显著缩短,提高部署效率与稳定性。这些创新共同作用,让MindVLA-o1在实际应用中展现出更全面的潜力。

理想汽车的视野远不止于提升单一车辆智能。MindVLA-o1的推出,体现出公司对物理世界通用智能的追求。当视觉、语言、行动统一于同一模型,它便超越传统自动驾驶范畴,逐步演变为可扩展至多种具身设备的智能基础。自动驾驶由此成为起点,未来或将驱动机器人、家电乃至更多物理交互场景的变革。这种架构有望重塑人机共存方式,推动智能体在真实世界中的广泛应用。理想汽车正通过持续投入与开放探索,参与构建这一宏大图景的前沿实践。