追赶FSD V14，理想在补哪些课？｜最前线

热门游戏

追赶FSD V14，理想在补哪些课？｜最前线 - 征途国际官网

2026-06-26

汽车智能化竞争已从早期对硬件配置的比拼，演变为对端到端、VLA及世界模型等大模型技术的探索。如今，仅凭模型大小已难建立代际优势，真正关键在于模型、数据、算力和芯片能否形成一个持续优化的闭环。

在此背景下，多家车企选择自主研发。特斯拉已构建起从数据采集、训练设施、FSD模型到Dojo超级计算和自研芯片的全链条能力。国内，小鹏、蔚来及理想汽车也在不断向下游技术领域延伸。

理想汽车在其L8和L9车型上已搭载自研的马赫M100芯片，该芯片采用数据流架构，被视为AI领域的重要技术方向。同时，理想也基于此芯片运行了自研的马赫VLA模型。

然而，行业更应关注的是这些自研投入所能解决的实际问题。

理想汽车自动驾驶负责人詹锟和芯片负责人谢炎在访谈中，就理想在下一代自动驾驶技术路线上的判断，以及自研芯片、数据体系和AI基础设施的设计理念进行了阐述。以下为访谈内容摘要，经编辑整理：

记者：为在第四季度达到特斯拉FSD V14的水平，理想汽车还需要在哪些方面努力？

**詹锟：**我认为在追赶FSD方面，需要关注两个层次。

首先是基础体验，包括安全感、效率和舒适度是否能达到FSD同等水平。FSD在这些方面的表现非常出色，这是其核心竞争力。即使在不挑战极端路况的情况下，也要确保这些基础体验达到同等标准。

其次是高级能力，这方面的追赶难度更大。例如，特斯拉在礼让特殊车辆、在极窄空间内的精准感知，以及识别交警指挥等方面的能力非常突出。

这些能力可以通过架构升级来提升。为何某些能力只有特斯拉拥有？这可能与过去的范式限制有关，也可能与架构和数据有关。我们在这些方面进行了大量探索。

记者：我理解马赫VLA是一个技术体系，而非单一模型。例如，Mind-Edge是服务于智能座舱的端侧模型。那么，当前的智能驾驶模型是否仍包含“L”（Language语言）部分？

**詹锟：**当前自动驾驶架构的普遍趋势是将VLA（视觉-语言-行为模型）与World Model（世界模型）整合。

从长远来看，所有技术路线都将朝着这个方向发展。无论是VLA还是World Model，其提示（Prompt）都需要用到语言。因此，语言部分是必然存在的，关键在于如何运用。

在机器智能领域，我认为基于视觉（Vision Based）的路径更为合理，它能更好地理解空间、感知三维环境并服务于环境交互。语言同样重要，它对于理解环境、交通规则、指令以及进行复杂的决策思考具有价值。

长远来看，基于视觉和语言的原生基础模型，可能是未来的发展趋势。

**谢炎：**若要实现L3、L4级别自动驾驶，解决更广泛的泛化问题，模型需要具备类似人类的思考能力。此时，语言的重要性将日益凸显，这也是未来对算力需求巨大的原因之一。

如果模型仅具备视觉和动作（Vision and Action）能力，即使拥有大量数据，在面对分布之外的罕见情况时也会束手无策。动物即使学会了所有常见情景，遇到从未见过的情况也会不知所措。

我们认为，随着向L3、L4级别迈进，需要解决的问题越来越多地集中在90%、95%、98%之外的那些未知场景。这些场景需要模型具备类似人类的思考能力，而这种推理和思考能力来源于语言模型。例如，理解交警的手势指令，这并非仅靠收集或生成数据就能解决。

记者：随着理想汽车车队规模的扩大，内部是否感知到数据边际效应的递减？贵公司如何定义有价值的数据？

**詹锟：**首先，数据的量必须足够庞大，核心目标是收集更多长尾场景（Corner Case）。目前，业界有多种方法在车辆端部署神经网络触发器，以识别并回传关键的复杂场景数据。这也是特斯拉目前优势的重要原因之一。

其次，数据质量至关重要，特别是行为数据的质量。当前，业界逐渐趋向于端到端范式，无论是VLA、World Model还是Vision-Action模型，关键在于准确理解和执行行为。行为的干净程度和一致性至关重要。

关于数据规模增大后的边际效应是否衰减，只要模型持续提升，追求100%的准确率，其增长曲线必然是对数型的，而非线性增长，这是AI领域的普遍规律。尽管后期数据收敛速度会放缓，但我们希望通过规模化来加速这一进程。

记者：马赫M100芯片可应用于多种AI场景。预计五年后或再往后两代产品，理想汽车车内的算力中心是否可能完全采用自研的马赫芯片？

**谢炎：**尽管业内存在“舱驾一体”的说法，但我们认为其核心在于AI算力部分的整合。座舱系统与AI智驾系统可以相对独立，但AI算力集中处理可以显著提升效率。

我们的路线图最终目标是构建一个集中的车载AI计算中心，处理所有AI任务。这类似于笔记本电脑运行云端应用，AI计算并非在本地完成，而是在云端服务器上执行。车载AI计算中心也类似，可以设立一个“Token服务器”。

这种“Token服务器”的优势在于：一是极高的效率；二是能够实现不同任务的隔离，互不干扰。例如，智驾任务的确定性，无论是内存还是带宽，都能得到保障，不被其他任务影响。这是软硬件协同设计才能实现的效果。

记者：M100芯片采用数据流架构，这是否意味着其对带宽的需求低于其他厂商的自动驾驶芯片，而对片上存储的需求更高？

**谢炎：**我们对带宽的要求确实相对较低，但这并非直接导致SRAM（片上存储）容量设计的原因。当前HBM（高带宽内存）备受关注，许多人认为带宽越高越好。然而，计算、带宽、SRAM等都需要晶体管资源来实现，最终的设计是综合考量成本、整体性能等多种因素后的选择。

不同架构的设计，不能仅凭一两个指标进行简单对比，这既不合理也不专业。这如同拳击比赛，身高和体重各有优势，但胜负并非由单一指标决定，而是取决于整体的竞技表现。

记者：为何英伟达、小鹏、理想等大算力芯片方案未实现芯片级的舱驾融合，而高通在低算力芯片上却进行了尝试？

**谢炎：**本质上，座舱和智驾是两个独立的系统。尤其对于L3向L4级别的高端智驾，需要一个更高确定性的系统，包含专属内存和计算资源，此时融合的意义便大大减小。因为资源无法实时切换，实时切换会降低确定性。如果朝着资源独占的方向发展，融合的价值就不大了——即使将两个芯片集成在一起，资源依然是独立的，不会带来成本降低，甚至可能影响效率。

目前的舱驾融合系统，其功能仍然是分开的。如果无法实现任务的动态切换，将两个芯片集成到一块，晶体管数量可能不变，仅节省了封装成本。对于中低端芯片而言，这部分成本可以节省，但节省幅度有限。

我的观点是，随着智驾系统向高端化发展，舱驾融合的意义将逐渐减弱。如果能将这些芯片更紧密地集成在同一块电路板上，实现小型化集成方案，这是可行的，不一定非要集成到单一芯片，也可以采用多芯片组合。

记者：自研芯片需要哪些条件，例如销量、营收和研发投入？鉴于当前自动驾驶迭代速度快，芯片的持续迭代需要哪些支持？

**谢炎：**芯片的初期投入相当可观，可能每年需要数亿元。

首先，需要达到一定的营收规模。对于车企而言，年营收达到1000亿元以上，研发投入至少占10%，即每年可投入数十亿至上百亿元，足以支持芯片的研发。其次，自研芯片解决的问题必须能够显著提升产品能力。

许多人认为芯片需要巨大的出货量才能摊薄成本。实际上，芯片成本与面积相关。一辆车上的智驾芯片，例如Livis使用两颗马赫M100，总面积约800平方毫米。而高端手机芯片面积约为100平方毫米，因此一辆车的智驾芯片面积相当于8部手机。

这样计算下来，几十万辆车所需的晶圆面积非常庞大，足以摊薄成本。因此，成本不能仅以单颗芯片数量来衡量。

记者：动态数据流编译器的难点何在？攻克该技术花费了多长时间？

**谢炎：**我们在流片前，甚至在设计阶段就开始进行编译器工作，并在流片前已经成功运行了大量模型。

数据流是一种完全不同的架构，它所要解决的问题类似于超级计算机或大规模计算集群面临的挑战——当规模扩展到数十万台计算机、上百万个核心时，它们之间的通信与协作需要解决的问题，无法通过中央管理员进行统一调度。传统的冯·诺依曼架构调度方式在这种规模下不再适用，这是一个超大规模并行调度的问题。