在过去数年间,智能驾驶领域的竞争焦点发生了数次显著转移。
初期,竞争集中于硬件配置,例如是否搭载激光雷达、配备多少个摄像头以及算力达到多少 TOPS。随后,随着大模型时代的到来,竞争转向了端到端、VLA(视觉-语言-行为)以及 World Model(世界模型)等技术路线。
如今,越来越多的企业认识到,仅凭更大的模型已不足以形成代际优势。真正决定技术上限的,开始转变为模型、数据、算力和芯片之间能否构建一个持续优化的闭环系统。
这也是促使愈发多的汽车制造商走向自主研发的原因。
特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo超级计算机和自研芯片的全链条。在中国,包括小鹏、蔚来以及理想在内,都在不断向下游技术环节延伸。
理想汽车在今年推出的L8和L9车型中,已采用了自主研发的马赫M100芯片。这款采用数据流架构的芯片被理想视为AI领域的重要技术方向。基于马赫M100,理想也运行了其自研的马赫VLA模型。
然而,对于整个行业而言,更值得关注的问题并非“是否自研”,而是这些投入究竟能解决哪些实际问题。
带着这一疑问,我们采访了理想汽车自动驾驶负责人詹锟和芯片负责人谢炎。他们就理想对下一代自动驾驶技术路线的判断,以及自研芯片、数据体系和AI基础设施背后的设计理念进行了阐述。以下为经编辑整理的部分访谈内容:
问:为了在第四季度达到特斯拉FSD V14的性能水平,理想汽车还需要在哪些方面进行努力?
**詹锟:**我认为追赶FSD可以从两个层面来看。
第一个层面是基础体验,具体体现在安全感、效率和舒适度是否能达到FSD的同等水平。FSD在这三个方面表现出色,拥有很强的安全感、高效率和良好的舒适性,这是其核心功底。即使不处理极端复杂的路况,也需要在这些基础体验上达到同等水平。
第二个层面是能力,这一点也极具挑战。例如,特斯拉能够主动礼让特殊车辆,能在极窄的道路上实现精准感知,并能识别交警的指挥手势,这些能力都非常强大。
在能力层面,存在架构升级的机会。为什么某些能力只有特斯拉拥有?这可能与过去的范式限制有关,也可能与架构和数据有关。我们在这些方面进行了大量探索。
问:我理解马赫VLA是一套技术体系,而非单一模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,在当前的智能驾驶模型中,是否还包含“L”(Language,语言)的部分?
**詹锟:**当前自动驾驶的架构普遍趋向于整合VLA(视觉-语言-行为模型)和World Model(世界模型)。
从长远来看,所有技术路线都会朝这个方向发展。无论是VLA还是World Model,其中的提示(Prompt)都需要用到语言(Language)。因此,语言部分是必然存在的,关键在于如何应用它。
在机器智能领域,我认为基于视觉(Vision Based)的路径更为合理,它能更好地理解空间、感知三维环境并服务于环境交互。语言(Language)肯定有其用武之地,对于理解环境、交通规则、指令以及进行复杂的决策思考都极具价值。
从长远来看,基于视觉和语言的原生基础模型,可能代表了未来的发展趋势。
**谢炎:**如果目标是实现L3、L4级自动驾驶,需要解决更广泛的泛化性问题,那么模型就需要具备类似人类的思考能力。在这种情况下,语言的重要性将日益凸显,这也是未来需要巨大算力的原因之一。
如果模型仅具备视觉和动作(Vision and Action)能力,即使拥有海量数据,在遇到分布之外的罕见情况时,也可能束手无几。就像动物即使学会了所有常见情况,面对从未见过的情形也可能不知所措,无法做出正确的选择。
我们认为,越是向L3、L4级别迈进,需要解决的问题就越接近那些未曾遇见过的情况——那些需要模型具备人类般思考能力的问题。而实现类人推理和思考能力的关键来源,便是语言模型。例如,理解交警的手势并判断其意图,这不是简单地通过收集或生成数据就能解决的。
问:随着理想汽车车队规模的扩大,从内部来看,数据的边际效应是否出现了衰减?你们是如何定义有价值的数据的?
**詹锟:**首先,数据的数量必须足够庞大,核心目标是收集到更多的Corner Case(长尾场景)。目前,业界有多种方法可以在车端部署有效的神经网络触发器(neural trigger),用于判断场景的难易程度,并将关键数据回传。这也是特斯拉在这一领域表现出色的重要原因之一。
其次,数据的质量至关重要,这主要体现在行为质量的高低。当前,业界逐渐趋向于端到端的范式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),其核心都在于准确的行为(Action)。因此,行为的质量、清晰度和一致性变得尤为关键。
至于数据规模扩大后边际效应是否衰减,只要模型能力在不断提升,并且我们持续追求满分表现,那么数据的边际效应必然呈现“对数曲线”式的衰减,而非线性增长,这是所有AI公司都会面临的普遍情况。尽管后期数据收敛的速度会放缓,但我们希望通过规模化来加速这一进程。
问:马赫M100芯片可应用于多种AI场景。展望未来五年或更远,理想汽车车内的算力中心是否有可能全部采用自主研发的马赫芯片?
**谢炎:**尽管业内存在“舱驾一体”的说法,但我们认为,舱驾一体的核心在于AI算力部分,其他部分的整合并非至关重要。因为座舱系统和AI智能驾驶系统可以相对独立运行,但AI算力可以集中处理,从而显著提高效率。
我们的路线图最终设想是在车内构建一个统一的AI计算中心,所有AI任务均在此进行计算。这类似于在笔记本电脑上运行OpenClaw,AI计算并非在笔记本本地进行,而是在Token Provider Server(Token供应服务器)上完成,车内也将是类似的模式,设立一个Token Server(Token服务器)。
该Token Server的优势在于:第一,极高的效率。第二,能够实现不同任务间的隔离,互不干扰。例如,智能驾驶任务的确定性,包括内存和带宽的保障,不会受到其他任务的侵扰,这是软硬件协同设计才能实现的结果。
问:是否因为M100采用了数据流架构的AI推理芯片,所以相比其他厂商的自动驾驶芯片,它对带宽的需求较低,但对片上存储的需求更高?
**谢炎:**我们对带宽的要求确实较低,但这并非直接导致SRAM容量(而非显存)设计的决定性因素。目前HBM(高带宽内存)备受关注,许多人认为带宽越高越好。然而,计算、带宽、SRAM等所有能力的实现都需要晶体管资源,最终的设计是基于成本、综合性能等多方面权衡后的选择。
基于不同的架构设计,仅凭一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终比拼的是整个运动的表现。
问:为何当前的大算力芯片方案,例如英伟达、小鹏以及理想自研的芯片,都没有实现芯片级的舱驾融合,反而高通在低算力芯片上进行了尝试?这是什么原因?
**谢炎:**从本质上讲,座舱(舱)和智能驾驶(驾)是两个独立的系统。特别是对于向L3、L4级别发展的智能驾驶,需要一个更高确定性的系统,这意味着内存和计算资源应该是专属的,在这种情况下,融合的意义就大大降低了。因为资源无法实现实时切换,而实时切换会影响系统的确定性。如果系统朝着越来越独占的方向发展,融合的价值就不大了——即使将两个芯片整合在一起,资源仍然是独立的,并不会带来成本的显著降低,甚至可能影响效率。
当前市面上所谓的舱驾融合系统,其内部仍然是分开的。它无法实现任务的自由切换。将两个独立的芯片集成到同一颗芯片上,晶体管数量可能不变,只是节省了封装成本。对于中低端芯片而言,这部分成本可以节省,但幅度有限。
我的观点是,随着智能驾驶技术的不断高端化,舱驾融合的意义将逐渐减弱。如果能将这些芯片设计得更紧凑,集成在一块电路板上形成高度集成的方案,这是可行的,不一定非要集成到同一颗芯片上,也可以是多颗芯片协同工作。
问:自研芯片需要具备哪些条件,例如销量、营收和研发投入?鉴于当前自动驾驶迭代速度很快,芯片需要持续迭代,这又需要什么样的条件?
**谢炎:**芯片的初期投入确实不菲,可能每年需要数亿元人民币。
首先,必须达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年拥有数十亿至上百亿元的研发资金,才足以支撑芯片的持续研发投入。其次,自研芯片所解决的问题,必须能够显著提升产品的核心竞争力。
许多人认为芯片需要巨大的出货量才能摊薄成本。实际上,芯片的成本与面积密切相关。一辆车上的智能驾驶芯片,例如Livis使用了两颗马赫M100,总面积约为800平方毫米。而一枚高端手机芯片的面积大约为100平方毫米,这意味着一辆车的智能驾驶芯片面积相当于8部高端手机芯片的总和。
如此计算,几十万辆车的销量所需的晶圆面积非常可观,足以有效分摊成本。因此,成本不能仅以芯片的单颗数量来衡量。
问:动态数据流编译器的难点何在?攻克这一技术花费了多长时间?
**谢炎:**在芯片流片之前,甚至在设计阶段,我们就已经开始了编译器的工作。在芯片流片之前,我们已经成功运行了许多模型。
数据流架构是一种完全不同的设计思路,它所要解决的问题与超级计算机或大规模计算机集群面临的问题非常相似——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信和协作成为关键,此时无法依靠中央管理员来统一调度。传统的冯·诺依曼架构的调度方式在这种规模下变得不可行,这是一个超大规模并行调度的挑战。
1 条评论
资深玩家
2026年5月10日想知道最新的棋牌游戏资讯?盛世棋牌为你一手掌握!从热门游戏介绍到最新版本更新,我们都为你一一呈现。关注我们,让你永远走在棋牌潮流最前线!
留下你的精彩评论