目前,行業內逐漸興起VLA研發熱潮,小鵬汽車、理想汽車都在進行相關布局。
8月26日,元戎啟行發布全新一代輔助駕駛平臺——DeepRoute IO 2.0,該平臺搭載自研的VLA(Vision-Language-Action)模型,融合視覺感知、語義理解與動作決策三大核心能力。
如今,從理想、小鵬等整車企業,到元戎啟行等智駕供應商,越來越多企業開始布局VLA模型。VLA與現有的端到端架構的區別在哪里?它能給企業和用戶帶來什么?
讓AI學會“害怕”
區別于端到端架構的模仿學習,VLA大模型的優勢是通過強化學習不斷進化,讓機器嘗試理解“為什么這樣做”。
元戎啟行對VLA模型的投入,源于元戎啟行CEO周光對技術趨勢的判斷。
2023年底,GPT-4發布后展現出的多模態理解和邏輯推理能力,讓周光看到了一條通往更高階智能駕駛的路徑,他認為“強AI時代”可能提前到來。
“它打破了我們對AI發展進程的認知——原來從弱AI到強AI可能只需要幾年,而非過去認為的50年……如果我們不轉型為大模型驅動的公司,未來很可能面臨降維打擊。”周光在接受經濟觀察報等媒體采訪時說。
真正促使元戎啟行堅定轉向VLA的,是一個發生在2024年6月的具體場景。在深圳福田保稅區入口,突然立起一塊“車輛左轉不受燈控”的指示牌。當時元戎啟行的測試車在紅燈前停下,卻因無法理解牌面文字而被后車鳴笛催促。
“這類場景無法通過傳統端到端學習解決,必須依靠對文字的理解。即便通過地圖打標簽也需要至少一周,而大模型則可以實時處理。”周光說。這件事讓他意識到,基于CNN的端到端系統已經觸及天花板,必須構建具備語義理解能力的新架構。
除了場景難題,量產規模也是促使端到端轉型的一個重要的刺激因素。官方數據顯示,元戎啟行已獲得超過10款車型的定點合作,并實現近10萬輛具備城市領航輔助系統的量產車型交付,涵蓋SUV、MPV、越野車等多個車型。
規模擴大帶來了新挑戰。周光坦言,當交付量達到10萬輛級別后,任何問題都會被放大。“早期千臺、萬臺的階段發生問題的概率較低,但規模擴大后,我們面臨更嚴格的市場監督。”他說。
市場上出現了更多嚴苛的評測,消費者對輔助駕駛安全的要求越來越高。“雖然目前我們的評測表現仍處于頭部,但我認為輔助駕駛還可以做得更好,仍有優化空間。”周光說。這種焦慮感刺激元戎啟行加速技術迭代,第一代端到端系統正逐漸觸及性能瓶頸,VLA被視為打破瓶頸的關鍵。
此前,理想汽車自動駕駛研發高級副總裁郎咸朋預測,未來VLA能將事故里程(MPA)提升至人類駕駛的10倍,做到600萬公里才出一次事故(當前理想輔助駕駛為350—400萬公里/次事故,人類駕駛約60萬公里/次事故)。
對于當前的主流技術路線,周光持批評態度。他以基于BEV架構的端到端系統為例,指出其存在先天局限。就像玩坦克大戰,墻后的物體無法被看到,系統就會認為“不存在”。
在周光看來,真正的智能駕駛必須突破視覺遮蔽的限制,實現對空間關系的理解和推理。“這并不是說我們要‘穿墻透物’,而是必須提升對高級語義和空間關系的理解能力。”他說。
基于這一判斷,元戎啟行將“防御性駕駛”作為VLA訓練的核心目標。周光表示:“在DeepRoute IO 2.0中,我們讓AI學會了‘害怕’。害怕是生物進化出的保護機制,AI也應當具備對風險的敬畏之心。”基于這種判斷,元戎啟行的VLA系統在盲區等場景中會主動進行“預防性預判”,像人類一樣采取謹慎策略。
不過,周光強調,隨著大模型技術的發展,視覺會在感知中扮演越來越重要的角色。元戎啟行的策略是兼顧兩條路線——VLA平臺同時支持激光雷達與純視覺版本,以適應不同客戶和場景的需求。
不只用于汽車
周光對VLA的期待遠不止于智能駕駛領域。在元戎啟行的規劃中,VLA的能力可復用于機器人、無人駕駛等多種移動場景。
周光表示,VLA模型本身是通用架構,不再為特定場景定制。這一理念與元戎啟行2025年3月發布的道路通用人工智能平臺"AI Spark"一脈相承,旨在讓智能體在道路上自主行駛,并具備與物理世界深度交互的能力。
"正如我們年初發布的Road AGI策略所說,未來這一技術可泛化至多種移動場景——包括小區、電梯、辦公室等室內外環境。"周光說。在他看來,現在的很多機器人還依賴遙控或巡線技術,而VLA架構將支撐它們實現真正自主、通用的移動能力,完成從單點功能到通用智能體的系統演進。
目前,行業內逐漸興起VLA研發熱潮,小鵬汽車、理想汽車都在進行相關布局。
周光表示,元戎啟行在防御性駕駛等方面布局較早,半年前就已強調這一方向。小鵬基于千問模型確實做出了實打實的成果,而元戎啟行的優勢在于對技術路線的早期判斷和快速工程化能力。
如何向用戶推廣VLA這樣具有技術門檻的產品?周光表示,VLA模型最直接的價值是讓輔助駕駛更自然、更人性化,能應對更多復雜場景,而這需要通過與用戶的持續互動來不斷優化。元戎啟行更傾向于通過實際體驗讓用戶感受VLA的價值,而非進行技術概念的灌輸。
在發布會尾聲,周光為當前的技術階段給出了評價——滿分10分中僅打"6分",剛剛及格。他解釋稱,VLA模型仍處于早期,相當于幼年期,目前的VLA仍無法實現全無人駕駛,缺乏完全的推理能力,僅靠高精地圖無法根本解決泛化問題。
不過,"幼年期"也意味著巨大的成長空間。周光認為,VLA的上限遠高于端到端方案,"其下限已經超過端到端方案的上限"。在他看來,新一代架構需要新一代芯片支持,這不是CNN時代可比的。隨著下一代芯片達到更高算力,VLA模型的潛力將得到進一步釋放。
目前,行業內逐漸興起VLA研發熱潮,小鵬汽車、理想汽車都在進行相關布局。