“防御性駕駛是我們訓練中的核心目標,我一直強調:必須讓AI學會害怕,這才是對安全真正的重視。”8月26日,在元戎啟行VLA模型上市發布會上,元戎啟行創始人、CEO周光強調,VLA的核心能力是思維鏈和長時序推理,而這能讓系統較好地實現“防御性駕駛”。
這是元戎啟行成立六年以來首次舉辦的發布會。在這場發布會上,元戎啟行強調了其所具備的兩項能力。一是VLA技術的防御性駕駛能力,以及其所代表的技術先進性;二是商業化能力,以及其所代表的量產新階段。
其中,元戎啟行對“防御性駕駛”標簽的強調,不禁讓人想起今年8月,小鵬汽車在介紹全場景VLA功能時,提及多個“防御性駕駛”功能。7月,理想汽車發布VLA司機大模型,指出其能夠通過防御性駕駛帶來更加安全的輔助駕駛體驗。更早之前的6月,周光在“2025未來汽車先行者大會”上就透露,元戎啟行的VLA模型主打“防御性駕駛”。
此前,在智駕行業中,不少觀點視加塞等帶有進攻性的駕駛動作為“靈活”的象征。基于此,“防御性駕駛”的標簽較為獨特。對一家鋒芒畢露的年輕智駕公司而言,這似乎顯得不夠有“攻擊力”。
但從技術邏輯上來看,防御性駕駛這一“VLA三劍客”不約而同的“標語”,正在開啟智駕技術的下一輪競速。周光表示,VLA模型的下限已經超過第一代端到端方案的上限。從市場層面來看,2025年以來,浮躁的智駕宣傳受到管控,消費端對智駕安全性的需求明顯提升。
而在詳細介紹VLA模型之前,周光先介紹了元戎啟行的商業化進度,這充分表明了其對商業化的重視。
“目前我們的量產車輛已接近10萬臺,這個數字在行業內屬于第一梯隊。”周光表示,截至目前,公司已獲得超過10款車型的定點合作,預計第四季度交付量還將進一步提升。基于搭載VLA模型的DeepRoute IO 2.0平臺,元戎啟行已達成5個定點合作項目,首批量產車即將進入市場。
他還透露,目前15萬元以上的車型都可以適配VLA模型,10萬元級別的車型通過優化也有機會搭載。
伴隨著元戎啟行在技術、商業化層面雙雙突破瓶頸,這家多被外界冠以“技術極客”標簽的年輕公司摩拳擦掌。防御性駕駛的能力,正在成為VLA最好的“進攻”標志。市場對VLA的認可度,又將決定元戎啟行們能否在殘酷競爭中占得先機。
01 以“守”為“攻” 打破第一代端到端瓶頸
元戎啟行是最早在國內智駕領域提出VLA架構的企業之一。此前,其曾數次實現對先進技術的預判。在2023年初,其實現了無圖方案。2024年,其率先實現了端到端輔助駕駛的量產。兩次技術路線押寶的成功,為其積累了一定技術聲量。
不過,前兩次的技術變革帶來的效果變化,實際上是讓系統更靈活、更“激進”。比如,無圖之后,沒有高精地圖覆蓋的區域,也能實現智能駕駛;端到端上車之后,在復雜場景下,車輛表現得更靈活、擬人,不會呈現死板的“規則感”。
這也與部分消費者的觀感相符。在社交媒體的用戶反饋上,像“老司機”一樣的“加塞”“快速變道”等大膽決策,以及其所代表的“進攻性”駕駛風格往往被視作“靈活性”的表現。
但這一次,元戎啟行為何選擇了看似效果更“保守”的防御性駕駛,來作為更先進的VLA模型的標簽?
其實,死板、不靈活是外界對“防御性駕駛”的誤區,實際上其在道路上攻守兼備。在行車過程中,“防御性駕駛”也是比“進攻性駕駛”更難的駕駛風格,需要更多預判,甚至預判別人的預判,從而保障安全,不出意外。
據周光介紹,面對空間遮擋,當前BEV或CNN端到端的邏輯是看不見等于不存在,但VLA模型卻會在有盲區的情況下,推斷可能有外賣小哥出現,并采取防御性策略。在右轉或山路行駛時,系統會像人類一樣減速、鳴笛,提示他人注意。
類比到體育賽事中,有種說法是 “防守贏得比賽,進攻贏得觀眾” 。觀眾追求感官沖擊,進攻的主動突破、頻繁射門等受到追捧。但進攻的同時兼顧防守,實時推理對方行動規劃,合理分配注意力,其實更能決定比賽結果的“下限” 。不過,其價值卻因被動、隱性而需結合局勢才能被感知。
“預判”需要思考邏輯,需要推理決策。從技術角度來看,這為智駕系統帶來了較大挑戰。在周光看來,VLA是讓系統具備推理能力的一個“解”。
VLA的種子,在2024年6月被埋下。彼時,周光乘坐測試車經過公司附近的一處紅綠燈,一個交通牌提示"車輛左轉不受燈控",測試車依舊停下等待紅燈變綠。他開始意識到:人類司機能瞬間理解這類特殊場景,但即便是當時最接近人類駕駛能力的端到端模型,也因無法理解文字路牌未能通過。9月,VLA模型就被提升為公司級研發項目。
VLA的全稱是Vision Lnguage Action Model,即視覺-語言-動作模型。周光介紹,從技術層面來說,VLA模型可以稱為“基于GPT(基于Transformer的架構)的端到端模型”,這與傳統的CNN(卷積神經網絡)端到端模型有本質區別。
從效果上來看,相對CNN,GPT的主要優勢是擁有更強的語義和邏輯推理能力,這對智駕的推理決策至關重要。用一個更易理解的比喻,人類在面對問題(比如“VLA模型是不是劃時代的技術?”)時,絕大多數情況都需要用語言來形成思考邏輯,而很難用圖片來思考問題的答案。
“VLA模型融合了語言模型,具備強大的思維鏈能力,能擺脫傳統端到端模型的黑盒難題,并將信息串聯、分析,從而推理出因果關系。此外,它天然集成海量知識庫,泛化能力更強,能夠更好地適應復雜多變的真實道路環境。”周光表示,長遠來看,語言和推理能力是實現完全無人化自動駕駛的核心。
具體來看,元戎啟行的VLA模型具備了四大基礎功能:其一是空間語義理解,能還原復雜環境,尤其針對盲區場景;其二是異形障礙物識別,識別各類車輛和物體;其三是文字類引導牌識別,有效理解臨時標志、道路文字,減少誤判與違章;其四是記憶語音控車,支持“快一點/慢一點”等基礎指令,還能記憶用戶偏好。
搜狐汽車在體驗元戎啟行VLA模型的過程中發現,在經過橋洞、丁字路口等存在盲區的場景時,該系統基本都能夠實現提前減速或停車觀望,謹慎、絲滑地做出行駛決策。與此同時,其識別達到的道路文字、部分思維鏈也能以文字的形式呈現在車機屏幕上。
“目前,VLA模型的下限已經超過(第一代)端到端方案的上限。”周光表示,第一代端到端系統正逐漸觸及性能瓶頸。當前以CNN為載體的模型,無論用多少數據或額外訓練手段,其提升空間已非常有限。
綜合來看,VLA最突出的優勢,表現在優秀的推理、預判能力,而推理思維鏈最直接的體現,又在于“防御性駕駛”能力上。對元戎啟行VLA模型而言,“防御性”的駕駛,實際上是一次進階的技術進攻。
02 技術與商業平衡
除了技術先進性,發布會上,元戎啟行還主動展現出了此前很少表現在大眾眼前的務實。最顯著的特征就是,其在VLA模型上展現出了強大的兼容性。
第一個兼容是對不同感知硬件方案的兼容。與一些業內旗幟鮮明地支持純視覺或融合感知方案的公司不同,其搭載VLA模型的DeepRoute IO 2.0平臺同時支持激光雷達融合感知方案和純視覺方案。
“短期來看,激光雷達受限于技術發展和數據集的成熟度,仍有其價值;長期來看,大模型有望逐步解決現在依賴激光雷達的部分任務。”周光表示,激光雷達目前對通用障礙物識別仍有重要作用,但隨著大模型技術的發展,視覺會在感知中扮演越來越重要的角色。
第二個兼容是對車端多芯片平臺的兼容。VLA模型的研發和訓練與車端芯片無關,但在訓練完成后會在車端部署適配。目前,海外大廠如英偉達、高通,國內芯片公司如地平線、黑芝麻等芯片均在車企打造產品的選擇范圍內。能夠兼容多芯片平臺,意味著能夠擁抱更廣闊的潛在用戶,同時也會增加工程部署的工作量
“芯片適配有一定要求,比如基礎算力、帶寬等。模型訓練完成后會經過蒸餾和量化,適配需要滿足基本條件。合作中車廠可以提出芯片需求,適配成本(時間、資金、數據)都是可協商的。我們目前以某款芯片為起點,未來會支持更多芯片,并不局限于一家。”周光說。
第三個兼容是價格上的兼容。感知硬件、芯片占據了很大一部分智駕系統部署的成本,能夠兼容不同的方案,就讓元戎啟行VLA模型有了更大的范圍空間。周光透露,目前15萬元以上的車型都可以適配VLA模型,10萬元級別的車型通過優化也有機會搭載。
此前,元戎啟行量產車型如、、坦克500的價位,多數在30萬級以上,戰略合作伙伴smart也定位中高端。進入15萬級甚至可能進入10萬級的車型價格地帶,意味著元戎啟行VLA將進入中國汽車市場的腹部,逐漸進入走量、平攤成本并持續投入研發的良性循環。
不過,挑戰仍然存在。雖然目前,Momenta、卓馭等多家智駕廠商并未在技術先進性上展現突出特點,但相對而言在客戶數量、總體規模和交付量上有一定優勢。并且,要在更低的價格地帶做好智駕,布局成本可能遭受較大考驗。在汽車行業內卷尚未徹底停歇、主機廠仍處于高度緊張競爭狀態的情況下,需要較大算力的VLA模型面臨一些成本挑戰。
而面對汽車產業鏈的整體困局,元戎啟行和周光抱有長期主義式的態度。
“行業整體面臨挑戰,尤其隨規模擴大,對產品體系要求更高。需始終保持敬畏之心。良性競爭有利于行業發展。”“宣傳需理性,避免過度承諾,尤其在安全方面。技術發展需時間,需正確引導用戶預期。監管與行業自律也很重要。”從“防御性駕駛”到“理性宣傳”再到“良性競爭”,周光沒有像特斯拉創始人、CEO馬斯克一樣極端地推崇技術,而是更多回歸了理性。
在技術進攻與防御駕駛之間,在理性競爭與感性市場之間,元戎啟行邁入新階段,也正迎接市場的檢閱、友商的挑戰。