7月27日,騰訊 Robotics X 實(shí)驗(yàn)室與福田實(shí)驗(yàn)室聯(lián)合發(fā)布具身智能開(kāi)放平臺(tái) Tairos “鈦螺絲”,這是國(guó)內(nèi)首個(gè)以模塊化的方式提供大模型、開(kāi)發(fā)工具和數(shù)據(jù)服務(wù)的具身智能軟件平臺(tái),通過(guò)“sdk/api”的方式面向機(jī)器人行業(yè)開(kāi)放。
Tairos平臺(tái)包含模型算法和云服務(wù)兩大組成部分,模型層面包含了多模態(tài)感知模型、規(guī)劃大模型以及感知行動(dòng)聯(lián)合大模型;云服務(wù)平臺(tái)則包含了仿真平臺(tái)、數(shù)據(jù)平臺(tái)以及開(kāi)發(fā)工具等,平臺(tái)通過(guò)標(biāo)準(zhǔn)化接口調(diào)用及軟件開(kāi)發(fā)工具包(SDK)的方式對(duì)外提供服務(wù)。
當(dāng)日,騰訊 Robotics X 實(shí)驗(yàn)室發(fā)布會(huì)現(xiàn)場(chǎng),搭載了具身智能開(kāi)放平臺(tái)Tairos的宇樹(shù)機(jī)器人G1走上臺(tái)前,配合騰訊首席科學(xué)家、Robotics X 實(shí)驗(yàn)室主任、福田實(shí)驗(yàn)室主任張正友一起來(lái)做產(chǎn)品介紹。
在演講的最后,張正友問(wèn)身邊的G1機(jī)器人,“結(jié)束后晚上要不要去喝一杯?”
它一板一眼回答:“不了,太忙了,今天還要加班。”
當(dāng)日下午,在接受鳳凰網(wǎng)科技在內(nèi)的媒體采訪(fǎng)時(shí),張正友也對(duì)此回答感到驚訝,“之前的彩排它不是這么說(shuō)的,每一遍跑的(回答)都不一樣。”
這是騰訊Robotics X實(shí)驗(yàn)室成立7年,實(shí)驗(yàn)室負(fù)責(zé)人少有的接受對(duì)外公開(kāi)采訪(fǎng)。他依舊堅(jiān)定認(rèn)為,養(yǎng)老場(chǎng)景是最適合做技術(shù)探索的場(chǎng)景,“為什么選養(yǎng)老,這是一個(gè)很難人機(jī)交互場(chǎng)景,我們是想用比較難的場(chǎng)景去切入做技術(shù)研發(fā)。”
“不用懷疑,機(jī)器人進(jìn)家(這件事)有生之年肯定會(huì)發(fā)生的。”張正友說(shuō)。
在這個(gè)時(shí)間節(jié)點(diǎn),騰訊拿出了此前積累的技術(shù)成果,做成具身平臺(tái)開(kāi)放對(duì)外。“與其說(shuō)商業(yè)化,我們更樂(lè)于提產(chǎn)品化。商業(yè)化聽(tīng)起來(lái),是要賺錢(qián)。我們不是以賺錢(qián)為目的的。我們希望把自己變成一個(gè)穩(wěn)定的產(chǎn)品,推動(dòng)全行業(yè)發(fā)展。”
但他也強(qiáng)調(diào),研發(fā)不能被產(chǎn)品化壓力帶著跑,并打趣道,“如果當(dāng)年馬化騰先生讓我成立一個(gè)機(jī)器人實(shí)驗(yàn)室,立馬做產(chǎn)品,我可能就不會(huì)來(lái)了。”
面對(duì)近來(lái)的人才流失,張正友坦誠(chéng),“確實(shí)現(xiàn)在外面吸引力很大,但我們跟初創(chuàng)公司不太一樣,非常支持年輕科研人員的前沿探索,這個(gè)(科研)環(huán)境,在中國(guó)是很難得的。”
面對(duì)行業(yè)內(nèi)的“四足”和“雙足”路線(xiàn)之爭(zhēng),張正友則強(qiáng)調(diào),“我(之前)做機(jī)器狗,不是為了做機(jī)器狗,是為了長(zhǎng)遠(yuǎn)的理念。”
在他看來(lái),未來(lái)具身智能的實(shí)現(xiàn)不一定只有純足式、輪式的形態(tài)。曾經(jīng),人類(lèi)是為了適應(yīng)原始環(huán)境進(jìn)化成了“雙足”,而在當(dāng)下的人居環(huán)境中,雙足的效率不一定最佳。僅考慮“人形”反而會(huì)限制機(jī)器人的未來(lái)發(fā)展可能。因此,騰訊探索足式人式一體化方案,把“輪”和“足”結(jié)合,應(yīng)用到騰訊家居環(huán)境原型機(jī)器人“小五”上。
而相比于初創(chuàng)企業(yè)對(duì)具身智能行業(yè)“iPhone時(shí)刻將到來(lái)”的普遍樂(lè)觀(guān),張正友顯得更加猶豫和謹(jǐn)慎。
“現(xiàn)在連距離所謂的‘大哥大’時(shí)代還有多遠(yuǎn)都不好說(shuō)……但在安卓、iPhone出現(xiàn)之前,難道BlackBerry(黑莓手機(jī))的‘失敗’就是沒(méi)有價(jià)值的嗎?”
他希望,騰訊能夠通過(guò)發(fā)布Tairos平臺(tái),加速行業(yè)進(jìn)入“大哥大”時(shí)代。“無(wú)論是我們認(rèn)為的養(yǎng)老場(chǎng)景,還是別家說(shuō)的工業(yè)場(chǎng)景,無(wú)論怎么樣,都希望助力大家盡快提高量產(chǎn)數(shù)量,把成本降下來(lái),技術(shù)穩(wěn)定下來(lái)。”
“如果(現(xiàn)在)機(jī)器人零件,比如頭都掉了,還在跑,證明還不是真正的具身智能,但我相信,到明年的馬拉松賽事,機(jī)器人就可以自己跑了,不需要人在后面遙控了。”
以下是張正友采訪(fǎng)實(shí)錄,經(jīng)過(guò)不改原意的刪改:
Q:早上演講時(shí)您最后提到,唐代智通大師留下的四句偈語(yǔ):“三身元我體,四智本心明。身智融無(wú)礙,應(yīng)物任隨形。” 2021年時(shí),您說(shuō)過(guò)說(shuō)要翻譯道德經(jīng),后來(lái)有翻譯嗎?像這種東方的哲學(xué),對(duì)于機(jī)器人理念的設(shè)計(jì)上會(huì)有一些啟發(fā)嗎?"
張正友:肯定會(huì)有啟發(fā)的。演講時(shí)我用了唐朝傅聰大師的一句話(huà),身智融無(wú)礙,對(duì)吧。現(xiàn)在可能我們經(jīng)常會(huì)看到有些演示,比方說(shuō),跑步的時(shí)候頭掉了,這機(jī)器人還在跑,或者是手臂斷了,還上去抓這個(gè)東西——你可以很明顯感覺(jué)到,這不是具身智能。連自己自身的狀態(tài)都沒(méi)有感知的話(huà),這機(jī)器人與我們想要的差很遠(yuǎn)的。身體跟智能要緊密結(jié)合,要和諧融合都是很重要的工作。
以前我提過(guò),虛擬世界和真實(shí)世界要無(wú)縫的緊密結(jié)合,這個(gè)觀(guān)點(diǎn)也有一點(diǎn)融合東方的思想。放在機(jī)器人,我們通過(guò)仿真訓(xùn)練就知道,到底執(zhí)行會(huì)不會(huì)比較完善。如果想象出來(lái)和真實(shí)執(zhí)行差的比較遠(yuǎn),那么就要修正自己的規(guī)劃。
《道德經(jīng)》我翻譯第四遍了,每翻譯一遍重新看一遍,都有不同的啟發(fā)。但我的目的不是為了出書(shū),是為了提供自己不斷提升的過(guò)程。
Q:今天看Tairos 發(fā)布,想到曾經(jīng)其他大廠(chǎng)也做過(guò)類(lèi)似的平臺(tái),想去支持車(chē)企,但最后在業(yè)界并沒(méi)有那么成功,那現(xiàn)在騰訊做開(kāi)放平臺(tái)成功的可能性變大了嗎,有什么地方不一樣?
張正友:你這個(gè)擔(dān)憂(yōu)非常真實(shí)。往好的方向想就像Windows——它要涉及很多不同廠(chǎng)家的PC機(jī),如果沒(méi)有很好的兼容,到最后是不可能發(fā)展起來(lái)的。
我們從一開(kāi)始就讓開(kāi)發(fā)平臺(tái)跟好幾家機(jī)器人客戶(hù)廠(chǎng)家整體打磨,不是發(fā)布完就不管。今天你看到的小五機(jī)器人、越疆、帕西尼都搭載了平臺(tái)。
Q:騰訊在具身智能大模型和云服務(wù)業(yè)務(wù)上相比其他平臺(tái)的優(yōu)勢(shì)是什么?
張正友:一個(gè)是模塊化,廠(chǎng)家可以選取他想要的模塊。比如,感受模塊,假如他自己的感知能力很強(qiáng),就不需要我們這個(gè)模塊;另一個(gè)是我們平臺(tái)完整,包括左腦右腦小腦,同時(shí)允許接入第三方模型。但是這個(gè)模型需要經(jīng)過(guò)具身智能特訓(xùn)——我們有套流程:從開(kāi)源基礎(chǔ)模型加上我們自己具身數(shù)據(jù)預(yù)訓(xùn)練的模型,廠(chǎng)家只需要用自己的東西少量數(shù)據(jù)就能快速適配,整個(gè)流程非常順。
Q:騰訊說(shuō)不做硬件,要做廠(chǎng)商的合作伙伴,最近收到合作伙伴主要需求是什么?現(xiàn)階段,精力和資源會(huì)著重放在哪些能力提升上?
張正友:我們跑過(guò)全國(guó)北京、上海、深圳、成都等六十幾家企業(yè),發(fā)現(xiàn)中國(guó)大量機(jī)器人企業(yè),硬件做得很好。騰訊在具身投入非常大,做了7年了,大家對(duì)我們做這個(gè)事是非常歡迎的。我們選高配合度種子企業(yè)深度打磨,7月平臺(tái)標(biāo)準(zhǔn)化后開(kāi)始鋪量——這也是過(guò)往騰訊做產(chǎn)品的思路,一下子是不能鋪太多的。
騰訊的重點(diǎn)優(yōu)勢(shì)就三個(gè):模型能力(規(guī)劃/感知/行動(dòng)聯(lián)合模型)、仿真環(huán)境、多模態(tài)感知。今天發(fā)布還是初版,后面隨著更多企業(yè)參與,平臺(tái)會(huì)打磨得更好。
Q:機(jī)器人落地目前最急需補(bǔ)足的技術(shù)是什么?
張正友:核心是對(duì)三維世界的可操作認(rèn)知。現(xiàn)在很多“世界模型”建個(gè)咖啡杯3D模型,你可以在里面動(dòng)來(lái)動(dòng)去看起來(lái)很漂亮——但機(jī)器人是需要真實(shí)把它抓起來(lái)。他們建的模型是全部連在一起的,這和我們需要的可操作模型有根本區(qū)別。
規(guī)劃方面,大語(yǔ)言模型是通過(guò)文本理解世界,但很多文字是描述不清楚的。動(dòng)物沒(méi)文字語(yǔ)言也能在3D世界活下來(lái),證明非語(yǔ)言認(rèn)知很重要。
觸覺(jué)傳感器從成立之初我們研究了7年,現(xiàn)在還沒(méi)達(dá)到真正標(biāo)準(zhǔn)化。
Q:騰訊 Robotics X 實(shí)驗(yàn)室的商業(yè)化目標(biāo)此前比較謹(jǐn)慎,之后態(tài)度會(huì)不會(huì)有所改變?
張正友:我們7年前成立時(shí),就沒(méi)有任何商業(yè)化路徑。當(dāng)時(shí)必須從頭做,既做硬件又做軟件,從2023年下半年開(kāi)始,行業(yè)就有很大變化,很多機(jī)器人廠(chǎng)商出現(xiàn)。
現(xiàn)在形勢(shì)已經(jīng)變化了。騰訊需要跟機(jī)器人硬件本體廠(chǎng)家一起,把具身智能技術(shù),跟本體廠(chǎng)家一起去打磨,否則就是停留實(shí)驗(yàn)室前沿探索。當(dāng)然探索還會(huì)繼續(xù),但有些能力希望跟本體廠(chǎng)家一起去打磨技術(shù)。
與其說(shuō)商業(yè)化,其實(shí)更樂(lè)于提產(chǎn)品化。商業(yè)化聽(tīng)起來(lái)是,要賺錢(qián)。我們不是以賺錢(qián)為目的的。我們希望變成一個(gè)比較穩(wěn)定的產(chǎn)品,來(lái)賦能機(jī)器人行業(yè)。
Q:既然要做機(jī)器人廠(chǎng)商的合作伙伴,騰訊之后是不是不會(huì)再做機(jī)器人產(chǎn)品了?
張正友:我們從來(lái)不做產(chǎn)品,都是研究原型。“小五”也不是產(chǎn)品。
最早我們的機(jī)器人其實(shí)是更先進(jìn)的,腿輪一體的探索移動(dòng)形態(tài)創(chuàng)新——為什么非要用腿?平地上輪子效率高得多。后面做的調(diào)酒機(jī)器人,是驗(yàn)證觸覺(jué)技術(shù),養(yǎng)老機(jī)器人研發(fā)人機(jī)交互安全性。這些原型驗(yàn)證完技術(shù)我們就繼續(xù)推進(jìn)前沿,不會(huì)停在產(chǎn)品化和商業(yè)化。
現(xiàn)在Tairos 平臺(tái)發(fā)布后,還會(huì)繼續(xù)做一些反思性的研究性的硬件——因?yàn)橛布浖耆摴?jié)效果不好。
Q:你們選擇做什么,不做什么,決策邏輯是怎么樣的?
張正友:從我個(gè)人角度,還有更大目標(biāo)在支撐著。為了實(shí)現(xiàn)未來(lái)的養(yǎng)老場(chǎng)景,我們要繼續(xù)推進(jìn)機(jī)器人的智能和本體里的核心技術(shù),比如初級(jí)測(cè)量器定制皮膚這些能力。
我加入騰訊的時(shí)候,規(guī)劃的是十年。現(xiàn)在已經(jīng)7年了,也許差不多3年后,就能實(shí)現(xiàn)。假如我一開(kāi)始就只潛心在機(jī)器狗上,后面就沒(méi)精力研究其他了。既定目標(biāo)是很宏偉的,要沿著這個(gè)目標(biāo)繼續(xù)前行。
Q:從時(shí)間軸上,現(xiàn)在具身智能處在哪個(gè)階段?
張正友:這是一個(gè)探索的過(guò)程。比方說(shuō),以前BlackBerry(黑莓手機(jī))是失敗了,但是沒(méi)有那個(gè)過(guò)程,后面怎么會(huì)出現(xiàn)像iPhone這些設(shè)計(jì)出來(lái)?對(duì)于我來(lái)講,本體的探索是需要要投入進(jìn)去,必須要投入進(jìn)去。
Q:怎么評(píng)價(jià)當(dāng)下火熱的機(jī)器人賽事?
張正友:賽事還是一個(gè)很重要的推動(dòng)力,能夠推動(dòng)技術(shù)往前。就像大模型,大家都可以去嘗試。
但比如說(shuō),現(xiàn)在一些機(jī)器人腦袋掉了還得跑,說(shuō)明這個(gè)技術(shù)是沒(méi)用的,它沒(méi)有感知能力,對(duì)吧?你就不會(huì)去關(guān)注某個(gè)廠(chǎng)家,僅僅是為了比賽而賽。從我們真正的技術(shù)研究角度和行業(yè)發(fā)展角度講,還是希望這些比賽提升整個(gè)具身賽道真正的能力,還是有幫助,但我們自己可能不太會(huì)參加。
現(xiàn)在馬拉松,我們看到的是人在后面遙控,因?yàn)楦兄P筒粔颍皇沁@個(gè)技術(shù)還沒(méi)到時(shí)候。我相信可能明年就能做到了,機(jī)器人能自主跑起來(lái)。
Q:為什么不做雙足機(jī)器人?
張正友:我不是對(duì)雙足機(jī)器人有什么“仇恨”。雙足人行這個(gè)形態(tài)已經(jīng)在那里了,你不需要花更大精力去思考,只是去控制它就行了,這是其中一個(gè)思路。另外一個(gè)思路就是有好幾個(gè)可能性。
雙足,是人在幾千萬(wàn)年進(jìn)化過(guò)程中,為了適應(yīng)復(fù)雜環(huán)境進(jìn)化出來(lái)的。但現(xiàn)在是人居環(huán)境,實(shí)際上雙足效率很低。我們想探索的,既有輪子又有腿,想看看有沒(méi)有更好的形態(tài),適合人居環(huán)境。
假如我們?nèi)诵螜C(jī)器人行作為標(biāo)準(zhǔn),這其實(shí)是限制了我們對(duì)機(jī)器人的想象力。比如說(shuō),人不能進(jìn)化出屏幕,但技術(shù)可以。如果僅用自然語(yǔ)言交互,會(huì)被速度限制。
假如機(jī)器人是一個(gè)屏幕,信息呈現(xiàn)在屏幕上,人類(lèi)讀取信息的效率提升了三倍。那為什么一定要用語(yǔ)言去對(duì)話(huà)呢?
我不是簡(jiǎn)單否認(rèn)雙足形態(tài),而是有很多其他形態(tài)可以去探索。
Q:成立7年,中間應(yīng)該也有過(guò)一些階段性成果,現(xiàn)在這個(gè)時(shí)間點(diǎn),是怎么判斷可以商業(yè)化了?
張正友:現(xiàn)在這個(gè)時(shí)間點(diǎn)跟行業(yè)發(fā)展有關(guān)系。上一個(gè)階段,大家都還是在做工業(yè)機(jī)器人。2023年開(kāi)始,具身智能火熱,大量本體公司出現(xiàn),能用上。更多是來(lái)自市場(chǎng)和產(chǎn)品的需求。
我們也不會(huì)放棄前沿技術(shù),假如如果探索停半年,也許感知模型、規(guī)劃模型就落后了。現(xiàn)在前進(jìn)的大方向,跟我七年前的判斷,幾乎是沒(méi)有變化的。
當(dāng)初也沒(méi)想那么多,只是在考慮研究前沿技術(shù)。研究人員不能被產(chǎn)品化引導(dǎo),技術(shù)是不能被產(chǎn)品化引導(dǎo)的。7年前,如果馬化騰先生讓我來(lái)成立機(jī)器人實(shí)驗(yàn)室,馬上做個(gè)產(chǎn)品,我就不會(huì)來(lái)了。
今天上臺(tái)簽約的廠(chǎng)商,很多也不是騰訊投資的,我們是要支持整個(gè)機(jī)器人行業(yè)發(fā)展。目前機(jī)器人行業(yè)離iPhone時(shí)刻還有很大的距離。怎么讓整個(gè)生態(tài)起來(lái),是最重要的問(wèn)題。
Q:您剛才提到,騰訊對(duì)實(shí)驗(yàn)室的耐心還很多,但我們看到前兩年各大廠(chǎng)都在做AI lab,都陸續(xù)做不下去,你們會(huì)有擔(dān)憂(yōu)嗎?怎么看當(dāng)下一些人才的流失情況?
張正友:外面的吸引力很大,好處是仍然有很多同學(xué)留下來(lái),更多新鮮企業(yè)補(bǔ)充進(jìn)來(lái)。我們跟初創(chuàng)公司不太一樣,支持力度對(duì)年輕研究人員很大,希望深度探索。這個(gè)環(huán)境是很難得。
現(xiàn)在大部分做數(shù)據(jù)采集,做科研,做導(dǎo)覽。利用這個(gè)平臺(tái),助力行業(yè)進(jìn)入大哥大時(shí)代。應(yīng)該是養(yǎng)老場(chǎng)景比較適合的。也有人認(rèn)為是工業(yè)場(chǎng)景。不管是哪兒,場(chǎng)景要足夠大。
Q:做得早,或者做得晚都不一定是成功的,你們?cè)诰呱碇悄苤械墓?jié)奏和戰(zhàn)略是什么樣的?
張正友:我之前做機(jī)器狗不是為了做機(jī)器狗,是為了長(zhǎng)遠(yuǎn)的理念,為了運(yùn)動(dòng)能力。不一定做足式或者輪式,我們是想探索新的方案,足式輪式一體化,是很大的創(chuàng)新。
腿和人結(jié)合,應(yīng)用到機(jī)器人小五上。走樓梯,是足式。平地是人式的。我們要跳出一般的平常人的思考方式,去想有沒(méi)有更合理高效的一個(gè)技術(shù)方向。
我們做得很早,現(xiàn)在有些能力能夠支持行業(yè)發(fā)展,所以就開(kāi)放出來(lái),但現(xiàn)在還是初級(jí)階段,還有很長(zhǎng)的路要走。
Q:怎么看待行業(yè)過(guò)熱的情況?
張正友:從技術(shù)角度講,更多的企業(yè)和研究單位參與進(jìn)來(lái),這都是好事情。行業(yè)就發(fā)展的會(huì)越來(lái)越快。但假如說(shuō),是不是有些企業(yè)會(huì)技術(shù)不夠成熟,到最后倒閉了,任何一個(gè)技術(shù)在發(fā)展過(guò)程中都有這個(gè)可能。