宇樹CEO 對“具身智能”和“人形機(jī)器人”未來的設(shè)想
2024 年8 月,“2024 世界機(jī)器人大會”在京舉行,期間舉辦了系列論壇,在8 月24 日下午的技術(shù)論壇上,主要話題是“人形機(jī)器人”,宇樹科技CEO 兼CTO 王興興做了報告,題目是:“具身智能”指明了實(shí)現(xiàn)AGI的方向。
本文引用地址:http://www.ex-cimer.com/article/202412/465715.htm王興興 宇樹科技CEO兼CTO
王興興首先向來參會的美國AI 研究所執(zhí)行主任、波士頓動力公司創(chuàng)始人Marc Raibert(馬克·雷伯特)致敬,說在他10 歲讀小學(xué)時,看到了Marc 在MIT 實(shí)驗(yàn)室做的雙足機(jī)器人和后空翻機(jī)器人,是從在中國引進(jìn)的科技紀(jì)錄片里,至今已二十幾年。宇樹公司2016年成立,至今也有8 年時間了。
王興興這次的報告是探討具身智能和AGI 的方向。
圖1 宇樹公司的機(jī)器人
1 OpenAI的早期研發(fā)也是機(jī)器人
OpenAI 早期的目標(biāo)是實(shí)現(xiàn)AGI(通用人工智能)。實(shí)際上,該公司早年在機(jī)器人方面投入很大,但是由于GPT 發(fā)展很快,因此該公司后來在機(jī)器人的發(fā)展方向上投入資源較少。但是王興興堅信“具身智能”是更好實(shí)現(xiàn)AGI 的方向。
為什么這么說?王興興沒有直接回答,而是先介紹了宇樹機(jī)器人的發(fā)展歷程。
圖2 G1工程機(jī)的部分關(guān)節(jié)布置
2 宇樹機(jī)器人的進(jìn)展
● Xdog —— 公司成立前的機(jī)器狗原型
早在2013—2015/2016 年,王興興在讀碩士期間做了XDog 機(jī)器人。當(dāng)時初衷很簡單,因?yàn)樗幻麑W(xué)生沒有那么多的資源去做一個很大的液壓機(jī)器人,所以當(dāng)時希望用一種簡單的方法實(shí)現(xiàn)一個低成本、運(yùn)動性能很好的方案,所以他當(dāng)時就用盤式無刷電機(jī),再加上自己開發(fā)的電機(jī)驅(qū)動板,實(shí)現(xiàn)了XDog 方案。該方案的研發(fā)投入只有一兩萬元。王興興在2015 年用這個機(jī)器人參加了上海的一個比賽,獲得了二等獎,贏得了8 萬元獎金。這筆獎金后來成為2016 年宇樹公司注冊時的啟動資金。
宇樹后續(xù)的產(chǎn)品主要是做高性能四足機(jī)器人,2023年年初又開始做高性能人形機(jī)器人等技術(shù)產(chǎn)品(如圖1)。代表性的產(chǎn)品如下。
● 四足機(jī)器人Go1
宇樹目前的四足主機(jī)器人主要是兩款。第一款是小一點(diǎn)的Go1,最大特點(diǎn)是搭載了自研的3D激光雷達(dá),并且在2023 年就搭載了OpenAI 的ChatGPT 接口,用戶可以直接用語音跟它對話,讓它執(zhí)行一些底層的動作,并且也試著集成了OpenAI 的多模態(tài)接口,用戶可以問它前面有什么東西,它可以回答。
但是在開發(fā)過程中,發(fā)現(xiàn)目前的大語言模型和多模態(tài)模型對滿足機(jī)器人的應(yīng)用是非常不足的——它們對空間/ 整個物理世界的理解,包括對機(jī)器人本體的理解是遠(yuǎn)遠(yuǎn)不夠的。所以希望未來有更好的機(jī)器人模型誕生。
當(dāng)然這不可能僅指望一家公司,需要全球所有的實(shí)驗(yàn)室和科技公司一起推動。
● 工業(yè)級四足機(jī)器人B2
B2 也是2023 年發(fā)布的,是大一點(diǎn)的工業(yè)級四足機(jī)器人,最大的特點(diǎn)是負(fù)載和續(xù)航能力很強(qiáng)。對于大部分的工業(yè)場景,包括室內(nèi)外、地下管廊或其他環(huán)境都是足夠適用的,這也是宇樹目前的一個主力型號。
● 人形機(jī)器人H1 和G1
在人形機(jī)器人方面,宇樹目前發(fā)展也非常快。其實(shí)早在2009 年王興興讀大一的時候,寒假就做過一個小的人形機(jī)器人,當(dāng)時非常便宜,只用了200 元。但是做好以后他非常失望——不僅對自己感到失望,也對當(dāng)時全球范圍內(nèi)人形機(jī)器人的科技發(fā)展速度感到有些失望。所以之后很多年,很多人問宇樹做不做人形機(jī)器人?王興興非常堅決地回答“不做”。因?yàn)楫?dāng)時全球的技術(shù)及商業(yè)化程度,沒有辦法很好地推動人形機(jī)器人發(fā)展。但是在過去的幾年,很多實(shí)驗(yàn)室用宇樹的機(jī)器狗做AI開發(fā),宇樹也肉眼可見了強(qiáng)化學(xué)習(xí)在四足機(jī)器人里的飛速進(jìn)展。并且在2022 年底時ChatGPT 橫空出世,點(diǎn)燃了人們對生成式AI 影響機(jī)器人發(fā)展的信心。所以宇樹在2023 年初開始做高性能人形機(jī)器。H1 人形機(jī)器是2023 年第一款人形機(jī)器人,最大特點(diǎn)是動力性能強(qiáng)大,可謂當(dāng)時全球同類型電驅(qū)人形機(jī)器人中動力性最強(qiáng)的之一。
2024 年5 月,宇樹又發(fā)布了第二款人形機(jī)器人——G1 工程機(jī),8 月發(fā)布了量產(chǎn)版本。工程機(jī)器人也是整合了宇樹過去幾年對四足機(jī)器人、人形機(jī)器人的軟件、工業(yè)設(shè)計的經(jīng)驗(yàn),所以雖然這款機(jī)器人稍小一點(diǎn),只有1.3米高,但無論它的外觀、性能/ 關(guān)節(jié)靈活性、產(chǎn)品完成度都很高。宇樹已經(jīng)快要完成量產(chǎn)化的設(shè)計改造,預(yù)計年底前就可以量產(chǎn)。
圖2 是G1 的關(guān)節(jié)布置,可見非常流暢和漂亮。這里有個“?!?,其實(shí)這種關(guān)節(jié)布置對于動力控制來說并不是最優(yōu)的,腿有點(diǎn)重且不方便控制。但是為什么敢這么做?原因就是AI 技術(shù)的進(jìn)步,使很多原本不容易控制的變得容易解決了。
2024 年5 月G1 剛發(fā)布時展示的一些運(yùn)動性能。里面用了一些傳統(tǒng)控制算法,但是大部分還是用了深度強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)。
目前產(chǎn)品的完成度還是非常高的,不怕踹、打,關(guān)節(jié)的靈活性也非常高,可以實(shí)現(xiàn)很多人實(shí)現(xiàn)不了的高難動作,還輕便可折疊(如圖3)。
圖3 G1不怕踹、踢,關(guān)節(jié)靈活性高
H1 是在2024 年初時推出,可能是全球第一款可實(shí)現(xiàn)空翻的純電機(jī)驅(qū)動的人形機(jī)器人,動力性能非常強(qiáng)勁,也是用了“模仿學(xué)習(xí)+ 強(qiáng)化學(xué)習(xí)”的算法,因?yàn)檫@種機(jī)器人不太好控制,用傳統(tǒng)算法很難實(shí)現(xiàn)空翻(圖4)。通過“模仿學(xué)習(xí)+ 強(qiáng)化學(xué)習(xí)”,還實(shí)現(xiàn)了奔跑及跳舞等動作。
圖4 H1在做空翻
在這次展會現(xiàn)場,宇樹長時間地在演示這個技術(shù),可見穩(wěn)定性非常高。因?yàn)锳I 技術(shù)相對于別的技術(shù),最大的一個點(diǎn)就是它對硬件和對機(jī)器人的泛用性還是非常好的,哪怕硬件有一點(diǎn)點(diǎn)偏差,它還是可以有很穩(wěn)定的控制。
上述主要是基于深度相機(jī)的端到端深度強(qiáng)化學(xué)習(xí)。實(shí)際上,如果對于復(fù)雜地形也可以訓(xùn)練。包括對于四足機(jī)器人——它本身也可以2條腿走路,包括連續(xù)的空翻,也是基于模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)做的。這些功能早幾個月前,宇樹就已經(jīng)OTA 升級給全球客戶使用了。宇樹還推出了基于開源的遙操作數(shù)據(jù)采集系統(tǒng)(圖5)。因?yàn)槟壳癆I 技術(shù)基本上是數(shù)據(jù)驅(qū)動的,因此對人形機(jī)器人的數(shù)據(jù)采集是剛需的,所以宇樹做了一套比較簡單的輕量化的數(shù)據(jù)采集系統(tǒng)。但這還需要更多完善。
圖5 H1的遙操作
2024 年年中,宇樹在基于模仿學(xué)習(xí)和深度強(qiáng)化之上做了G1 的一些升級性動作(圖6)。
圖6 G1升級了一些高難動作
3 宇樹的下一步規(guī)劃
人們可能覺得宇樹的機(jī)器人現(xiàn)在已經(jīng)做得不錯了,但實(shí)際上要做的事情還非常多。
例如,目前這些動作基本上是每個動作單獨(dú)做AI訓(xùn)練的,但在很多場景下,人們還是希望一臺機(jī)器人可以自動切換所有的動作,而不需要人為地去切換動作,即一個通用AI機(jī)器人能做所有的事情。這也是通用AI希望達(dá)到的目標(biāo)。這也是用深度相機(jī)來做端到端訓(xùn)練的。
4 “深度強(qiáng)化學(xué)習(xí)”的近期發(fā)展方向
● 全身任意姿態(tài)或舞蹈等動作的模仿深度強(qiáng)化學(xué)習(xí)。
● 復(fù)雜地形下的全身任意穩(wěn)定運(yùn)動。
● 手部:對于復(fù)雜物品或零部件,有較復(fù)雜的靈巧操作?,F(xiàn)在全球范圍內(nèi)用模仿學(xué)習(xí)可以實(shí)現(xiàn)較大物體的操作,例如把水杯從一處拿到另一處。但是對于更精細(xì)一點(diǎn)的活兒還做不好,例如焊電路、穿針引線、打一個結(jié)等。但這些都是非常值得做的。
● 基于圖像或深度數(shù)據(jù)等感知數(shù)據(jù)的強(qiáng)化學(xué)習(xí)導(dǎo)航避障。
5 未來能做的激動人心的事:世界模型=AGI
● “世界模型”包括對時空和物理規(guī)律的理解再好高騖遠(yuǎn)一下,展望人形機(jī)器人能做的更加激動人心的一些事情。王興興看好“世界模型”,并認(rèn)為具身智能是實(shí)現(xiàn)“世界模型”的一個方向。不過需要指出的是,這可能不是宇樹目前能實(shí)現(xiàn)的,希望全球的從業(yè)者都能推動這件事情,而且這將是未來最激動人心的時刻。
“世界模型”包括機(jī)器人對自身時空的理解,以及對物理規(guī)律的理解。實(shí)際上,人們也知道現(xiàn)在的AI 技術(shù)對機(jī)器人的身體和對世界的理解是完全不夠的,例如對重力、摩擦力和接觸的理解是非常差的。如果有更好的AI能把機(jī)器人對自身的認(rèn)知和對環(huán)境的理解做出來,就可以大大推動整個機(jī)器人行業(yè)的進(jìn)步。
而且“世界模型”本身就是AGI 的一個方向,可能就是用來真正實(shí)現(xiàn)AGI 的。因?yàn)锳GI 最大的發(fā)展點(diǎn)是大部分人能做的事情它應(yīng)該都能做,包括開車、洗衣做飯、工廠工作。如果“世界模型”對世界本身有很好的建模,那么這種目標(biāo)就差不多要實(shí)現(xiàn)了。例如特斯拉的FSD(完全自動駕駛),“世界模型”對整個車輛和周邊環(huán)境都會有建模,包括對前車的速度判斷、撞擊等一些未來動作的預(yù)判,也會有好的建模和理解。
● 大模型的發(fā)展離不開“身體”
另一方面,很多做AI 的企業(yè),包括OpenAI,對大腦的重視程度非常高。但身體才是最重要的,因?yàn)榇竽X和身體是分不開的。
舉個簡單的例子,這也是王興興從小就非常困擾的一個問題:做夢的時候,為什么會突然感覺從懸崖上往下掉,或者在夢里為什么跑不快?這個問題在他本科的時候才想通,其實(shí)原因很簡單:人在睡覺的時候,大腦跟身體的感知是完全斷開的,你不能感知到身體的皮膚,也不能控制肌肉,所以你的大腦本身是沒有物理世界連接的。
所以在我們原本的認(rèn)知里,跑步時,我每跑一步腳都是要跟地面有接觸的,接觸以后你的大腦知道我接觸到地面了,我要邁另外一只腳。但是在我們做夢的時候,由于跟物理世界脫離了關(guān)系,你的大腦其實(shí)不知道你已經(jīng)踩到地面了,所以你永遠(yuǎn)感覺你的腳輕飄飄的,跑不快,沒辦法使力,所以這也是體現(xiàn)了目前的大的身體的重要性。包括為什么會覺得從懸崖上往下面掉,因?yàn)槟阍诟眢w斷開連接的時候,你其實(shí)并不知道你的身體跟床是接觸的,你覺得你是懸空的,所以你往下掉。這也回答了一個非常簡單的問題,就是為什么現(xiàn)在大語言模型會有幻覺?簡單地解釋就是目前的大語言模型活在夢里,對物理世界是脫離連接的——不能感受到自己的身體,也不能看到,也不能撞到頭部,也不能眨眼睛……。所以它整個的閉環(huán)跟物理世界的連接斷開以后,讓所有的大語言模式都是活在夢里。由于它是非常虛擬的,所以會有很多幻覺、不真實(shí)——它自己都不知道做的事情真不真。原因也非常簡單,例如有人在說夢話,如果你跟他說一句話,他也回答你的問題。但是說夢話的人所說的是稀里糊涂的,沒有邏輯可言。所以這也體現(xiàn)了身體的重要性。
● 人和動物“換腦”會如何?
王興興又分享一個有趣的想法,是他小時候非常喜歡的思考:人為什么比動物聰明?如果把人的大腦放到狗里,或者豬里,或者把豬的大腦放到人里,到底哪種結(jié)構(gòu)可以誕生更多的智能?
他一直在反思,這是受多方面的原因限制的,而且可能物理限制還會更多。例如他很懷疑:如果把一只猴子的大腦放到人的身上,Ta 照樣是可以說話的。
但是為什么猴子不能說話?原因非常簡單,其喉嚨和聲帶不支持它說話。舉個最簡單的例子,像鸚鵡的神經(jīng)元其實(shí)是比較少的,比較聰明、能說話的鸚鵡大概只有2~30 億的神經(jīng)元,但是猴子的神經(jīng)元跟它差不多,甚至猩猩的神經(jīng)元比它更多,但是為什么猩猩說不了話,而且只能發(fā)一些低級的聲音?可能人們猜測是聲帶的原因。這也可以解釋鸚鵡為什么能說話?因?yàn)樗芟矚g吃堅果,在吃堅果的過程中,它的喉嚨和舌頭鍛煉得非常靈活,所以它沒有物理限制。所以這也是很大層面上一些高等動物,諸如一些海豚、鯨等,是因?yàn)樗鼈兊穆晭拗屏怂鼈兊陌l(fā)聲。
表1 部分動物與人類的神經(jīng)元數(shù)量
所以除了純粹的AI,還需要:①對內(nèi),有身體,包括對視覺和身體的感知都非常重要,包括對實(shí)時的數(shù)據(jù)采集;②對外:對物理世界的了解,包括對一些碰撞、重力、摩擦力、光學(xué)等的理解。
● 人的輸出能力有潛力可挖
王興興還介紹了一個有趣的觀點(diǎn):目前人的數(shù)據(jù)輸出能力是非常弱的,而人的數(shù)據(jù)輸入能力非常強(qiáng),因?yàn)槿擞醒劬?,看一張圖片或視頻的時候,數(shù)據(jù)的輸入量非常大,至少每秒鐘幾百或幾千kB 的數(shù)據(jù)量。但是人輸出數(shù)據(jù)的能力其實(shí)非常弱,只能通過說話或者敲鍵盤。最頂尖的人敲鍵盤的速度大概可能也就1 秒幾個字而已——比特流是非常低的。所以如果有一種輸出設(shè)備諸如人機(jī)接口可以把人的數(shù)據(jù)輸出能力大大提升,這對人本身的智能提升,包括工作效率會有非常大的提升。而且這項(xiàng)技術(shù)可以通過不需要用大腦植入式的設(shè)備,只要在表皮能連接上一些神經(jīng)元就可實(shí)現(xiàn)。
所以如果有一些神經(jīng)學(xué)或生物醫(yī)療相關(guān)的朋友,沒準(zhǔn)可以試試這個方向?
王興興為什么愿意分享這個方向?因?yàn)樗X得自己沒有能力去做。歡迎有興趣、有能力的朋友去嘗試一下,或者與他一起去做這件事情。
另外他又分享了一個體驗(yàn):他小時候看一些電視劇,看到有些武林高手的耳朵是可以動的,就是他們的肌肉可以控制耳朵動,但是普通人實(shí)現(xiàn)不了。其實(shí)這個本領(lǐng)是可以鍛煉出來的。例如王興興在高中上英語課時總分心,有一段時間練習(xí)用想法控制腦袋殼上一塊肌肉的運(yùn)動,練習(xí)了好幾天,突然有一天就能控制那塊肌肉了!
未來,也許用外部的腦機(jī)接口直接連接/ 替掉一些神經(jīng)元,然后去鍛煉一下,就能作為很好的人機(jī)接口輸出。
● 比人類更高級的智能形態(tài)會什么樣?
現(xiàn)在和曾經(jīng)的AI 網(wǎng)絡(luò)是模仿人類的,但又不完全跟人類一樣。這就像飛機(jī)一樣,飛行原理是參考了鳥的飛行原理,但是跟鳥又不完全一樣。所以用計算機(jī)實(shí)現(xiàn)的智能形態(tài),跟人的智能形態(tài)多少還是會有差異的。
● AGI的黎明快要到來
在2024 年年初的時候,王興興預(yù)估在2025 年年底之前,在全球至少有一家實(shí)驗(yàn)室或公司可以把通用型的機(jī)器人AI模型給做出來。當(dāng)然不知道是哪一家,有可能是中國,也有可能是美國的公司或者實(shí)驗(yàn)室。
● 盡可能相信AI
有了生成式AI,當(dāng)下是迄今人類歷史上最激動人心的時刻。
● 跨尺度智能
除了跟人一樣大小的人形機(jī)器人,還可以做更小更小的人形機(jī)器人,也可以做更大的人形機(jī)器人。例如可以做細(xì)胞大小的人形機(jī)器人,可以做比如100 萬個,然后當(dāng)人生病的時候,只要把100 萬個人形機(jī)器人打到身體里面,就可以修復(fù)組織[1]。當(dāng)然這個概念還比較遙遠(yuǎn)。
參考文獻(xiàn):
[1] 最小行走機(jī)器人能做微觀測量[N].熊文苑,譯.參考消息.2024-12-8.
(本文來源于《EEPW》202412)
評論