你以為的宇樹機器人(H1): 實際上的宇樹機器人(G1):輕松來一個帥氣的科比投籃。 或者是像羅納爾多那樣華麗旋轉(zhuǎn)跳躍。 英偉達卡內(nèi)基梅隆大學一起,給宇樹機器人“一雪前恥”了(doge)。 只通過一個訓練框架,機器人就能成為“學人精”,完成各種高難度敏捷動作。 從這樣(下左圖)變成這樣(下右圖)。 △左圖演我做運動 要知道,由于仿真環(huán)境和真實物理世界之間的動力學系統(tǒng)存在偏差,讓機器人敏捷、協(xié)調(diào)地完成各種類人動作仍舊是一個巨大挑戰(zhàn)。 ASAP方法解決的正是這個問題,論文和代碼通通開源。 有人感慨,看來機器人時代距我們只有幾步之遙。 主創(chuàng)之一Jim Fan也表示:期待2030年“人形”奧運會吧。 顯著提高機器人靈活性和全身協(xié)調(diào)性 簡單總結(jié)論文核心提出了ASAP(Aligning Simulation and Real Physics,對齊模擬與真實物理)。 這個框架主要分為兩個階段。 第一階段,使用經(jīng)過調(diào)整的人類運動數(shù)據(jù)在模擬環(huán)境中預訓練運動跟蹤策略。 第二階段,將這些策略應用到真實世界,并收集真實數(shù)據(jù)來訓練一個“殘差”動作模型,用來彌補模型與真實世界物理動態(tài)之間的差距。 然后ASAP將預訓練的策略與差異動作模型結(jié)合,并在模擬器中進行微調(diào),以便更好地與真實世界物理動態(tài)對接。 具體步驟分為四步: 1、運動跟蹤預訓練與真實軌跡收集:通過將人類視頻中的運動數(shù)據(jù)轉(zhuǎn)換為類人機器人動作,我們在模擬環(huán)境中預訓練多個運動跟蹤策略,并生成真實世界的運動軌跡。 2、差異動作模型訓練:基于真實世界的運動數(shù)據(jù),我們訓練一個“差異動作模型”,通過最小化模擬狀態(tài)(s_t)和真實世界狀態(tài)(s^r_t)之間的差距來進行優(yōu)化。 3、策略微調(diào):我們固定差異動作模型,并將其集成到模擬器中,以調(diào)整模擬和真實物理之間的匹配,然后微調(diào)之前訓練好的運動跟蹤策略。 4、真實世界部署:最后,我們將微調(diào)過的策略直接應用到現(xiàn)實世界中,不再需要差異動作模型。 研究人員在三個遷移場景中評估了ASAP的效果—— 使用的機器人是宇樹G1人形機器人。 如上是從IsaacGym到IsaacSim,G1踢足球的四種不同動作。值得一提的是,ASAP在多個動作中訓練,不會過擬合特定示例。 從IsaacGym到IsaacSim,從IsaacSim到真實世界,ASAP微調(diào)前后G1運動跟蹤表現(xiàn)如上。 在特定動作(詹姆斯消音步)上,可以看到使用ASAP后,機器人的穩(wěn)定性更好了。 由此可以看到,G1能夠完成橫款大跳等有難度的運動動作,在姿態(tài)上也和人類更為貼近。 四位華人共同一作 最后來看下研究團隊陣容。 18位作者中絕大多數(shù)都是華人面孔。 共同一作有四位,分別是何泰然、高嘉偉、Wenli Xiao和Yuanhang Zhang。 其中何泰然本科畢業(yè)于上海交通大學,現(xiàn)在是英偉達GEAR的一員,之前還在MSRA實習過。 高嘉偉本科畢業(yè)于清華大學,現(xiàn)在還在申請博士。 Wenli Xiao也是英偉達GEAR的一員。Yuanhang Zhang本科畢業(yè)于上海交通大學,現(xiàn)在在CMU讀研。 One More Thing 雖然動作表現(xiàn)更擬人了,但是宇樹機器人還是沒逃過跳舞的命運…… 請欣賞宇樹版APT。 (統(tǒng)治人類后又多了一段要刪除的黑歷史) 項目地址: 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選