機器人版科比、詹皇、C羅真的來了! 只見「科比」后仰跳投,在賽場上大殺四方。 「C羅」和「詹姆斯」也紛紛展示了自己的招牌慶祝動作。 以上這些還只是開胃菜,這款人形機器人還會側跳、前跳、前踢、右踢,甚至能夠完成深蹲、腿部拉伸等高難度動作。 更驚艷的是,它還會跳APT舞,非常嗨皮。 比起波士頓動力Altas,如今人形機器人早已進化到人們難以想象的樣子。正如Figure創(chuàng)始人所言,人形機器人iPhone時刻即將到來。 那么,能夠成為「機器人界的科比」,究竟是用了什么魔法? 來自CMU和英偉達的華人研究團隊重磅提出ASAP,一個「real2sim2real」模型,能讓人形機器人掌握非常流暢且動感的全身控制動作。 項目主頁:https://agile.human2humanoid.com/ 論文地址:https://arxiv.org/abs/2502.01143 開源項目:https://github.com/LeCAR-Lab/ASAP 它包含了兩大階段——預訓練和后訓練。 在第一個階段中,通過重定向的人體數據,在仿真環(huán)境中預訓練運動跟蹤策略。 在第二階段,將這些策略部署到現實世界,并收集真實世界數據,訓練一個delta動作模型,來彌補動力學差異。 然后,ASAP把這個delta動作模型集成到仿真器中,對預訓練策略進行微調,讓它和現實世界的動力學更匹配。 英偉達高級研究科學家Jim Fan激動地表示,我們通過RL讓人形機器人成功模仿C羅、詹姆斯和科比! 這些神經網絡模型,正在英偉達GEAR實驗室的真實硬件平臺上運行。 在網上看到的多數機器人演示視頻都是經過加速處理的,而我們特意「放慢動作速度」,讓你能清晰觀賞每個流暢的動作細節(jié)。 我們提出的ASAP模型采用了「真實→仿真→真實」方法,成功實現了人形機器人全身控制所需的超平滑動態(tài)運動。 我們首先在仿真環(huán)境對機器人進行預訓練,但面臨眾所周知的仿真與現實差距:人工設計的物理方程難以準確模擬真實世界的動力學特性。 我們的解決方案簡明有效:將預訓練策略部署到實體機器人采集數據,隨后在仿真環(huán)境回放動作記錄。雖然回放過程必然產生偏差,但這些誤差恰恰成為修正物理差異的關鍵數據源。通過額外神經網絡學習差異參數,本質上是對傳統物理引擎進行「動態(tài)校準」,使機器人能依托GPU的并行計算能力,在仿真環(huán)境中獲得近乎真實的大規(guī)模訓練體驗。 未來屬于混合仿真時代:既繼承經典仿真引擎數十年錘煉的精準優(yōu)勢,又融合現代神經網絡捕捉復雜現實世界的超凡能力,實現兩者的協同進化。 一直以來,sim2real是實現空間與具身智能的主要路徑之一,被廣泛應用在機器人仿真評估當中。 而real2sim2real直接打破了繁瑣的動作微調的難題,彌合sim2real的差距,讓機器人能夠模仿各種類人的動作。 Jim Fan對此暢想道,2030年的人形機器人奧運會一定會是一場盛宴! 有網友期待地表示,真想看看它們打拳擊的表現。 ASAP,機器人奧運會不遠了 由于仿真環(huán)境和現實世界的動力學差異,人形機器人想實現敏捷又協調的全身運動仍是巨大的挑戰(zhàn)。 現有方法,如系統識別(SysID)和域隨機化(DR)通常要花大量時間調整參數,或者生成的策略過于保守,動作不夠敏捷。 本文提出了ASAP(Aligning Simulation and Real Physics)是一個兩階段框架,旨在解決動力學不匹配問題,實現敏捷的人形機器人全身動作。 ASAP實現了許多以前很難做到的高難度動作,展現出delta動作學習在縮小仿真與現實動力學差距方面的潛力。 ASAP為「sim-to-real」提供了一個很有前景的方案,為開發(fā)更靈活、更敏捷的人形機器人指明了方向。 ASAP具體步驟如下: 運動跟蹤預訓練與真實軌跡收集:先從真人視頻中提取動作并重定向到機器人上,預訓練多個運動跟蹤策略,生成真實世界的運動軌跡。 Delta動作模型訓練:基于真實世界軌跡數據,訓練Delta動作模型,縮小仿真狀態(tài)與真實世界狀態(tài)之間的差異。 策略微調:Delta動作模型訓練完成后,將其集成到仿真器中,使仿真器能匹配真實世界的物理特性,隨后對之前預訓練的運動跟蹤策略進行微調。 真實世界部署:最后,直接在真實環(huán)境中部署微調后的策略,此時就不再需要Delta動作模型了 。 兩階段:預訓練+后訓練 ASAP包含兩個階段:預訓練階段和后訓練階段。 在預訓練階段,研究團隊將真人運動視頻作為數據來源,在仿真環(huán)境中訓練動作跟蹤策略。 先將這些運動數據重定向到人形機器人上,然后訓練一個基于相位條件的運動跟蹤策略,讓機器人模仿重定向后的動作。然而,如果將這一策略部署到真實硬件上,由于動力學差異,機器人的性能會下降。 為解決這一問題,在后訓練階段需要收集真實世界的運行數據,包括本體感知狀態(tài),以及由動作捕捉系統記錄的位置信息。隨后,在仿真環(huán)境中回放這些數據,動力學差異就會以跟蹤誤差的形式表現出來。 接著,訓練一個delta動作模型,通過縮小真實世界和仿真狀態(tài)的差異,學習如何補償這些偏差。這個模型實際上是動力學誤差的修正項。 最后,研究者借助delta動作模型對預訓練的策略進行微調,使其能夠更好地適應真實世界的物理環(huán)境,從而實現更穩(wěn)定、敏捷的運動控制。 總的來說,這項研究的貢獻如下: 提出ASAP框架:運用強化學習和真實世界的數據來訓練delta動作模型,有效縮小了仿真與現實之間的差距。 成功在真實環(huán)境部署全身控制策略,實現了不少以前人形機器人難以做到的動作。 仿真和現實環(huán)境中的大量實驗表明,ASAP能夠有效減少動力學不匹配問題,讓機器人做出高度敏捷的動作,同時顯著降低運動跟蹤誤差。 為了促進不同仿真器之間的平滑遷移,研究者開發(fā)并開源了一個多仿真器訓練與評估代碼庫,以加快后續(xù)研究。 評估 評估中,研究人員針對三種策略遷移進行了廣泛的實驗研究:IsaacGym到IsaacSim、IsaacGym到Genesis,以及 IsaacGym到真實世界的Unitree G1人形機器人。 接下來,他們一共回答了三個問題。 Q1:ASAP能否優(yōu)于其他基線方法,以補償動力學失配問題?表III中的定量結果表明,ASAP在所有重放動作長度上都持續(xù)優(yōu)于OpenLoop基線,實現了更低的Eg-mpjpe和Empjpe值,這表明與測試環(huán)境軌跡的對齊程度更好。 雖然SysID有助于解決短期動力學差距,但由于累積誤差的增加,它在長期場景中表現不佳。 DeltaDynamics在長期場景中相比SysID和OpenLoop有所改進,但存在過擬合問題,這從下圖5中隨時間放大的級聯誤差可以看出。 然而,ASAP通過學習有效彌合動力學差距的殘差策略,展示出了優(yōu)越的泛化能力。 同時,作者在Genesis模擬器中也觀察到了類似的趨勢,ASAP相對于基線在所有指標上都取得了顯著改進。 這些結果強調了學習增量動作模型,在減少物理差距和改善開環(huán)重放(open-loop replay)性能方面的有效性。 Q2:ASAP能否在策略微調方面,優(yōu)于SysID和Delta Dynamics?為了解決問題2,研究人員評估了不同方法在微調強化學習策略,以提高測試環(huán)境性能方面的有效性。 如表IV所示,ASAP在兩個模擬器(IsaacSim和Genesis)的所有難度級別(簡單、中等和困難)中都持續(xù)優(yōu)于Vanilla、SysID和DeltaDynamics等基線方法。 對于簡單級別,ASAP在IsaacSim(Eg-mpjpe=106和Empjpe=44.3)和Genesis(Eg-mpjpe=125和Empjpe=73.5)中都達到了最低的Eg-mpjpe和Empjpe,同時具有最小的加速度(Eacc)和速度(Evel)誤差。 在更具挑戰(zhàn)性的任務中,如困難級別,最新方法的表現依舊出色,顯著降低了運動跟蹤誤差。 例如,在Genesis中,它實現了Eg-mpjpe=129和Empjpe=77.0,大幅優(yōu)于SysID和DeltaDynamics。 此外,ASAP在兩個模擬器中始終保持100%的成功率,而DeltaDynamics在更困難的環(huán)境中的成功率較低。 為了進一步說明ASAP的優(yōu)勢,研究人員在圖7中提供了逐步可視化比較,對比了ASAP與未經微調直接部署的強化學習策略。 這些可視化結果表明,ASAP成功適應了新的動力學環(huán)境并保持穩(wěn)定的跟蹤性能,而基線方法則隨時間累積誤差,導致跟蹤能力下降。 這些結果突顯了,新方法在解決仿真到現實差距方面的魯棒性和適應性,同時防止過擬合和利用。 研究結果驗證了ASAP是一個有效的范式,可以提高閉環(huán)性能并確保在復雜的現實場景中可靠部署。 Q3:ASAP是否適用于sim2real遷移?針對第三個問題,研究人員在真實的Unitree G1機器人上驗證了ASAP的有效性。 由于傳感器輸入噪聲、機器人建模不準確和執(zhí)行器差異等因素,仿真到現實的差距比模擬器之間的差異更為顯著。 為了評估ASAP在解決這些差距方面的有效性,他們在兩個代表性的運動跟蹤任務(踢腿和「Silencer」)中比較了ASAP與Vanilla基線的閉環(huán)性能,這些任務中存在明顯的仿真到現實差距。 為了展示所學習的增量動作模型對分布外運動的泛化能力,作者還對勒布朗·詹姆斯「Silencer」動作進行了策略微調,如圖1和圖8所示。 結果表明,ASAP在分布內和分布外的人形機器人運動跟蹤任務中都優(yōu)于基線方法,在所有關鍵指標(Eg-mpjpe、Empjpe、Eacc和Evel)上都實現了顯著的跟蹤誤差減少。 這些發(fā)現突顯了ASAP在改進敏捷人形機器人運動跟蹤的仿真到現實遷移方面的有效性。 再接下來,研究人員就三個核心問題來全面分析ASAP。 首先是,如何最好地訓練ASAP的增量動作模型? 具體來說,他們研究了數據集大小、訓練時域和動作范數權重的影響,評估它們對開環(huán)和閉環(huán)性能的影響,如下圖10所示,給出了所有因素下的實驗結果。 其次,如何最好地使用ASAP的增量動作模型? 如下圖11所示,強化學習微調在部署過程中實現了最低的跟蹤誤差,優(yōu)于免訓練方法。 兩種無強化學習的方法都具有短視性,并且存在分布外問題,這限制了它們在現實世界中的適用性。 Q6:ASAP為什么有效以及如何發(fā)揮作用?研究人員驗證了ASAP優(yōu)于基于隨機動作噪聲的微調,并可視化了Delta動作模型在各個關節(jié)上的平均輸出幅度。 調整噪聲強度參數,能降低全局跟蹤誤差(MPJPE)。 圖13可視化了在IsaacSim訓練得到的Delta動作模型的平均輸出,結果揭示了不同關節(jié)的動力學誤差并不均勻。踝關節(jié)和膝關節(jié)的誤差最顯著。 作者介紹 Tairan He(何泰然)共同一作Tairan He是卡內基梅隆大學機器人研究所的二年級博士生,由Guanya Shi(石冠亞)和Changliu Liu(劉暢流)。同時,也是NVIDIA GEAR小組的成員,該小組由Jim Fan和Yuke Zhu領導。 此前,他在上海交通大學獲得計算機科學學士學位,導師是Weinan Zhang(張偉楠)。并曾在微軟亞洲研究院工作過一段時間。 他的研究目標是打造能改善每個人生活質量的機器人;重點是如何為機器人構建數據飛輪,使其獲得媲美人類的運動能力和語義理解能力,以及如何讓機器人既能安全可靠,又能靈活適應各種環(huán)境,具備通用性和敏捷性來完成各類實用任務;采用的是隨計算能力和數據規(guī)模擴展的機器學習方法。 Jiawei Gao(高嘉偉)共同一作Jiawei Gao目前就讀于CMU。他曾獲得了清華學士學位,曾與Gao Huang教授、Jiangmiao Pang博士、Guanya Shi教授合作,參與了強化學習算法及其在機器人領域應用的相關項目。 他一直在思考人類智能的起源,以及如何構建能夠像人類一樣學習和推理的機器。為此,他希望致力于研究通用決策算法,使機器能夠在復雜的物理世界中進行交互、學習和適應。 除了研究興趣外,Jiawei Gao也熱衷于歷史、哲學和社會學。個人學習鋼琴已有十年,是西方古典音樂的忠實愛好者,貝多芬和馬勒是我最喜歡的作曲家。同時,他也喜歡旅行和攝影。 Wenli Xiao共同一作Wenli Xiao是卡內基梅隆大學機器人研究所(MSR)的碩士生,由Guanya Shi教授和John Dolan教授指導。 他目前在NVIDIA GEAR實驗室擔任研究實習生,與Jim Fan博士和Yuke Zhu教授一起研究人形機器人基礎模型。 此前,他在香港中文大學(深圳)獲得電子信息工程專業(yè)學士學位。 Yuanhang Zhang(張遠航)共同一作Yuanhang Zhang目前是CMU機器人研究所(CMU RI)的碩士生,目前在LeCAR Lab研究,導師是Guanya Shi教授。 此前,他曾在上海交通大學獲得了工學學士學位,期間Hesheng Wang教授Danping Zou教授指導。 本科期間,他擔任SJTU VEX 機器人俱樂部的編程組負責人,并參與了無人車(UV)和無人機(UAV)相關的各類競賽。 他的研究興趣包括機器人學、機器學習和最優(yōu)控制。目前,他本人的研究方向是人形機器人和空中操控。 參考資料: https://x.com/DrJimFan/status/1886824152272920642 https://agile.human2humanoid.com/ 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網友評論
聚超值•精選