首頁 > 科技要聞 > 科技> 正文

怎么剛開工, 我就看到宇樹的機器人在模仿科比?

差評 整合編輯:太平洋科技 發(fā)布于:2025-02-11 21:50

要說今年過年最出風頭的科技企業(yè),那除了整天服務器繁忙的 DeepSeek ,估計就得數(shù)宇樹科技了。

就是春晚上拿機器人扭秧歌的那個。

看著挺牛逼是吧,結果年才過了沒幾天,大正月的他們又整出個新活,英偉達、卡內基梅隆大學團隊用宇樹 G1 研究出來一個項目,拿機器人復刻科比。。。

看看這動作,這后仰跳投,是不是還挺有那味的?

別說你是詹蜜,經典的霸王步人家也學了。

有差友可能會問,我是年輕人,不懂規(guī)矩,不看球也不看 nba ,我咋能知道這機器人到底什么水平呢?

也別慌,各位熟知的 “NBA 大使 ” 的經典鐵山靠,人家也能學。。。

有一說一,給機器人編程早就不是啥新鮮事了,你坤哥這種招牌動作,粉絲內部甚至還有用簡單機械機構就能實現(xiàn)的。所以宇樹這次要是只能復刻這種的話,那還算不上啥科技狠活。

那么這波這個展示真正牛波兒的地方在哪呢,大過年的人家總不會就是為了唱跳 rap 打籃球吧。

于是哥們去翻了翻人家的論文,才發(fā)現(xiàn)這里面還真暗藏玄機,人家這一手看似是全明星模仿,實際上是機器人訓練技術的一個重大突破。

至于咱為啥這么說,那就得先聊聊現(xiàn)在的機器人是咋訓練的。

眾所周知,機器人這玩意甭管外表多酷炫,骨子里還是算法在跑。

所以你要想讓一個機器人學會打籃球的話,最簡單的辦法就是先測量出機器人的各方面數(shù)據(jù),比如關節(jié)扭矩、連桿質量分布啥的;再拿這些數(shù)據(jù)去搞個動力學建模,就是在電腦里模擬機器人的運動。

不過這塊兒就得人工一點點調整各種參數(shù),像機器人的手臂力量、投籃角度等等。這套 “ 私人訂制 ” 的玩法,在專業(yè)領域有個更唬人的名字,叫系統(tǒng)識別 ( System Identification , 簡稱SysID ) 。

但問題在于,要一點點把各種參數(shù)都調到完美,這是個特別肝的活兒,需要大量時間,還得是專業(yè)人士才能搞;

而且就算你在模擬器里調好了,現(xiàn)實里也不一定就是那么回事兒。就好比你在 NBA 2K 里練出一代喬丹,但上了真球場,可能連球都運不利索。

虛擬世界再真,跟現(xiàn)實的參數(shù)維度也不是一個量級的,像什么籃球的手感、彈性,空氣阻力、風向風速,甚至其他球員的肘擊,模型都沒法面面俱到。

所以這種傳統(tǒng) SysID 搞出來的機器人,在實驗室里看著花拳繡腿,一到真實場景,就像我愛發(fā)明里面的人機對抗一樣,要開始拉了。

既然真實環(huán)境這么復雜,有的科學家就開始反向操作了:與其死磕完美模型,不如直接把機器人丟進各種 “ 奇葩 ” 環(huán)境里去練級。

比如有時候地面很滑,有時候籃球很重,有時候籃筐很高。。。反正就讓機器人在各種極端條件下自己迭代,找到最優(yōu)策略。

這種騷操作,有個聽起來玄乎的名字,叫域隨機化 ( Domain Randomization , 簡稱DR )

聽著好像有點道理,可這也有問題。這種方法就跟 “ 盲人摸象 ” 似的,機器人就算見識了各種情況,但要總結出真正的規(guī)律還是很難,而且很容易 “ 用力過猛 ” 。

再加上為了適應各種極端情況,機器人就得求穩(wěn),于是動作就很保守、不靈活,比如運球的時候總是小心翼翼的,投籃的時候不敢放開手腳。

一句話,這些傳統(tǒng)方法訓練機器人,要么全靠建模調參,費時費力;要么動作僵硬緩慢,沒法完成復雜動作,純純擺件。

可要想讓機器人真的參與到生活里,不說代替咱們打工,起碼像人一樣的靈活性總得有吧,要是多少都沾點人工智障,那不白期待了嘛。

那么宇樹這波到底是咋做到讓機器人這么靈敏的呢,重點來了。

論文里說,他們用了一個叫ASAP ( Aligning Simulation and Real Physics ,對齊模擬與真實物理框架 )的東西。

按文章里的說法,這個技術要先 “ 利用這些經過處理的人類運動數(shù)據(jù)在仿真環(huán)境中訓練一個基于相位的運動跟蹤策略 ” ,再 “ 通過強化學習訓練一個殘差動作模型補償仿真與現(xiàn)實之間的差異 ” 。

聽起來很繞,但你先別急,這玩意的實際思路還挺簡明的,其實就是把咱上面說的傳統(tǒng)功夫,用化勁整合起來,搞了個機器人訓練速成班。

簡單來說,這個速成班分兩步走,咱先說第一步:就是給機器人打基礎,搞模擬預習。

而要搞預習,你得有教材。這里就是要先下載一堆視頻,打籃球的也行,其他視頻也行,重點是視頻里得有人;

然后通過一個叫 TRAM 的運動重建工具,把視頻里面的人類動作都扒出來,轉換成三維運動軌跡,這樣機器才能看得懂這些動作;完事再把這些動作放到一個虛擬環(huán)境里來訓練,目的是讓機器人學會精確模仿視頻里的動作數(shù)據(jù)。

拿打籃球這個動作來說,你得先找一堆打球視頻,記錄下運球、投籃的動作,把這些動作數(shù)據(jù)處理好,再把這些數(shù)據(jù)扔到模擬器里,讓機器人先在模擬器里云練球,相當于先做好模擬再考試。

所以速成班的第二步就得真槍實彈的來,三年模擬完了,是時候五年高考了。

雖然之前的數(shù)據(jù)已經是從現(xiàn)實中提取的了,但等到機器人被拉到真球場上的時候,它就會發(fā)現(xiàn)云玩家還是差點意思,真實環(huán)境里的位置、速度、加速度、關節(jié)角度等數(shù)據(jù),跟仿真里還是有一定差別。

于是這時候工程師就會利用機器人身上的傳感器收集這些數(shù)據(jù),再把這些數(shù)據(jù)跟之前在虛擬環(huán)境里訓練的數(shù)據(jù)對比,用強化學習搞一個誤差修正模型出來,這個就是所謂的殘差( delta )動作模型。

有了這個殘差動作模型,這下機器人在模擬器里的運動,就跟在現(xiàn)實里大差不差了,然后工程師再把當中的少量參數(shù)微調一下,機器人就能做到跟視頻里人類運球一樣敏捷流暢了。

但你要把這個 ASAP 框架的兩步放一起看,就會發(fā)現(xiàn)這玩意搞的效果雖然看著挺牛逼的,比傳統(tǒng)方案練出來的機器人好多了,但思路其實跟咱上面說的傳統(tǒng)訓練思路差的沒那么大。

原理也很簡單嘛,純建模訓練不真實還費時間,純現(xiàn)實訓練動作不靈活,那把這兩個方案結合起來:

用現(xiàn)實數(shù)據(jù)去幫助建模,再把建模的成功放在現(xiàn)實里校正,虛實結合,不就兩難自解~

實際上,這種用現(xiàn)實數(shù)據(jù)搞虛擬建模,再把在虛擬建模里完成的工程搬到現(xiàn)實,其實也算是很英偉達的操作了。

之前他們就有一個 Cosmos 平臺,號稱是世界模型,目的就是像這次這樣把現(xiàn)實里的物理現(xiàn)象搬到電腦里去模擬,這樣就能大大節(jié)省工程師們的研發(fā)時間。

這玩意對機器人、 AI 、自動駕駛啥的意義都挺大,畢竟這可就不用再像以前一樣戴著各種傳感器,花那么多時間慢慢搜集現(xiàn)實數(shù)據(jù)。

訓練時長大幅縮短,結果最后訓練效果還更好了,這不妥妥的黑科技嘛。

哦對了,最后還有一個彩蛋:今天這篇論文的主要作者,英偉達 GEAR 團隊成員、現(xiàn)在在卡內基梅隆大學留學的 B 站 up 主何泰然,他小時候的夢想還真就是造一個電影《 鐵甲鋼拳 》( 設定是人類操控機器人打拳 )里的機器人。

對一個理工男來說,把兒時的夢想變成現(xiàn)實,我覺得這太酷了。

本文來源:差評

網友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部
国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av