首頁(yè) > 科技要聞 > 科技> 正文

稚暉君搞了個(gè)“好東西”,網(wǎng)上的視頻也能拿來(lái)訓(xùn)練機(jī)器人了。

差評(píng)編輯部 整合編輯:太平洋科技 發(fā)布于:2025-03-11 14:58

上周五,稚暉君不是在微博淺淺預(yù)告了一波 “ 好東西 ” 嘛。

這不剛周一,智元機(jī)器人馬上就把熱乎的抬上來(lái)了。

機(jī)器人給你端茶倒水、煮咖啡。

把面包放進(jìn)面包機(jī)、給烤好的面包涂抹果醬,再把面包端到你面前,整套動(dòng)作一氣呵成。

還能在公司當(dāng)前臺(tái),充當(dāng)一把迎賓。

就是吧,見(jiàn)多了各種人形機(jī)器人的視頻之后,世超對(duì)這種程度的展示,已經(jīng)見(jiàn)怪不怪了。

所以單單這些演示,還不足以能稱之為好東西。智元機(jī)器人這次發(fā)布的基座大模型 GO-1 ( Genie Operator-1 ),才是真正值得拿出來(lái)嘮一嘮的好東西。

這么說(shuō)吧,這個(gè)基座大模型,讓困擾了人形機(jī)器人許久的數(shù)據(jù)匱乏、泛化能力差的問(wèn)題,又有了更高效的解法。

大伙兒可能也知道,現(xiàn)階段的人形機(jī)器人之所以看起來(lái)很拉胯,很重要的原因之一,就是缺乏高質(zhì)量的數(shù)據(jù)。

而獲得這些數(shù)據(jù)的成本,同樣也非常高。

為了解決這個(gè)行業(yè)難題,去年底,智元機(jī)器人就已經(jīng)開(kāi)源了百萬(wàn)真機(jī)數(shù)據(jù)集 AgiBot World 。

AgiBot World 的數(shù)據(jù)都來(lái)自于智元的數(shù)據(jù)采集工廠,里面搭了不少模擬真實(shí)場(chǎng)景,數(shù)據(jù)采集師每天的任務(wù),就是教機(jī)器人怎么執(zhí)行某項(xiàng)任務(wù)。

根據(jù)官方的說(shuō)法, AgiBot World 涵蓋了超過(guò) 100 萬(wàn)條軌跡、 217 個(gè)任務(wù)和 106 個(gè)場(chǎng)景。但即便是這個(gè)量級(jí)的數(shù)據(jù),對(duì)于機(jī)器人來(lái)說(shuō)仍然是杯水車薪,而且,也沒(méi)辦法解決機(jī)器人泛化能力差的問(wèn)題。

所以,智元機(jī)器人才在 AgiBot World 的基礎(chǔ)上,又提出了新的 ViLLA ( Vision-Language-Latent-Action )架構(gòu)。這個(gè)架構(gòu),就是 GO-1 大模型的核心。

世超去翻了翻智元機(jī)器人發(fā)布的論文,簡(jiǎn)單用大白話給大伙兒介紹一下,這 ViLLA 到底牛在哪。

首先在數(shù)據(jù)上, ViLLA 架構(gòu)就沒(méi)那么挑。

根據(jù)官方的介紹, ViLLA 架構(gòu)是由 VLM ( 多模態(tài)大模型 ) 和 MoE ( 混合專家 ) 組成。

傳統(tǒng)的 VLA 架構(gòu),結(jié)合了 VLM 和端到端的特點(diǎn),所以這種架構(gòu)需要大量標(biāo)注過(guò)的真機(jī)數(shù)據(jù)來(lái)訓(xùn)練,又費(fèi)錢(qián)又費(fèi)力,而且數(shù)據(jù)量還少。

ViLLA 雖說(shuō)本質(zhì)上還是 VLA 架構(gòu),但它強(qiáng)就強(qiáng)在,互聯(lián)網(wǎng)上的那些人類視頻數(shù)據(jù)它也能用。。。

也就是說(shuō),基于 GO-1 大模型的機(jī)器人,理論上只要 “ 看過(guò) ” 視頻,就能學(xué)會(huì)相對(duì)應(yīng)的動(dòng)作。

至于其中的原因,世超覺(jué)著很大概率要?dú)w功于 “ 潛在動(dòng)作 ” ( Latent Actions )。

咱還是拿 VLA 作為對(duì)比, VLA ( Vision Language Action )架構(gòu),在執(zhí)行任務(wù)的時(shí)候是這么個(gè)流程:輸入圖像和語(yǔ)言指令,機(jī)器人再根據(jù)這些信息,生成并執(zhí)行指定動(dòng)作?此坪(jiǎn)單粗暴,但稍微遇到點(diǎn)復(fù)雜的任務(wù),機(jī)器人就會(huì)變成看得懂也聽(tīng)得懂,但是做不好甚至于做不到。

舉個(gè)例子,咱們讓機(jī)器人( VLA 架構(gòu) )做一杯咖啡,機(jī)器人能看到咖啡機(jī)在哪,也能聽(tīng)得懂我要它做咖啡。

但是, VLA 架構(gòu)下的機(jī)器人要直接從 “看到了咖啡機(jī) ” “ 聽(tīng)懂了要做咖啡 ” ,一下子想清楚所有步驟,然后馬上動(dòng)手,中間沒(méi)有思考的過(guò)程。

DeepMind 的 VLA 模型 RT-2

問(wèn)題就在于,泡咖啡其實(shí)中間有很多小步驟,比如找到咖啡豆,打開(kāi)咖啡機(jī),按下開(kāi)關(guān),就算是人來(lái)了,都得想一下要先干嘛再干嘛。

更何況是 “ 一根筋 ” 的 VLA 架構(gòu),讓它處理中間這些復(fù)雜的步驟,多少有點(diǎn)為難它了。

但 ViLLA 架構(gòu),引入了兩位 “ 專家 ” :隱式規(guī)劃器( Latent Planner )和動(dòng)作專家( Action Expert )。

這兩位專家不僅能讓機(jī)器人想得更多,而且能做的事情也變多了。

專有名詞看不懂沒(méi)關(guān)系,咱繼續(xù)舉例子。

假設(shè)現(xiàn)在輸入一段視頻,是一個(gè)人拿起杯子喝水。

VLM 多模態(tài)大模型會(huì)先把視頻處理了,接著潛在動(dòng)作模型( Latent Action Model ),會(huì)把那些復(fù)雜的視頻動(dòng)作,拆解成幾個(gè)關(guān)鍵步驟,比如 “ 抓取 ” 、 “ 移動(dòng) ” 和 “ 喝水 ” 。

但光到這一步還不夠,隱式規(guī)劃器( Latent Planner )要繼續(xù)把關(guān)鍵步驟進(jìn)行加工,生成更詳細(xì)的步驟: “ 抓取(杯子),移動(dòng)(杯子到嘴邊),飲用 ” 。最后,動(dòng)作專家( Action Expert )出場(chǎng),把這些步驟全都轉(zhuǎn)換成機(jī)器人能理解的信號(hào),讓機(jī)器人執(zhí)行動(dòng)作。

所以 ViLLA 架構(gòu)在執(zhí)行復(fù)雜任務(wù)時(shí)的表現(xiàn),要比 VLA 更出色,也更能適應(yīng)當(dāng)下人形機(jī)器人的訓(xùn)練需求。

而且世超還注意到, ViLLA 架構(gòu)并不依賴具體的硬件。

換句話說(shuō), VLA 架構(gòu)是根據(jù)特定的機(jī)器人本體、特定場(chǎng)景,來(lái)生成動(dòng)作信號(hào),而 ViLLA 架構(gòu)生成的是 “ 抓取 ” “ 移動(dòng) ” 這種通用動(dòng)作標(biāo)記,任務(wù)泛化能力更好,也更容易遷移到其他機(jī)器人平臺(tái)。

給大伙兒一句話總結(jié)就是,GO-1 讓機(jī)器人能從互聯(lián)網(wǎng)的人類視頻數(shù)據(jù)中學(xué)習(xí),并且多了拆解任務(wù)的能力,提高復(fù)雜任務(wù)成功率的同時(shí),泛化能力也變強(qiáng)了。如果 GO-1 的效果真的像官方描述的那樣,那么這對(duì)于整個(gè)人形機(jī)器人行業(yè)來(lái)說(shuō),或許都是一個(gè)好消息。

數(shù)據(jù)不愁,還不挑平臺(tái),這機(jī)器人訓(xùn)練起來(lái)可就順手多了。就是不知道這個(gè) GO-1 ,智元會(huì)不會(huì)選擇繼續(xù)開(kāi)源。

聽(tīng)說(shuō),智元機(jī)器人明天還要放出個(gè)驚喜,咱們等一手好吧。

本文來(lái)源:差評(píng)

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類:破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類小家電,漢美馳是這個(gè)品類的開(kāi)創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷量超過(guò)3000萬(wàn)臺(tái),是這個(gè)品類的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專訪漢美馳中國(guó)營(yíng)銷中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 極氪“流血”上市,最急的是埃安、哪吒?jìng)?

    在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。

    劉凡 劉凡 2024-05-11 11:26
    極氪   吉利   哪吒   埃安
  • 二維碼 回到頂部
    国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av