具身智能當(dāng)中,動(dòng)作空間的異構(gòu)一致性問(wèn)題帶來(lái)的泛化瓶頸有解了! 清華智能產(chǎn)業(yè)研究院(AIR)團(tuán)隊(duì)聯(lián)合商湯研究院等機(jī)構(gòu)發(fā)布了首個(gè)基于通用動(dòng)作空間的具身基礎(chǔ)模型框架UniAct。 UniAct以視覺(jué)語(yǔ)言模型為核心,構(gòu)建了首個(gè)tokenized通用動(dòng)作空間,解決了具身智能中的通用動(dòng)作異構(gòu)一致性難題。 在多項(xiàng)權(quán)威評(píng)測(cè)中,UniAct都超越了參數(shù)量達(dá)14倍的頂尖對(duì)手OpenVLA。 目前,UniAct代碼與論文已開源。 制約智能體泛化的瓶頸 在人工智能領(lǐng)域,視覺(jué)、語(yǔ)言類基礎(chǔ)模型通過(guò)海量數(shù)據(jù)訓(xùn)練實(shí)現(xiàn)跨模態(tài)泛化,但具身智能的構(gòu)建卻因動(dòng)作空間的異質(zhì)性陷入瓶頸。 不同機(jī)器人(如機(jī)械臂、四足機(jī)器人、汽車)因物理形態(tài)、控制接口差異,其動(dòng)作指令在物理空間中呈現(xiàn)“不相交流形”,具體來(lái)說(shuō)可以體現(xiàn)在三個(gè)方面: 本體差異:機(jī)械臂的末端執(zhí)行器(EEF)位置與四足機(jī)器人的關(guān)節(jié)角度,物理含義截然不同; 控制接口多樣性:同一指令(如“抓取物體”)在不同機(jī)器人中可能轉(zhuǎn)化為EEF速度或關(guān)節(jié)扭矩; 多模態(tài)干擾:人類操作者的動(dòng)作風(fēng)格差異進(jìn)一步加劇數(shù)據(jù)沖突。 傳統(tǒng)方法嘗試通過(guò)微調(diào)或聚合異構(gòu)數(shù)據(jù)緩解問(wèn)題,但收效甚微。 多數(shù)研究被迫將異構(gòu)動(dòng)作空間“強(qiáng)行對(duì)齊”,導(dǎo)致相似編碼代表不同物理行為,甚至引發(fā)控制邏輯混亂。 從“通用原子行為”到“跨具身泛化” 團(tuán)隊(duì)提出的UniAct框架,以視覺(jué)語(yǔ)言模型(VLM)為核心,構(gòu)建了首個(gè)tokenized通用動(dòng)作空間。 UniAct通過(guò)三大創(chuàng)新實(shí)現(xiàn)突破。 一是通用動(dòng)作編碼,也就是將不同機(jī)器人的原子行為(如“移動(dòng)到目標(biāo)位置”“避開障礙物”)封裝為向量量化的codebook,每個(gè)token代表可跨機(jī)器人共享的通用技能。 這種設(shè)計(jì)既保留了動(dòng)作的物理因果性,又消除了異構(gòu)性 二是異質(zhì)解碼器,即針對(duì)不同機(jī)器人平臺(tái),通過(guò)輕量化解碼器添加本體感受特征(如關(guān)節(jié)力矩)或不同攝像頭視角下的圖像,將通用動(dòng)作轉(zhuǎn)換為可執(zhí)行指令。 例如,機(jī)械臂需EEF位置控制,而四足機(jī)器人需關(guān)節(jié)角度指令,解碼器可動(dòng)態(tài)適配。 三是輕量化架構(gòu),UniAct-0.5B模型僅用0.5億參數(shù),即在對(duì)現(xiàn)實(shí)與模擬機(jī)器人任務(wù)的測(cè)試中超越14億參數(shù)的OpenVLA,驗(yàn)證了通用動(dòng)作的高效性。 復(fù)雜場(chǎng)景下的“全能選手” 在包含大視角變化(如第三人稱轉(zhuǎn)第一人稱)和未見機(jī)器人類型(如雙臂機(jī)械臂)的測(cè)試中,UniAct展現(xiàn)了驚人的泛化能力。 UniAct憑借跨機(jī)器人遷移與復(fù)雜環(huán)境適應(yīng)能力,在真實(shí)世界和仿真環(huán)境的不同機(jī)械臂任務(wù)下,大幅提升任務(wù)成功率。 并且擁有極高的數(shù)據(jù)效率,僅需50條示教的機(jī)器人專用數(shù)據(jù)即可完成模型到新環(huán)境的微調(diào)。 在通用動(dòng)作異構(gòu)一致性上,通過(guò)大量的異構(gòu)數(shù)據(jù)預(yù)訓(xùn)練,UniAct框架也探索出了具有高度一致的通用動(dòng)作空間。 如下圖所示,同一個(gè)通用動(dòng)作表征可以在完全不同的部署場(chǎng)景和具身智能體上表現(xiàn)出一致的行為模式。 此外,高效的異構(gòu)解碼機(jī)制讓UniAct具備了可直接快速部署的通用動(dòng)作,為控制具身智能體提供了新的方式,通過(guò)從碼本中直接挑選通用動(dòng)作即可控制不同具身智能體完成指定的任務(wù),play with code! 作者表示,UniAct的突破為具身智能的Scaling Law探索提供新思路。
傳統(tǒng)方法依賴單一機(jī)器人數(shù)據(jù),而UniAct通過(guò)共享通用動(dòng)作空間,使模型能吸收全球眾包數(shù)據(jù)的精華,有望突破數(shù)據(jù)規(guī)模限制。 項(xiàng)目主頁(yè): 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。