首個(gè)真正意義上具備復(fù)雜交互能力的機(jī)器人,出現(xiàn)了。 它的創(chuàng)造者就是此前從華為離職的天才少年——曾經(jīng)帶著各種硬核DIY作品火遍全網(wǎng)的男人——稚暉君。 3月11日,智元機(jī)器人聯(lián)合創(chuàng)始人稚暉君(彭志輝)發(fā)布視頻稱,這鴿了2年之后,第一次正兒八經(jīng)地更新視頻。 在視頻中,他正式介紹了智元最新研發(fā)的雙足智能交互人形機(jī)器人——靈犀 X2。 除了常規(guī)的行走、跑、跳,X2還點(diǎn)滿了運(yùn)動(dòng)天賦,不僅能舉重蹲起,還能踩滑板車,甚至還能自己騎自行車。 有“人味兒”的機(jī)器人 作為 X1 的“全能小老弟”,靈犀X2同樣是由智元半年前成立的機(jī)器人實(shí)驗(yàn)室 X-Lab 打造出來的,而且從X1到X2的研發(fā),僅用了三個(gè)月。 和之前發(fā)布的原型機(jī)器人X1一樣,X2全身一共28個(gè)自由度,體重為33.8千克,身高1.3米左右,當(dāng)然,X2的本體設(shè)計(jì)還新加入了大量的技術(shù)創(chuàng)新思考。 比如,重新設(shè)計(jì)的機(jī)電關(guān)節(jié)模組,在全身28個(gè)的自由度中,沒有使用到任何一個(gè)并聯(lián)結(jié)構(gòu),這就意味著能實(shí)現(xiàn)傳動(dòng)鏈的完全解耦。 X2 還將機(jī)器人的硬件系統(tǒng)抽象為一系列可復(fù)用的核心組件,包括小腦控制器 Xyber-Edge、域控制器 Xyber-DCU、智能電源管理系統(tǒng) Xyber-8MS,以及經(jīng)過“茫茫多”迭代的核心關(guān)鍵模組 Power Flow 等。 也就是說,通過這樣模塊化的組件設(shè)計(jì),就可以像通過飛控,攢一臺(tái)無人機(jī)航模一樣,快速搭建起各種形態(tài)的人形機(jī)器人系統(tǒng),這也是為什么X1原型機(jī)到X2研發(fā)這么快的原因之一。 在稚暉君看來,機(jī)器人并非一定是鋼筋鐵骨,因此他們嘗試了大量的柔和材料,像TPU、ETPU、EVA 等多種材料,他們甚至考慮了用美妝蛋作為機(jī)器人的材料。 稚暉君表示,靈犀 X2 集三重角色于一身——不僅是一款支持高自由度、運(yùn)動(dòng)能力的雙足人形機(jī)器人,還是一款搭載情感計(jì)算引擎的智能交互機(jī)器人,以及一款初步具備通用任務(wù)執(zhí)行能力的具身機(jī)器人。 高自由度和任務(wù)執(zhí)行能力都不難理解,其搭載的情感計(jì)算引擎,通俗的來講就是更有“人味兒”了。 稚暉君表示,當(dāng)前足式機(jī)器人的運(yùn)動(dòng)控制已經(jīng)全面從傳統(tǒng)的 Model based 轉(zhuǎn)向 Learning 驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)。 通過結(jié)合深度強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)算法的優(yōu)勢(shì),X2 可以不斷的學(xué)習(xí)和進(jìn)步,不僅學(xué)會(huì)了像人一樣自然的走路,還能流暢地跑步和轉(zhuǎn)彎,甚至還能跳科目三.... 當(dāng)然就像人一樣,在學(xué)習(xí)的過程難免也會(huì)學(xué)到“抽象”一些的東西,X2也不例外。 比如在訓(xùn)練初期一不小心學(xué)“歪”了,有把跳躍當(dāng)做平時(shí)移動(dòng)方式的,還有一言不合就躺地上“擺爛”的,甚至還有被官方鑒定為“性格暴躁,愛跺腳”的另類機(jī)器人。。。 除了常規(guī)的行走,跑,跳外,為了偷懶,X2還能學(xué)會(huì)使用各種人類的懶人工具,比如踩滑板車,平衡車代步,甚至自己騎自行車。 為了讓 X2 更有“人味兒”,智元團(tuán)隊(duì)增添了不少細(xì)節(jié),比如靈犀X2能模仿人類呼吸韻律、具備人類好奇心和注意力機(jī)制、會(huì)一些“抖腿”小動(dòng)作的肢體語言等。 目前,X2 仍在不斷學(xué)習(xí)和進(jìn)步。通過數(shù)據(jù)驅(qū)動(dòng)的算法范式,智能機(jī)器人能夠從每秒數(shù)萬次與環(huán)境的互動(dòng)和動(dòng)作數(shù)據(jù)中,找到克服動(dòng)作限制的方法,稚暉君表示,我們相信人形機(jī)器人的運(yùn)動(dòng)智能問題很快會(huì)得到徹底的解決。 能力進(jìn)階 作為一款人形機(jī)器人,光四肢發(fā)達(dá)還不行,頭腦也不能簡(jiǎn)單,交互智能和作業(yè)生產(chǎn)必不可少。 在交互方面,借助當(dāng)前最火熱大語言模型技術(shù),智元團(tuán)隊(duì)還為 X2 訓(xùn)練了定制的多模態(tài)交互大模型——硅光動(dòng)語,從字面上,“光動(dòng)語”分別代表著,視覺,動(dòng)作,語音。 在這個(gè)大模型的加持下,靈犀X2也被稚暉君稱為“第一臺(tái)真正具備復(fù)雜交互能力的靈動(dòng)機(jī)器人”。 在此基礎(chǔ)上,通過邊緣側(cè)大腦和端到端模型架構(gòu),以及一系列工程優(yōu)化,靈犀 X2 具備了毫秒級(jí)交互能力。 比如坐下聊天可以對(duì)答如流,面對(duì)“你是誰,你從哪來的,你存在的意義是什么”的人生三問,X2 都能順暢回答。 當(dāng) X2 被問及它和狗同時(shí)掉水里,應(yīng)該先救誰,會(huì)毫不猶豫地回答道先救狗,“因?yàn)樗枰獛椭,自己沒事! 最有意思的是,當(dāng)稚暉君提問靈犀 X2“剛剛提的問有多少是預(yù)先寫好的”,X2的語氣還頗為得意,回答道“完全隨機(jī)”。 基于 Diffusion 的生成式動(dòng)作引擎,使得這款機(jī)器人不僅四肢協(xié)調(diào),思維也頗為敏捷。 除了具備聽覺和語言的交互能力,基于 VLM 的硅光動(dòng)語多模態(tài)模型還能讓 X2 通過視覺來理解和認(rèn)識(shí)世界,識(shí)別眼前物體不在話下。 比如稚暉君拿出手機(jī)讓 X2 自己看現(xiàn)在幾點(diǎn)了,X2 能準(zhǔn)確的回答出時(shí)間,還給睡不著的稚暉君推薦了牛奶,理由是有助于睡眠。 甚至還能真的“看到”物體上的小字,給稚暉君現(xiàn)場(chǎng)教學(xué)了一把。 情緒價(jià)值拉滿的同時(shí),稚暉君表示“我們的終極期待,是希望機(jī)器人能夠成為構(gòu)建社會(huì)生產(chǎn)力的重要分母”,也就是具備一定的生產(chǎn)能力。 據(jù)稚暉君介紹,過去一年里,他們初步找到了一條通往泛化作業(yè)智能的路徑,根據(jù)這些成果,他們也把操作智能的能力也遷移到了 X2 上。 在本體層面,X2 的本體支持很好的柔性阻抗控制,可以裝配包括靈巧手在內(nèi)的各種末端,使得其具備精細(xì)操作的能力,“針穿葡萄”的神技又重現(xiàn)江湖。 其次,在機(jī)器人的具身智能方面,團(tuán)隊(duì)也開源了業(yè)界最大之一的具身真機(jī)和仿真數(shù)據(jù)集。并提出了 RoboDual 的大小腦系統(tǒng)架構(gòu),以及剛剛發(fā)布的 ViLLA 架構(gòu)具身基座大模型「啟元」。 這也使得 X2 初步具備簡(jiǎn)單任務(wù)中對(duì)操作物體的零樣本泛化能力,并在某些任務(wù)中實(shí)現(xiàn)多機(jī)協(xié)作,比如相互充電。 在視頻的最后,稚暉君作為靈犀X2親爹,像望子成龍一樣,給了它一個(gè)最終的期望,就是希望作業(yè)能力可以外溢到日常生活的方方面面,實(shí)現(xiàn)機(jī)器人的“吉祥三!--- 就是保安、保姆和保潔。 神之一手 靈犀X2能夠擁有“情感”、能夠進(jìn)行各類復(fù)雜任務(wù),離不開智元機(jī)器人前一天發(fā)布的具身基座模型 GO-1。 GO-1 全稱 Genie Operator-1,GO-1的發(fā)布,標(biāo)志著機(jī)器人從“單一任務(wù)工具”正式邁向“通用智能體”。 在工廠,它能靈活切換裝配、質(zhì)檢、物流等工種;在家庭,它可以從整理玩具進(jìn)階到輔導(dǎo)孩子作業(yè);甚至在未來,機(jī)器人可能通過觀看教學(xué)視頻,自主學(xué)會(huì)維修電器。 GO-1 的一大黑科技就是開創(chuàng)性地提出了 ViLLA(Vision-Language-Latent-Action)架構(gòu),其整合了“兩大模塊”,三個(gè)“大腦”。 首先是多模態(tài)大模型(VLM),通過海量互聯(lián)網(wǎng)圖文數(shù)據(jù)訓(xùn)練,賦予機(jī)器人通用場(chǎng)景感知和語言理解能力,可以將其稱之“視覺大腦”,靠刷遍全網(wǎng)圖文,學(xué)會(huì)認(rèn)杯子、桌子、咖啡機(jī),甚至能聽懂你喊“給我整杯82年的拉菲”。 另外還有專家混合模塊(MoE),這其中又包含兩個(gè)關(guān)鍵組件: 首先是規(guī)劃層面上,隱式規(guī)劃器(Latent Planner)生成任務(wù)鏈,優(yōu)化任務(wù)執(zhí)行流程,利用跨本體和人類操作視頻數(shù)據(jù),學(xué)習(xí)通用的動(dòng)作理解能力,可以將其稱之為“動(dòng)作大腦”。 比如,可以將復(fù)雜任務(wù)分解為一系列可執(zhí)行的子任務(wù)。以 “掛衣服” 為例,機(jī)器人需分解為抓取衣架、調(diào)整角度等步驟,并根據(jù)實(shí)際情況靈活調(diào)整執(zhí)行順序和參數(shù),確保任務(wù)的高效完成。 另外,就是“摳細(xì)節(jié)小能手”(Action Expert),在執(zhí)行層面上,基于百萬級(jí)真機(jī)數(shù)據(jù)生成精細(xì)動(dòng)作序列,使靈犀 X2 的動(dòng)作更加流暢、精準(zhǔn)。例如,在倒水任務(wù)中,誤差可控制在 ±3ml 內(nèi),滿足日常生活和工業(yè)生產(chǎn)的高精度操作需求。 這幾個(gè)部分協(xié)同工作,使模型能夠通過人類視頻進(jìn)行小樣本學(xué)習(xí),并快速泛化到新任務(wù)和新環(huán)境中,實(shí)操證明,這套架構(gòu)下的能力確實(shí)不錯(cuò)。 在五項(xiàng)復(fù)雜度不同的任務(wù)測(cè)試中,GO-1 的平均成功率較現(xiàn)有最優(yōu)模型從46%提升到了78%,尤其在倒水、清理桌面和補(bǔ)充飲料等任務(wù)場(chǎng)景中表現(xiàn)突出。 更為關(guān)鍵的是它的進(jìn)化速度,GO-1支持跨本體數(shù)據(jù)共享,這意味著每臺(tái)機(jī)器人的經(jīng)驗(yàn)都能反哺系統(tǒng)。假設(shè)一個(gè)機(jī)器人學(xué)會(huì)擰螺絲,那么其他機(jī)器人立刻能同步技能。 智元機(jī)器人也計(jì)劃年內(nèi)推出基于強(qiáng)化學(xué)習(xí)的Foundation Model,進(jìn)一步釋放機(jī)器人的自主決策潛力。 按照他們的設(shè)想,五年內(nèi)要讓機(jī)器人走進(jìn)客廳,或許用不了多久當(dāng)你推開家門,迎接你的將是一個(gè)正在忙碌的機(jī)器人了。 本文來源:超電實(shí)驗(yàn)室 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選