周一(3月10日)上午,“好東西”如約而至,智元機(jī)器人官方賬號(hào)宣布正式發(fā)布首個(gè)通用具身基座模型——智元啟元大模型GO-1(Genie Operator-1),這也是國(guó)內(nèi)首個(gè)通用具身基座大模型。 消息一出,喜提兩個(gè)熱搜。 根據(jù)官方介紹,智元的GO-1大模型開(kāi)創(chuàng)的提出了Vision-Language-Latent-Action (ViLLA) 架構(gòu),該架構(gòu)由VLM(多模態(tài)大模型) + MoE(混合專(zhuān)家)組成,擁有人類(lèi)視頻學(xué)習(xí),小樣本快速泛化、一腦多形、持續(xù)進(jìn)化等優(yōu)勢(shì)?梢哉f(shuō)是讓機(jī)器在拓展了運(yùn)動(dòng)能力之外,具備了AI的能力,讓機(jī)器具備了真正的價(jià)值。 智元官方在五種不同復(fù)雜度任務(wù)上測(cè)試了GO-1,相比已有的最優(yōu)模型,GO-1成功率大幅領(lǐng)先,平均成功率提高了32%(46%->78%)。 其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(補(bǔ)充飲料) 任務(wù)表現(xiàn)尤為突出。 Latent Planner是MoE中的一組專(zhuān)家,基于VLM的中間層輸出預(yù)測(cè)Latent Action Tokens作為CoP(Chain of Planning,規(guī)劃鏈),進(jìn)行通用的動(dòng)作理解和規(guī)劃。智元單獨(dú)驗(yàn)證了Latent Planner在ViLLA 架構(gòu)中的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。 智元認(rèn)為,GO-1的推出讓具身智能從單一任務(wù)走向了多種任務(wù),從封閉環(huán)境走向了開(kāi)放世界;從預(yù)設(shè)程序走向了指令泛化,將具身智能推上了一個(gè)新臺(tái)階。 智元還將在2025年Q2推出首個(gè)基于強(qiáng)化學(xué)習(xí)的Foundation Model。 在GO-1大模型發(fā)布之后,智元合伙人,具身業(yè)務(wù)部總裁,研究院執(zhí)行院長(zhǎng)姚卯青以及智元具身研究中心常務(wù)主任任廣輝接受了網(wǎng)易科技采訪。 對(duì)于發(fā)布具身基座大模型的初衷,姚卯青非?隙ǖ乇硎,AI能力將來(lái)會(huì)是區(qū)分機(jī)器人產(chǎn)品競(jìng)爭(zhēng)力的核心環(huán)節(jié),機(jī)器人發(fā)展到最后,比拼的就是AI能力。而機(jī)器人公司不做大模型是沒(méi)有未來(lái)的。 對(duì)于智元來(lái)說(shuō),AI的投入可以說(shuō)是戰(zhàn)略級(jí)別的,而且是堅(jiān)定的。 不僅如此,智元在發(fā)布基座大模型的同時(shí),還將相應(yīng)的論文進(jìn)行了公開(kāi)發(fā)表,這已經(jīng)算是一種變相的開(kāi)源。據(jù)姚卯青透露,智元將在Q1末面向核心用戶開(kāi)源整個(gè)大模型。 在采訪中,姚卯青還提到了行業(yè)中熱議的“9.9萬(wàn)人形機(jī)器人”的話題,他認(rèn)為,硬件的基礎(chǔ)也決定了機(jī)器人能力的上限。在這個(gè)階段,智元還是堅(jiān)定地認(rèn)為需要以價(jià)值為導(dǎo)向,讓機(jī)器人的硬件軟件協(xié)同配合產(chǎn)生一個(gè)好的效果,而不是說(shuō)買(mǎi)一個(gè)大號(hào)的電動(dòng)玩具。 姚卯青認(rèn)為,人形機(jī)器人的應(yīng)用會(huì)是漸進(jìn)式的,未來(lái)1-2年將會(huì)在局部場(chǎng)景應(yīng)用落地,大家期待的機(jī)器人進(jìn)入家庭場(chǎng)景的情況,還需要5年左右的時(shí)間。 智元機(jī)器人成立于2023年,創(chuàng)始人之一彭志輝曾是華為天才少年,人稱(chēng)“稚暉君”“野生鋼鐵俠”。公司成立不久就發(fā)布了首款人形機(jī)器人,截至目前已經(jīng)下線1000臺(tái)機(jī)器人產(chǎn)品,智元機(jī)器人已經(jīng)完成多輪融資,募資總額超過(guò)16億元。 值得一提的是,稚暉君還是“B站百大UP主”,他于2017年11月26日開(kāi)始在B站上傳視頻。2020年憑借在B站發(fā)布自制硬核小電視內(nèi)容走紅。2024年陳睿在公開(kāi)演講中盛贊其“從野生鋼鐵俠到70億估值企業(yè)CTO”的成長(zhǎng)路徑。 以下為對(duì)話智元合伙人,具身業(yè)務(wù)部總裁,研究院執(zhí)行院長(zhǎng)姚卯青以及智元具身研究中心常務(wù)主任任廣輝的部分內(nèi)容: 提問(wèn):智元具身基座大模型的研發(fā)初衷是什么? 姚卯青:這和我們公司的使命是緊密相連的。我們公司的使命是希望利用通用機(jī)器人來(lái)創(chuàng)造無(wú)限生產(chǎn)力。我們認(rèn)為機(jī)器人只有硬件本體,肯定是不夠的,這也是最近一些機(jī)構(gòu),或者說(shuō)國(guó)外的公司對(duì)機(jī)器人行業(yè)的評(píng)論,覺(jué)得中國(guó)人形機(jī)器人公司硬件做得比較好,但AI能力沒(méi)有看到顯著的進(jìn)展。 我們認(rèn)為AI能力將來(lái)一定是區(qū)分機(jī)器人產(chǎn)品競(jìng)爭(zhēng)力的核心環(huán)節(jié),就像今天的新能源車(chē)、手機(jī)一樣,硬件大家會(huì)逐漸收斂,供應(yīng)鏈也會(huì)高度地整合,最后大家比拼的一定是AI的能力。 AI對(duì)于機(jī)器人來(lái)講,一定是更為重要的。因?yàn)闄C(jī)器人如果沒(méi)有自主作業(yè)的能力,那它價(jià)值是非常有限的。基于這樣的初衷,我們將具身智能的AI研發(fā),作為了公司戰(zhàn)略級(jí)的投入,我們也是第一個(gè)在行業(yè)內(nèi)走完了機(jī)器人大規(guī)模的量產(chǎn),然后用量產(chǎn)的機(jī)器人編隊(duì)去采集百萬(wàn)級(jí)高質(zhì)量的數(shù)據(jù)。同時(shí)又能把這批數(shù)據(jù)用來(lái)自研大模型,還把大模型能夠部署回自己的硬件本體上。 我們是第一個(gè)做到這樣閉環(huán)的研發(fā)迭代。 提問(wèn):大模型將應(yīng)用于什么場(chǎng)景,如何應(yīng)用? 姚卯青:我們覺(jué)得大模型在機(jī)器人行業(yè)的應(yīng)用會(huì)經(jīng)歷漸進(jìn)式的變化,會(huì)從一些較為容易、結(jié)構(gòu)化場(chǎng)景較為明確的地方,先去進(jìn)行落地探索,然后逐漸演化到半結(jié)構(gòu)化和半開(kāi)放的任務(wù)和場(chǎng)景,最終通過(guò)在各個(gè)行業(yè),各個(gè)場(chǎng)景落地過(guò)程中收集到的海量的數(shù)據(jù)和交互的數(shù)據(jù),真正地實(shí)現(xiàn)通用人工智能,實(shí)現(xiàn)AGI在物理世界的應(yīng)用,可能到那個(gè)時(shí)候,是真正走入千家萬(wàn)戶,在家庭中執(zhí)行各類(lèi)開(kāi)放式的指令任務(wù)。 從這個(gè)角度來(lái)講,我們?cè)诮鼉赡甑臅r(shí)間內(nèi)會(huì)集中在工業(yè)、服務(wù)業(yè)和商業(yè)領(lǐng)域的應(yīng)用,同時(shí)也會(huì)堅(jiān)定地為最終走向AGI, 走進(jìn)家庭這樣開(kāi)放式場(chǎng)景,不斷做技術(shù)的摸高。 提問(wèn):智元的具身基座大模型GO1可以降低成本,大概能夠降低多少幅度? 任廣輝:我們可以講一下之前做的實(shí)驗(yàn),我們?cè)谝恍﹫?chǎng)景上,可能一個(gè)任務(wù)大概需要萬(wàn)條規(guī)模才能達(dá)到比較好的成功率,而現(xiàn)在只需要千條或者大幾百條就能做到最好,可以說(shuō)是降低了一個(gè)數(shù)量級(jí)的數(shù)據(jù)采集量。 提問(wèn):智元的具身基座大模型開(kāi)源的前景如何? 姚卯青:其實(shí)我們今天在發(fā)布的同時(shí),不僅僅發(fā)布了視頻,還把技術(shù)博客以及對(duì)應(yīng)的論文都已經(jīng)公開(kāi)出來(lái)了。一定程度上我覺(jué)得也算是一種開(kāi)源了。同時(shí)我們會(huì)對(duì)智元的核心用戶,在Q1對(duì)他們進(jìn)行模型的整個(gè)開(kāi)源。他們可以使用我們的模型部署到智元的機(jī)器人上。 提問(wèn):機(jī)器人在基座模型上是否已經(jīng)進(jìn)入到技術(shù)收斂階段? 姚卯青:機(jī)器人的技術(shù)我們認(rèn)為還比較早期,還沒(méi)有到收斂的程度,因?yàn)楸旧磉@個(gè)行業(yè)受制于數(shù)據(jù)的問(wèn)題,還沒(méi)法去進(jìn)行Scaling Low的完整驗(yàn)證。這也是為什么我們之前要去主動(dòng)開(kāi)源AgiBot World。 提問(wèn):對(duì)應(yīng)到機(jī)器人智能等級(jí)標(biāo)準(zhǔn)里,從G1到G5,智元的GO1算是哪個(gè)等級(jí)的呢? 提問(wèn):未來(lái)數(shù)據(jù)集采會(huì)不會(huì)單獨(dú)剝離出來(lái)形成一個(gè)產(chǎn)業(yè)? 姚卯青:這個(gè)是有可能的。我們看到AI的發(fā)展也是有明確的產(chǎn)業(yè)分工,像數(shù)據(jù)的采集、標(biāo)注,審核,甚至是數(shù)據(jù)的交易,都是有一些平臺(tái)型的機(jī)構(gòu)出現(xiàn)的。在機(jī)器人領(lǐng)域,我認(rèn)為這也是有機(jī)會(huì)的。 提問(wèn):未來(lái)機(jī)器人的必爭(zhēng)之地是AI,路線和發(fā)展趨勢(shì)是怎樣的? 姚卯青:我覺(jué)得算法目前不能說(shuō)已經(jīng)完全走向收斂,還是在百花齊放的狀態(tài)。但是在這個(gè)發(fā)展過(guò)程中,我們也看到了一些挑戰(zhàn),比如說(shuō)偏科的公司比較多,有一些特別擅長(zhǎng)算法的,包括像國(guó)外的一些公司,沒(méi)有很好的機(jī)器人硬件,也沒(méi)有大規(guī)模的機(jī)器人本體,這其實(shí)是會(huì)嚴(yán)重限制他們對(duì)算法的整個(gè)研發(fā)驗(yàn)證。反過(guò)來(lái)也有大量的機(jī)械本體公司在AI上的投入是比較受限的。 所以我們希望能夠看到更多的像智元這樣的,能夠完整地從硬件、數(shù)據(jù)、算法端到端,具備研發(fā)能力的公司、玩家來(lái)涌現(xiàn)。 提問(wèn):您認(rèn)為大概什么時(shí)候可以進(jìn)入家庭場(chǎng)景? 姚卯青:我們判斷的話需要比較長(zhǎng)一點(diǎn)的時(shí)間,五年左右能夠走入家庭,去實(shí)際創(chuàng)造一些價(jià)值。 提問(wèn):之前宇樹(shù)的9.9萬(wàn)以下的機(jī)器人其實(shí)在行業(yè)還是引起了比較大的爭(zhēng)議,您也曾經(jīng)說(shuō)過(guò)卷9.9萬(wàn)的價(jià)格是沒(méi)有意義的,這次大模型發(fā)布之后,對(duì)機(jī)器人在終端售價(jià)上是否會(huì)有影響? 姚卯青:定價(jià)9.9萬(wàn)元的機(jī)器人,確實(shí)在市場(chǎng)上受到了很大的關(guān)注。但是行業(yè)的從業(yè)人員也知道,現(xiàn)在質(zhì)量好的零部件是怎樣的一個(gè)成本,如果特別低的價(jià)格,那是可以想象用的是什么料的。同時(shí),硬件的基礎(chǔ)也決定了機(jī)器人能力的上限。在這個(gè)階段的話,我們還是堅(jiān)定地認(rèn)為需要以價(jià)值為導(dǎo)向,真正能夠讓機(jī)器人的硬件軟件協(xié)同做協(xié)同配合產(chǎn)生一個(gè)好的效果,才是給用戶的價(jià)值,而不是說(shuō)買(mǎi)一個(gè)大號(hào)的電動(dòng)玩具,長(zhǎng)期來(lái)講是不具備很好的商業(yè)價(jià)值的。 提問(wèn):智元今年的商業(yè)計(jì)劃是怎樣的? 姚卯青:今年我們的商業(yè)化目標(biāo)是在營(yíng)收層面,比去年的營(yíng)收會(huì)有一個(gè)數(shù)倍的增長(zhǎng)。在出貨量上面,應(yīng)該會(huì)達(dá)到數(shù)千臺(tái)的規(guī)模。 提問(wèn):智元成立了兩三年,如何與成立八九年甚至十年左右的公司競(jìng)爭(zhēng)??jī)?yōu)勢(shì)是什么? 姚卯青:我個(gè)人覺(jué)得成立時(shí)間較短的公司有比較大的優(yōu)勢(shì)。因?yàn)檎麄(gè)人形機(jī)器人產(chǎn)業(yè)從技術(shù)上來(lái)講是一個(gè)比較新的行業(yè)。我們也看到,今天大模型成功的公司,他們的整個(gè)組織人才方向是非常年輕化的。 在經(jīng)營(yíng)方向或者技術(shù)規(guī)劃方面,我們要去所謂的unlearned去學(xué)習(xí),如果有太多的歷史包袱,就很難很暴力地做一些戰(zhàn)略上的調(diào)整,同時(shí)發(fā)展到一定程度的公司從資本的層面、經(jīng)營(yíng)層面都會(huì)去變得相對(duì)的更加保守,更加務(wù)實(shí)一些。 智元作為一家只有剛剛滿兩年的公司,我們平均的研發(fā)現(xiàn)在是30歲以下的,無(wú)論是出貨量還是營(yíng)收,也是一個(gè)非?焖俚倪^(guò)程。 相信今年我們有比較大的機(jī)會(huì),可以在經(jīng)營(yíng)上做到國(guó)內(nèi)的頭部,就是真正的龍頭企業(yè)。我們用兩年時(shí)間走完了別人可能八年九年沒(méi)有走完的路,而且是在一個(gè)快速上升的趨勢(shì)中。 本文來(lái)源:網(wǎng)易科技 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選