開了眼了,上周編輯部還在說下半年感覺 AI 領(lǐng)域沒啥大活兒了,結(jié)果沒過幾天就發(fā)現(xiàn)話放早了。 寧猜怎么著,本來以為 AI 還停留在輸入文字,然后出圖出視頻的這些程度上,結(jié)果這兩天突然有幾個 AI 公司,都開始宣布人家可以生成世界了。 我勒乖乖,這不就是 AI 界做夢都想搞出來的 “ 世界模型 ” 嘛:能像人一樣理解這個真實世界的超級 AI ! 先是前幾天的 World Labs ,雖然大家可能沒聽說過,但人家創(chuàng)始人可是著名 AI 科學家、斯坦福大學教授、美國科學院院士、機器學習奠基人之一、有 AI 教母之稱的著名美籍華人科學家李飛飛。 在 World Labs 官網(wǎng)上說到,這是世界上第一個能直接渲染出完整 3D 場景的AI ,超越了傳統(tǒng)生成模型的單純像素預測,而且這場景還能有交互性和自由度。 說人話就是,這玩意跟以前的生圖生視頻模型不一樣了,只需要塞給它一張圖,人家就能給出一套空間建模,而且還能在里面動。 雖然現(xiàn)在咱們還沒法用,但人家官網(wǎng)還是放出來一些案例給大家看。 大家一眼就會發(fā)現(xiàn),這演示畫面里咋有個鍵盤和鼠標。 其實就是人家為了展示這生成出來的場景是有自由度滴,你可以自己用鍵鼠操作,在網(wǎng)頁上操作去試。 然而世超不建議大家去試,因為真的超卡,活動范圍也不大,還容易暈。。。 不過作為行業(yè)內(nèi)首發(fā),咱也是可以理解萬歲一波的。 但好巧不巧,李飛飛這東西發(fā)布才過了一天,還有高手。 谷歌 DeepMind 也出了一個 “ 世界模型 ” ,而且還是第二代,號稱能理解真實世界的運作規(guī)律。世超也跑去他們官網(wǎng)看了一圈,瞅瞅這個 Genie 2 ,到底怎么個真實法。 先看人家的演示,輸入一句提示詞以后生成的效果。 該說不說,這瞅著確實也挺逼真的,有兩下子。 不過要是跟上面 World Labs 的 AI 對比的話,估計大家一眼就會發(fā)現(xiàn),這個好像更加流暢,自由度也更高些。 實際上人家官網(wǎng)也說了,這是一個類似游戲的基礎世界模型,在這里面,你也一樣可以用 WASD ,空格和鼠標來操控畫面里的角色 甚至還可以生成第一人稱視角的版本! 而根據(jù)操作產(chǎn)生的畫面,則全部是由 AI 即時算出來的,甚至可以持續(xù)長達一分鐘時間。 而已經(jīng)生成出來的畫面和建模,你要是操控鍵盤往回走,會發(fā)現(xiàn)之前是什么樣現(xiàn)在還是什么樣。 這就很離譜了,相當于生成出來的這個新世界,每一秒長啥樣這 AI 都是能記得住的。 除此之外,這里面的角色和交互也很有看點。 光在運動上,就不止常規(guī)的步行,你可以跑可以跳,還可以爬梯子 甚至可以開車,還可以開槍射擊。 而里面 AI 生的 npc 們,也是可以發(fā)生交互的 雖然這交互效果有點不盡人意,但還是能看出來動了的。 而在整個場景中,跟自然相關(guān)的運動場景也能搞出來. 就比如水面: 還有煙霧: 還包括了重力和光線反射效果: 哪怕你給出現(xiàn)實中的照片,它也能跟著模擬一下周圍的環(huán)境,瞅著跟谷歌地圖的街景似的。 雖然視覺效果著實挺牛逼的,不過,跟李飛飛那個一樣, DeepMind 的新模型也沒有給出來讓大家上手試,只在官網(wǎng)發(fā)布的他們測試的版本。 但根據(jù)世超平時測試這些 AI 的經(jīng)驗嘛,甭管是大廠還是新勢力,官方給出來的演示那肯定都是精挑細選的好看的案例,真正要用的話,那估計還得降低一個級別的期待值。 不過這次比較好玩的是, DeepMind 也很實誠的說,他們這個還是一個早期的版本,自己測試的時候也會出現(xiàn)一些翻車案例。 就比如下面這個,本來說讓畫面里的小哥滑雪,結(jié)果 AI 給他搞成了跑酷。 還有一個花園的場景,玩家還沒操作呢,啥都沒動,結(jié)果花園里突然飄過了一個幽靈。。。 雖然還有瑕疵,但是就從他們給的這些演示上,世超覺得這確實是在 AI 理解世界這方面,取得了比較成功的進步。 有聰明的差友可能這時候就要問了,這種跟隨一個主體運動的畫面,以前的 Sora 類視頻模型不也能做到嘛,憑啥這個就更接近世界模型? 其實還是跟訓練 AI 的方向有關(guān)系。 Sora 雖然剛出來的時候號稱世界模型,但是實際這些視頻模型穿模的情況還是很多的,幻覺也不太好解決。 本質(zhì)上他們學習的資料都是視頻,靠前面視頻的畫面去推后面的,并不真的理解視頻里的東西是怎么交互,怎么作用的。 就比如說,讓 AI 從看視頻里學到物體有重量,是相當困難的。 而要讓 AI 意識到這些真實世界里的參數(shù),它首先就得知道環(huán)境是一回事,環(huán)境里的人和物是另一回事,所以大家才從文生圖模型,一步步走向了生成地理環(huán)境,而后在環(huán)境內(nèi)去呈現(xiàn)人的動作。 這也就是李飛飛 World Labs 的模型的效果,相當于先讓 AI 學會建模,再展示看到的場景。 但相比上面 World Labs , DeepMind 顯得更厲害一點,這其實跟他們的技術(shù)路線不一樣有點關(guān)系。如果說前一個是打算用圖片來還原更真實的場景,后一個則是用 AI 給你生成了一個游戲世界。 當然他們之所以能搞出來,主要人家在訓練的時候就是按游戲素材來學習的. 相比視頻素材,游戲的好處就在于 ai 不僅能學到角色和畫面的動態(tài)變化,也能觀察到角色動作的鍵盤操作,是如何影響畫面和動作變化的,這樣它就對物體與環(huán)境的交互理解的更全面。 實際上,早在今年三月, Genie 團隊就已經(jīng)出來一個版本,不過那時候他們做的還是 2d 畫面的橫屏 AI 游戲。 結(jié)果到了 2.0 版本,人家給 3d 的整出來了,實際效果看起來也非常接近大家平時玩的這些 3d 游戲,甚至比一些游戲的畫面質(zhì)量還要好一點。 不過呢,咱也不是說 DeepMind 就發(fā)現(xiàn)了 AGI 的通用解,演示中表現(xiàn)的還行也不等同于 AI 就真的理解現(xiàn)實。 最明顯的原因就是,這 AI 是靠游戲?qū)W的,而游戲是人類根據(jù)現(xiàn)實來做的。靠人類的二手資料學的再好,也絕不等同于對真實世界的理解無誤。 至于 AGI 啥時候真來,咱還是得說句,再等等。 本文來源:差評 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選