太平洋科技要聞

扎克伯格這款不會發(fā)售的新品，又在探索 AI 眼鏡的終極形態(tài)

愛范兒整合編輯：太平洋科技發(fā)布于：2025-03-03 15:13

自從扎克伯格把 FaceBook 改名成 Meta 之后，這家公司就徹底和眼鏡較上勁了。

有一個即熱又冷的小知識，Meta 這個名字，取自「metaverse（元宇宙）」的前四個字母，2021 年改名的時候，扎克伯格本人非常自信地表示：

元宇宙將在未來十年觸及 10 億人，而元宇宙也將觸及我們開發(fā)的每一款產(chǎn)品。

四年過去了，元宇宙成了科幻小說、創(chuàng)意動畫和影視作品的�？�，但離現(xiàn)實世界卻越來越遠(yuǎn)，為數(shù)不多能引起人們關(guān)注的，還是那些時不時爆雷上熱搜、打著元宇宙、虛擬資產(chǎn)的幌子，來招搖撞騙的煩心事兒。

在普及和鋪開元宇宙上，Meta 和四年前一樣沒啥變化，不過他們卻在元宇宙的入口——VR/AR 頭顯設(shè)備上，做出了不少有意思的新玩意兒。

定位為新型游戲機(jī)的 Meta Quest，打開了 VR 互動游戲的新世界，2024年 Meta Quest 系列占據(jù)了 73% 的市場份額，遙遙領(lǐng)先。

成為 AI 時代新潮配件的 Ray-Ban Meta，經(jīng)過了兩代產(chǎn)品的努力，出貨量在今年 2 月正式突破 200 萬臺，集傳統(tǒng)眼鏡、名牌 logo、藍(lán)牙耳機(jī)、語音助手、Vlog 相機(jī)于一身，既做好了一副傳統(tǒng)眼鏡該有的裝飾作用，又讓科技悄無聲息地嵌入了日常生活。

明面上，Meta 在消費者市場推出了幾款成功的產(chǎn)品；私底下，他們也在 toB 的賽道上悄悄發(fā)力，而且這些面向企業(yè)和專業(yè)機(jī)構(gòu)的智能眼鏡起步的時間，甚至比他們改名的時間還早。

五年之約已到，Meta 交卷

2020 年，Meta 推出了其首款實驗性智能眼鏡 Meta Aria Gen 1，和傳統(tǒng)眼鏡比起來，Aria Gen 1 略顯臃腫，特別是兩條加粗的鏡腿，非常顯眼。

圖片來自：Google

碩大的外觀并不只是擺設(shè)，其中包含了非常多的傳感器套件，如配備 RGB 攝像頭、定位追蹤攝像頭、慣性測量單元（IMU）、氣壓計、磁力計等，這些元件的主要功能是用于采集第一人稱視角的視覺、運動和空間數(shù)據(jù)。

從理論上來說，Aria Gen 1 是專為機(jī)器感知系統(tǒng)、人工智能及機(jī)器人技術(shù)研究設(shè)計，它通過集成多模態(tài)傳感器，幫助科研人員攻克AR眼鏡的核心技術(shù)難題，如環(huán)境感知、空間定位等。

落地到實際體驗，Aria Gen 1 則有著非常遙遠(yuǎn)也令人期待的使命：

設(shè)想有一天，我們可以享受聯(lián)網(wǎng)帶來的所有好處，而不需要低著頭低著頭看著設(shè)備。想象一下，給朋友打電話，和桌子對面栩栩如生的虛擬形象聊天。
想象一下，一個足夠聰明的數(shù)字助理可以檢測道路危險，在商務(wù)會議期間提供統(tǒng)計數(shù)據(jù)，甚至幫助你在嘈雜的環(huán)境中聽得更清楚。
在這個世界上，設(shè)備本身完全消失在日常生活的起起落落中。

作為這項實驗的原型機(jī)，也是第一代產(chǎn)品，Aria Gen 1 并沒有掀起太大的波瀾，沉淀五年后，這周 Meta 正式發(fā)布了 Aria Gen 2。和一代相比，有了全面的升級。

最明顯的變化在傳感器系統(tǒng)上，一代機(jī)采用的是最基礎(chǔ)的環(huán)境感知元件，只有攝像頭和慣性傳感器，Aria Gen 2 在此基礎(chǔ)上，增加了許多新的配件，包括 RGB 攝像頭、6DOF SLAM 攝像頭、眼動追蹤攝像頭、空間麥克風(fēng)、IMU、氣壓計、磁力計和 GNSS。

特別是新一代產(chǎn)品在鼻托中嵌入了兩個創(chuàng)新傳感器：用于測量心率的 PPG 傳感器，和用于區(qū)分佩戴者聲音和旁觀者聲音的接觸式麥克風(fēng)。

如果把一代比作「只用眼鏡看世界」，那相比之下 Aria Gen 2 可以說是感官全開，從更多維度感知、觀察以及收集外界信息，就能在同樣的時間里，獲取數(shù)量更多、更準(zhǔn)確的數(shù)據(jù)，機(jī)器的運作、學(xué)習(xí)效率也會更高。

另外，數(shù)據(jù)處理的方式上，二者也有了質(zhì)變，Aria Gen 1 依賴于外部設(shè)備進(jìn)行計算，雖說不在本地運算，能一定程度上，減輕設(shè)備的重量壓力，但隨之而來的則是反應(yīng)的遲緩，在云端算力夠，但網(wǎng)絡(luò)不好的時候會有響應(yīng)尷尬期，經(jīng)常用智慧助手的朋友應(yīng)該都有碰到過類似的情況；若是隨身攜帶一個移動計算平臺，非常不便攜。

而 Aria Gen 2 則用上了 Meta 的自研芯片，可以把數(shù)據(jù)放在端側(cè)處理，響應(yīng)速度非�？欤皇芫W(wǎng)絡(luò)的限制，交互體驗也有了非常大的進(jìn)步。

一般來說，多了自研芯片的設(shè)備，擁有了端側(cè)運算的能力，但同時也會增加設(shè)備的重量。不過 Meta 用數(shù)據(jù)說話，這五年他們真的沒閑著：Aria Gen 1 重 98g，Aria Gen 2 重 75 克。加量不加重，長體驗不長體重。

體驗見長的，還有 Aria Gen 2 的交互方式，在第一代語音交互的基礎(chǔ)上，二代機(jī)加入了「眼動追蹤+手勢+接觸式操作」。語音交互很直接，檢索路徑會大幅縮短，但并不是生活中的所有場景都適合，比如高峰期的地鐵站和超安靜的辦公室。

按理來說，傳感器和交互功能變多，續(xù)航會受到影響，自研芯片的確影響了 Aria Gen 2 的續(xù)航，但是正向的。官方稱其能達(dá)到 6-8 個小時使用時間。按照目前無線耳機(jī)的使用時長，基本能讓 Aria Gen 2 做到全天候的智慧功能可用。

打好了硬件基礎(chǔ)，后續(xù)的使用體驗才會有更多的可能，Aria Gen 2 的升級體現(xiàn)了 Meta 對 AR 技術(shù)落地的兩大戰(zhàn)略方向：

一是隱形化集成：通過輕量化設(shè)計和傳感器隱藏（如攝像頭指示燈關(guān)閉時外觀接近普通眼鏡），降低設(shè)備存在感；二來通過開放的生態(tài)，提供底層 API 接口和模塊化擴(kuò)展能力，鼓勵學(xué)術(shù)界開發(fā)定制化工具包，加速技術(shù)轉(zhuǎn)化。

因此，Aria Gen 2 的應(yīng)用場景，也從先前的室內(nèi)導(dǎo)航與基礎(chǔ) AR 研究，轉(zhuǎn)向了更多維的領(lǐng)域，醫(yī)療、工業(yè)、城市規(guī)劃等，都有可能成為 Aria Gen 2 生長的土壤。

至此，我們來總結(jié)一下，Aria Gen 2 的進(jìn)步與意義：

感知硬件升級，實現(xiàn)生物數(shù)據(jù)融合與環(huán)境深度理解；

搭載自研芯片，提升實時性，支持戶外無網(wǎng)絡(luò)場景；

豐富交互方式，降低聲學(xué)干擾，適配復(fù)雜實驗環(huán)境；

續(xù)航覆蓋全天，延長連續(xù)使用時間，提升佩戴舒適度；

應(yīng)用場景拓展，推動跨學(xué)科技術(shù)融合與標(biāo)準(zhǔn)化。

扎克伯格的「暗部」

如果你看完，Meta Aria 的解讀介紹，還是有點對它在消費市場的運用摸不著頭腦，那很正常，因為 Meta 明確表示，這款產(chǎn)品「不會面向消費者銷售」，那你可能想問，它到底有什么用？要說清楚造它的目的，還得回到十多年前。

2014 年，扎克伯格在斯坦福虛擬人類交互實驗室（VHIL）體驗了當(dāng)時最新的 VR 設(shè)備，以及各種游戲場景，他在 VR 眼鏡里里走了獨木橋、飛過城市上空、砍了幾棵樹......

時任 VHIL 實驗室經(jīng)理的 Cody Woputz 曾經(jīng)透露過：在體驗高空墜落場景時，他（扎克伯格）甚至嚇到將手放在胸口上。

這次體驗讓扎克伯格留下了很深的印象，一方面由于 VR 還處在早期的研究階段，定位系統(tǒng)不穩(wěn)定，使得體驗多次被打斷，得停下來重新校準(zhǔn)設(shè)備；而且當(dāng)時的 VR 還不是一體機(jī)，PC VR 的計算終端在機(jī)身外，得用一條又粗又長的線纜連接，以此來傳輸信號和供電。

圖片來自：Google

另一方面，扎克伯格也看見了這項革命性技術(shù)在未來的巨大可能，也正是這次體驗，讓他下定決心，以 20 億美元收購了 Oculus，扎克伯格曾在公告中解釋過收購原因：

移動是當(dāng)前的平臺，收購 Oculus 是為明天的平臺做準(zhǔn)備。

之后，扎克伯格就帶著 Facebook 開始了對于 AR/VR/MR 技術(shù)以及設(shè)備的探索。有了目標(biāo)和硬件技術(shù)的積累，于是在 2020 年，Meta 正式開啟 Aria 項目，其宗旨是「從人的視角加速 AR 和 AI」。

圖片來自：Google

這么看有點玄乎，稍微通俗的解釋就是，把眼鏡作為橋梁，讓設(shè)備從人的視角來觀察世界、了解世界，并學(xué)習(xí)人和環(huán)境的互動關(guān)系，以此來推動軟硬件技術(shù)的發(fā)展，最終讓機(jī)器能夠從人出發(fā)，并服務(wù)于人。

Project Aria 中的眼鏡，可以通過突破性技術(shù)幫助研究人員，從用戶的角度收集信息，特別是 Aria Gen 2 上新增的傳感器，能夠捕捉佩戴者周身環(huán)境的音視頻，以及他們的眼動和位置信息。

從佩戴者的第一視角出發(fā)，能讓研究人員更容易弄清楚，AR 到底如何才能在現(xiàn)實世界和日常生活中，發(fā)揮真實作用，而不只是停留在花里胡哨卻不實用的功能上。

而且，從人的視角出發(fā)來收集現(xiàn)實世界中的信息，對于多模態(tài) AI 來說非常重要，這樣的訓(xùn)練方式能模擬人類多模態(tài)認(rèn)知方式。

我們本身就是通過視覺、聽覺、觸覺等多種感官協(xié)同感知世界，而多模態(tài) AI 通過整合文本、圖像、音頻、視頻等數(shù)據(jù)，能夠更貼近人類自然認(rèn)知模式。況且跨模態(tài)信息整合能力是單模態(tài) AI 無法實現(xiàn)的。

多模態(tài)的收集和訓(xùn)練，也能提升 AI 對復(fù)雜場景的決策精度，如果不通過多維度的信息來理解世界，那必然會存在「買家秀」和「賣家秀」的分歧，數(shù)字世界只有 0 和 1，但現(xiàn)實世界除了黑白，還有那難以理解的灰色地帶。

圖片來自：Google

交互本身其實也是多模態(tài)的，和朋友談話時除了語言，表情、手勢、語氣甚至著裝，都會影響我們的理解。因此多模態(tài) AI 通過同時處理文本、圖像和音頻，可實現(xiàn)更自然的交互體驗。

Meta 也給出了他們在 Project Aria 中的一些研究細(xì)節(jié)，在 Project Aria 項目中，讓智能眼鏡讀懂世界的方式非常簡單粗暴：數(shù)據(jù)化。這項被稱為 SceneScript 的技術(shù)，是一種使用自回歸結(jié)構(gòu)化語言模型和端到端學(xué)習(xí)，來表示和推斷場景幾何的方法。

圖片來自：Meta

簡單講，所有第一人稱視角看到的場景、物體，都可以被眼鏡變成具體的數(shù)字和名稱，桌子有多長、墻上透明且規(guī)則窟窿叫「窗戶」。

為了讓眼鏡內(nèi)置的模型不只是看見世界，還要更好地理解世界，Meta 用自研的三維成像技術(shù) EMF3D，把現(xiàn)實世界所有的物體用不同顏色的線段「明碼標(biāo)價」，把材質(zhì)、形狀和大小不一的東西統(tǒng)一了度量衡。

圖片來自：Meta

當(dāng)眼鏡能讀懂并且記錄環(huán)境時，再現(xiàn)一個虛擬的世界，就有了更大的可能。項目中的環(huán)境合成技術(shù)正是通過大量的數(shù)據(jù)收集整理，復(fù)刻了一個大規(guī)模、完全模擬的程序生成的室內(nèi)場景數(shù)據(jù)集，也為「數(shù)字孿生」設(shè)立了新標(biāo)準(zhǔn)，加速了 3D 物體檢測、場景重建和模擬到現(xiàn)實學(xué)習(xí)等挑戰(zhàn)的研究。

圖片來自：Meta

這種「養(yǎng)成系」的學(xué)習(xí)方法有好有壞，好在一旦學(xué)成就非常扎實，難在想要扎實就得通過海量、巨量的數(shù)據(jù)，所以需要非常多的志愿者參與到 Project Aria 中，在平時長期佩戴 Meta 的眼鏡。

比起找到人，如何讓人放心地使用才是最關(guān)鍵的，因為數(shù)據(jù)收集和隱私保護(hù)，是一對難以調(diào)和的冤家。Meta 給出的方案是「自我模糊」新型 AI 模型，通過檢測和模糊圖像中的 PII 來保護(hù)隱私，把面部、車牌等敏感信息直接打碼。

圖片來自：Meta

海量的學(xué)習(xí)也能讓模型更好地了解使用者的意圖，比如通過對使用者每日生活場景的掃描與總結(jié)，可以判斷本人在什么時間點更可能干什么事？是去樓下鍛煉，還是去客廳打游戲，又或者去廚房做飯。能預(yù)判人的行為活動，也就能提前提供更多的便捷功能。

這和我們手機(jī)上的智能助手，在特定時間彈窗提醒回家路況，以及明日天氣的功能，有相似之處。

圖片來自：Meta

自 Project Aria 立項的五年間，他們已經(jīng)做出了一些成果，例如使用第一代 Aria 眼鏡收集的 Ego-Exo4D 數(shù)據(jù)集，已成為現(xiàn)代計算機(jī)視覺和不斷發(fā)展的機(jī)器人領(lǐng)域的基礎(chǔ)工具。

有些企業(yè)也已經(jīng)開始研究，Aria 在他們的工作流程中，到底應(yīng)該怎么用？比如寶馬，正在搞清楚如何將增強(qiáng)現(xiàn)實和虛擬現(xiàn)實系統(tǒng)集成到智能汽車中。

圖片來自：Meta

佐治亞理工學(xué)院的研究人員，最近也展示了當(dāng) Aria 來到你家以后，會怎樣幫你分?jǐn)偧覄?wù)活的壓力。

圖片來自：Meta

很早之前，我們曾在手機(jī)智慧助手的體驗文章中有個論斷：人工智能和各種電子設(shè)備的結(jié)合，從當(dāng)下來看，最大的意義應(yīng)該是幫助老年人和殘障人士，更好地融入新時代和新生活。Aria 也在無障礙技術(shù)的開發(fā)上，取得了一定的進(jìn)展：

卡內(nèi)基梅隆大學(xué)在一個項目中，使用了第一代 Aria 眼鏡，該項目旨在開發(fā)幫助盲人和視力低下人士進(jìn)行室內(nèi)導(dǎo)航的技術(shù)。

圖片來自：Meta

二代 Aria 的 AI 語音功能還被 Envision 公司整合到了自家的 Ally AI 和空間音頻上，來增強(qiáng)室內(nèi)導(dǎo)航和無障礙體驗。

圖片來自：Envision

如果要用一句話來形容 Project Aria、Meta 和旗下產(chǎn)品的關(guān)系，我覺得很像樹根、樹干和樹枝。Project Aria 在最下面，平時看不見摸不著，但常年累月積累的技術(shù)成果，最終都會以各種各樣的方式，賦能在公司和各類產(chǎn)品上。

去年 9 月底，扎克伯格在發(fā)布會上，從保險箱里拿出了一個看上去平平無奇，實則是十年絕密項目的智能眼鏡 Meta Orion。從發(fā)布會的演示畫面來看，它能做到和 Vision Pro 高度相似的交互功能，更重要的是 Orion 是一副真全息 AR 眼鏡。

它外觀上比普通眼鏡厚了點，不過戴上之后既能透過鏡片看到真實的世界，也能看到投影圖像。

雖然清晰度比不上傳統(tǒng)的電視和投影，但看圖片與文字綽綽有余。神奇的是，我們沒發(fā)現(xiàn)眼睛上有大塊棱鏡，如此貼近真實、憑空出現(xiàn)的現(xiàn)實效果，其實是通過鏡片周圍的 LED 投影儀，將圖像投影到碳化硅鏡片上。

鏡框周圍的 7 個攝像頭和傳感器，讓 Meta Orion 真正實現(xiàn)了將虛擬投入現(xiàn)實，并將其融入現(xiàn)實的能力。它能將全息圖像精準(zhǔn)懸停在半空中，也能識別眼前的物品，例如通過桌面上的食材，它就能給你定制一份食譜。

圖片來自：Meta

說 Orion 在交互體驗上，有齊平 Vision Pro 之勢并不是夸大其詞，因為它真的支持手部和眼動追蹤，雙手就是手柄，配套的神經(jīng)腕帶還能把手變成鼠標(biāo)，通過檢測肌肉電流的變化識別身體的神經(jīng)信號，并由此區(qū)分手指的不同動作：

拇指、食指捏合進(jìn)行選擇

拇指和中指聯(lián)合呼出菜單

握拳滑動拇指滾動畫面

當(dāng)時在發(fā)布會現(xiàn)場，我們還看到了 Meta Orion 的實際拆解展示，高度復(fù)雜和極其精密的內(nèi)部構(gòu)造，最后組合在一起的機(jī)身，只有 98g。

不難發(fā)現(xiàn)，Meta Aria Gen 2 和 Meta Orion 的關(guān)系，就像鏡子里的彼此。只是扎克伯格在當(dāng)時的采訪中說，由于造價太過高昂（每臺成本約 1 萬美元，約合人民幣 7 萬元），公司不得不叫停了量產(chǎn)計劃，只生產(chǎn)了1000 部提供給內(nèi)部研發(fā)。

不過 Meta 也計劃著，將 Aria 的技術(shù)逐步整合到 2026 年后，包括 Orion 在內(nèi)的消費級 AR 眼鏡中。目標(biāo)是通過神經(jīng)接口交互，和全息顯示實現(xiàn) AR 眼鏡的蛻變，以此迎來智能眼鏡的「iPhone 時刻」。

本文來源：愛范兒

扎克伯格元宇宙智能眼鏡

愛范兒

原創(chuàng)欄目