首頁 > 科技要聞 > 科技> 正文

首次,6人7天真人秀!南洋理工等發(fā)布第一視角AI生活管家數(shù)據(jù)EgoLife

新智元 整合編輯:太平洋科技 發(fā)布于:2025-03-20 16:42

當(dāng)AI智能體(如Manus)接管你的大部分工作后,你是否曾想過,如何讓自己的生活變得更加輕松與智能?

試想一個(gè)未來場景:你佩戴著智能眼鏡,一個(gè)AI助理能無縫融入你的日常生活,根據(jù)你的個(gè)人習(xí)慣提供貼心的美食建議,下班后提醒你曾經(jīng)購買過的物品,甚至通過分析你和家人過去的活動(dòng)來主動(dòng)預(yù)測你的需求。

這樣一款「生活助手」將極大提升個(gè)人效率和家庭協(xié)作,讓AI真正成為我們生活中的得力管家。

然而,要實(shí)現(xiàn)這個(gè)愿景,AI需要具備對(duì)超長時(shí)間跨度行為模式的理解能力,以及對(duì)社交互動(dòng)細(xì)節(jié)的把握——這是現(xiàn)有第一人稱視角(Egocentric)人工智能系統(tǒng)所欠缺的。

目前已有的一些第一視角數(shù)據(jù)集(如Epic-Kitchens、Ego4D等)支持了許多視頻理解任務(wù),但它們通常錄制時(shí)長較短,而且大多只涉及單人的視角。這些局限使得模型難以捕捉人們長期的生活習(xí)慣和復(fù)雜的社交互動(dòng)細(xì)節(jié)。

換言之,目前還缺少一種跨越長時(shí)間、多人物、多模態(tài)的數(shù)據(jù)資源和方法,來訓(xùn)練出真正懂得「日常生活全貌」的AI助理。

針對(duì)這一挑戰(zhàn),來自LMMs-Lab和MMLab@NTU的研究者們啟動(dòng)了EgoLife項(xiàng)目,致力于邁出打造以第一人稱視角為中心的AI生活助手的關(guān)鍵一步,其核心是在真實(shí)生活場景中收集海量多模態(tài)數(shù)據(jù),并研發(fā)創(chuàng)新模型來理解和利用這些數(shù)據(jù),最終實(shí)現(xiàn)對(duì)人類日常生活的智能輔助。

論文地址:https://huggingface.co/papers/2503.03803

可交互項(xiàng)目主頁:https://egolife-ai.github.io/

技術(shù)向項(xiàng)目主頁:https://egolife-ai.github.io/blog/

項(xiàng)目代碼:https://github.com/EvolvingLMMs-Lab/EgoLife

數(shù)據(jù)和模型:https://huggingface.co/collections/lmms-lab/egolife-67c04574c2a9b64ab312c342

真實(shí)場景下的AI進(jìn)化實(shí)驗(yàn):前所未有的多模態(tài)生活記錄

EgoLife 項(xiàng)目的基礎(chǔ)是一套規(guī)?涨暗牡谝灰暯嵌嗄B(tài)生活日志數(shù)據(jù)集。項(xiàng)目組招募了6名志愿者,讓他們共同在一個(gè)裝備了大量傳感器的房屋中生活7天,以籌備「地球日」活動(dòng)為背景。

每位參與者都佩戴了Meta Aria智能眼鏡,連續(xù)一周每天錄制約8小時(shí)的第一人稱視頻和音頻。同時(shí),房屋中安裝了15臺(tái)固定相機(jī)和2個(gè)毫米波雷達(dá)裝置,以同步記錄第三人稱視角的視頻和動(dòng)作捕捉信息。

借助這些設(shè)備,EgoLife數(shù)據(jù)集中不僅有參與者主觀視角的影像,還包括客觀環(huán)境的全景監(jiān)控和精確的空間位置數(shù)據(jù),甚至通過多攝像頭融合重建出了房屋的3D模型。

最終,項(xiàng)目采集到了大約300小時(shí)的多視角、多模態(tài)視頻數(shù)據(jù)——這是迄今為止極為豐富、逼真的日常生活記錄,為研究長時(shí)序行為和人際互動(dòng)提供了前所未有的資料。

圖1: EgoLife邀請(qǐng)了6名參與者佩戴智能眼鏡同住一屋7天,錄制了總計(jì)約300小時(shí)的第一人稱視頻。研究團(tuán)隊(duì)還在房屋內(nèi)布置了15個(gè)第三人稱攝像頭和毫米波雷達(dá)(如圖左所示),獲取同步的環(huán)境視角數(shù)據(jù)。右側(cè)展示了所有攝像機(jī)同步的采集結(jié)果

高強(qiáng)度數(shù)據(jù)標(biāo)注,為模型訓(xùn)練和評(píng)測鋪路

為了讓AI深入「讀懂」人們的生活,僅有原始視頻還不夠,EgoLife數(shù)據(jù)集還配備了密集而詳細(xì)的標(biāo)注。研究人員為視頻標(biāo)注了密集的描述和旁白:包括完整的語音轉(zhuǎn)錄文本,以及不同時(shí)間粒度的視覺-音頻敘事。

簡單來說,數(shù)據(jù)集中既有細(xì)粒度的即時(shí)字幕(描述當(dāng)下看到和聽到的內(nèi)容),也有每隔30秒總結(jié)性的長段說明。

圖2: 該圖是論文的主圖。右側(cè)示例展示了志愿者Lucia看到Shure正在彈吉他的片段,對(duì)應(yīng)的多模態(tài)數(shù)據(jù)流(視頻+音頻+凝視軌跡+語音轉(zhuǎn)錄+音視頻描述)以及EgoLife定義的「五大任務(wù)板」(底部)

這些詳盡標(biāo)注不僅為訓(xùn)練AI模型提供了監(jiān)督信號(hào),也方便構(gòu)建起各種高層語義任務(wù)。例如,基于這些標(biāo)注,研究團(tuán)隊(duì)構(gòu)建了一個(gè)EgoLifeQA基準(zhǔn),收集了每位參與者約500個(gè)與生活相關(guān)的問題,共計(jì)3000道,以評(píng)測AI助理對(duì)長時(shí)記憶和復(fù)雜情境的理解能力。

值得一提的是,這些問題專門設(shè)計(jì)為需要「長時(shí)回溯」才能回答——66%以上的問題答案需要追溯2小時(shí)以前的事件,15%以上甚至涉及超過24小時(shí)之前的信息。

問題覆蓋了五大類生活助理任務(wù):例如詢問物品細(xì)節(jié)和使用歷史的「實(shí)體日志(EntityLog)」 、回憶過去活動(dòng)的 「事件追憶(EventRecall)」、分析個(gè)人習(xí)慣規(guī)律的習(xí)慣洞察(HabitInsight)」、理解社交互動(dòng)關(guān)系的「關(guān)系圖譜(RelationMap)」 ,以及根據(jù)以往經(jīng)歷輔助規(guī)劃任務(wù)的「任務(wù)管理(TaskMaster)」 。

每個(gè)問題都要求AI從用戶過去幾小時(shí)、甚至幾天的生活記錄中提取線索,給出有依據(jù)的回答。這些精心標(biāo)注的數(shù)據(jù)和任務(wù),為EgoLife項(xiàng)目中的核心AI系統(tǒng)提供了訓(xùn)練和評(píng)價(jià)的平臺(tái),也推動(dòng)著智能生活助手這一新興領(lǐng)域的發(fā)展。

圖3: 以志愿者Katrina為例,黑色線條表示問題提問的時(shí)間,彩色線條表示需要回答該問題需要尋找的線索所在的時(shí)間

EgoButler: 雙引擎架構(gòu)實(shí)現(xiàn)第一視角超長信息理解

有了如此豐富的第一視角數(shù)據(jù),EgoLife項(xiàng)目接下來的關(guān)鍵在于如何讓AI高效地理解和利用這些信息。研究團(tuán)隊(duì)提出的解決方案是一個(gè)名為「EgoButler」的集成系統(tǒng),由兩個(gè)核心組件組成:EgoGPT和EgoRAG

EgoGPT擔(dān)當(dāng)「感知描述」的角色,而EgoRAG負(fù)責(zé)「記憶檢索」和「推理回答」,二者相輔相成,使AI助理既能看懂當(dāng)前發(fā)生了什么,又能回憶起過去發(fā)生過什么。

EgoGPT:全模態(tài)第一視角片段理解引擎

EgoGPT 是EgoLife研制的視覺-聽覺-語言模型,可以被視為AI助理的大腦中「實(shí)時(shí)描述器」和「短期分析」部分。它在現(xiàn)有的大型多模態(tài)模型LLaVA-OV的基礎(chǔ)上,專門針對(duì)第一人稱視角視頻進(jìn)行了優(yōu)化訓(xùn)練。

與通用的視覺語言模型不同,EgoGPT具備以下顯著特點(diǎn):

融合視覺和音頻,多模態(tài)「看懂」視頻片段

EgoGPT能夠同時(shí)處理來自攝像頭的視頻畫面和麥克風(fēng)的音頻輸入,從而「看」和「聽」用戶所經(jīng)歷的一切。研究人員為此引入了音頻編碼器(使用Whisper模型)并訓(xùn)練了一個(gè)投影模塊,將聲音信號(hào)融入原有的視覺語言模型中。

經(jīng)過這樣的擴(kuò)展,EgoGPT成為一個(gè)真正的「omni-modal」(全模態(tài))模型,可以對(duì)30秒左右的生活視頻片段生成詳細(xì)的字幕式描述。

例如,當(dāng)用戶走進(jìn)廚房時(shí),它可以同時(shí)描述「視覺上看到有人在做飯,邊做邊在講這是什么菜」等細(xì)節(jié),為后續(xù)理解提供豐富信息。

連續(xù)密集字幕,構(gòu)建時(shí)序語義流

EgoGPT的第一個(gè)功能是對(duì)每個(gè)30秒的視頻片段連續(xù)進(jìn)行描述,形成時(shí)間上密集的「活動(dòng)日志」。這些生成的文字描述涵蓋了用戶視角中的關(guān)鍵事件、對(duì)象、人物對(duì)話等,為后續(xù)的記憶檢索提供了語義線索。

可以將EgoGPT看作是一個(gè)隨時(shí)記錄用戶所見所聞的「AI記錄員」,把海量的視頻變成可檢索的文本和特征,這一步極大壓縮并提煉了原始視頻數(shù)據(jù)的內(nèi)容,使后續(xù)模塊不用直接處理視頻就能了解發(fā)生過的事情。

個(gè)性化的身份識(shí)別能力

EgoGPT還經(jīng)過了個(gè)性化微調(diào),能夠識(shí)別特定環(huán)境中的人物身份。研究人員利用EgoLife數(shù)據(jù)集中第1天的視頻,對(duì)EgoGPT進(jìn)一步微調(diào),使模型學(xué)會(huì)了6位參與者的長相、聲音和名字。

因此,在描述或回答問題時(shí),EgoGPT可以提到人物名字,而不是像普通模型那樣僅僅檢測到「一個(gè)人」,讓助理具備了上下文中的身份感知。這種個(gè)性化能力對(duì)于家庭場景尤其重要,它意味著AI能區(qū)別家庭成員,從而提供更貼合用戶的協(xié)作幫助。

第一視角領(lǐng)域優(yōu)化,性能業(yè)界領(lǐng)先

由于在海量的egocentric數(shù)據(jù)上進(jìn)行了專門訓(xùn)練,EgoGPT在第一人稱視頻理解上的表現(xiàn)達(dá)到了當(dāng)前最先進(jìn)水平。論文中的實(shí)驗(yàn)對(duì)比顯示,EgoGPT在多個(gè)既有的egocentric基準(zhǔn)任務(wù)取得領(lǐng)先效果。

綜上,EgoGPT為EgoLife系統(tǒng)提供了一個(gè)強(qiáng)大的「感知與敘事」引擎。它將長時(shí)間的視頻流轉(zhuǎn)化為結(jié)構(gòu)化的語言和特征表述,為后續(xù)的記憶存儲(chǔ)和問答打下基礎(chǔ)。

在生活助理類比中,EgoGPT就好比一個(gè)隨身攜帶的智能「攝像師+記錄員」,源源不斷地記錄并解說著用戶視角下的故事。

圖4: 目前團(tuán)隊(duì)已開源EgoGPT模型權(quán)重及訓(xùn)練框架,并提供在線Demo體驗(yàn)。值得注意的是,系統(tǒng)展現(xiàn)出驚人的場景理解能力:在五月天MV解析測試中,不僅能描述畫面內(nèi)容,還能結(jié)合歌詞進(jìn)行意境分析。體驗(yàn)鏈接:https://egolife.lmms-lab.com

EgoRAG:超長時(shí)記憶檢索與問答模塊

有了EgoGPT持續(xù)產(chǎn)出的「生活日志」,下一步就是讓AI助理真正具備長時(shí)記憶和問答推理能力——這正是 EgoRAG 發(fā)揮作用的地方。

EgoRAG的名字來源于「Retrieval-Augmented Generation」,意味著它將信息檢索和生成式AI結(jié)合,專門用于處理超長時(shí)間跨度的提問。簡單來說,EgoRAG可以被視為AI助理的大腦中「記憶庫」與「知識(shí)檢索官」的部分。當(dāng)用戶提問時(shí),EgoRAG能夠在龐大的歷史記錄中快速找到相關(guān)片段,并結(jié)合EgoGPT等模型生成答案。

其核心步驟如下:

分層記憶庫構(gòu)建

面對(duì)長達(dá)數(shù)百小時(shí)的生活記錄,EgoRAG首先通過EgoGPT生成的描述建立起一個(gè)多層級(jí)的記憶。具體而言,EgoGPT對(duì)每30秒視頻的描述會(huì)被存入記憶庫中作為細(xì)粒度記錄,同時(shí)系統(tǒng)會(huì)定期將一段時(shí)間內(nèi)的描述匯總生成更高層次的摘要。例如,它可以把每小時(shí)的主要事件總結(jié)成一段概要,再把每天的概要進(jìn)一步凝練成更粗的日記。

如此一來,EgoRAG的記憶庫中同時(shí)保存著片段級(jí)別、小時(shí)級(jí)別和天級(jí)別的多層次信息。這種分層結(jié)構(gòu)讓系統(tǒng)能夠先粗略定位大致相關(guān)的時(shí)間范圍,再深入檢索具體片段,就像人類回憶事情時(shí)也會(huì)先想是哪一天、隨后細(xì)想當(dāng)時(shí)的細(xì)節(jié)一樣。

智能檢索策略

當(dāng)用戶提出一個(gè)問題時(shí),EgoRAG會(huì)啟動(dòng)兩階段的檢索機(jī)制。第一步,它會(huì)先在高層次的摘要中搜索線索,找出這個(gè)問題最可能涉及的是哪一天、哪一段時(shí)間。

例如,若用戶問「我這周哪天吃了意大利面?」,系統(tǒng)會(huì)先掃描每天的摘要,發(fā)現(xiàn)「周二晚餐」提到了意大利面。第二步,在鎖定相關(guān)的時(shí)間段后,EgoRAG會(huì)在該時(shí)間段內(nèi)更精細(xì)地檢索具體的片段描述。

最終,EgoRAG會(huì)挑選出最相關(guān)的若干視頻片段作為支撐證據(jù),將這些檢索到的相關(guān)內(nèi)容發(fā)送給一個(gè)生成式模型(可以是EgoGPT本身或類似GPT-4的更強(qiáng)大模型),讓它基于證據(jù)來生成回答。

通過這樣的分層檢索與生成,EgoRAG能夠在浩如煙海的個(gè)人記錄中迅速定位答案要點(diǎn),并確;卮鹚罁(jù)的信息可靠且有據(jù)可循。

高效且可擴(kuò)展

EgoRAG的設(shè)計(jì)使得對(duì)超長視頻的問答變得計(jì)算上可行。相比樸素地將幾百小時(shí)的視頻硬塞給一個(gè)大模型(這幾乎不可能),EgoRAG極大地縮小了需要處理的數(shù)據(jù)范圍,每次問答只聚焦于可能相關(guān)的極小片段集合。

這種「提取式記憶」不僅提高了效率,也讓系統(tǒng)具備了可擴(kuò)展性——無論積累了多少天的記錄,檢索的成本都在可控范圍。

此外,由于EgoRAG把視頻內(nèi)容轉(zhuǎn)化為了文本和特征空間的表示進(jìn)行搜索,它可以方便地持續(xù)更新記憶庫(EgoGPT不斷產(chǎn)生新記錄),并長久保留舊有知識(shí),正如一個(gè)理想的生活管家,不僅能記住你昨天做過什么,幾年后的今天依然能快速翻出相關(guān)回憶供你查詢。

綜合來看,EgoRAG賦予了EgoLife助理真正的長時(shí)記憶和知識(shí)提取能力。當(dāng)用戶詢問諸如「我這瓶酸奶是什么時(shí)候買的?」這樣需要跨天甚至跨周的信息時(shí),EgoRAG能夠在龐大的回憶庫中找到相關(guān)證據(jù),并配合EgoGPT給出答案。

例如,基于檢索到的證據(jù),模型可能回答:「您分別在3天和5天前去過超市,這一瓶是在您五天前那一次購物采購的,您當(dāng)時(shí)和其他幾瓶酸奶比價(jià),最終選擇了這個(gè),花了五塊錢」。

未來計(jì)劃

拓展數(shù)據(jù)維度,構(gòu)建更通用的智能認(rèn)知

目前基于6人單語言環(huán)境的數(shù)據(jù)已經(jīng)展現(xiàn)出很強(qiáng)的潛力,而下一步,研究人員希望讓它走向更廣闊的世界。

通過引入多語言交流(如純英文、西班牙語等)、長期生活記錄以及不同家庭結(jié)構(gòu)的數(shù)據(jù),系統(tǒng)可以減少個(gè)體經(jīng)驗(yàn)的局限,建立更具普遍適用性的認(rèn)知模型,不僅能讓AI更準(zhǔn)確地理解不同文化背景下的人類行為,也能提升個(gè)性化服務(wù)的跨場景適應(yīng)能力。

讓AI從「記錄」走向「推理洞察」

當(dāng)前的EgoGPT+EgoRAG體系其實(shí)是一個(gè)基礎(chǔ)的框架,目前也有很多不完美的地方,例如對(duì)于人的辨認(rèn)依然不穩(wěn)定,對(duì)于語音的識(shí)別可能還停留在人的對(duì)話上,對(duì)于重要的環(huán)境聲尚且還沒有識(shí)別。在增強(qiáng)AI識(shí)別的精度的基礎(chǔ)上,研究人員還希望利用推理框架對(duì)目前方法進(jìn)行重構(gòu),將長視頻搜索變得更加智能。

多視角協(xié)同,重塑環(huán)境認(rèn)知

當(dāng)前的數(shù)據(jù)集是一個(gè)多人同步、多視角協(xié)作的數(shù)據(jù)網(wǎng)絡(luò),通過第一視角(佩戴式設(shè)備)、第三視角(固定攝像頭)、以及3D房屋模型的融合,可以解鎖更多的功能探索。

例如AI可以利用多視角視頻流和3D坐標(biāo),還原某個(gè)時(shí)間點(diǎn)的完整場景。例如,當(dāng)用戶問「上周三客廳發(fā)生了什么?」系統(tǒng)可以自動(dòng)結(jié)合空間信息,生成帶有完整場景語義的敘述。

展望:隱私保護(hù)

因?yàn)樯钪砩婕俺掷m(xù)記錄個(gè)人隱私數(shù)據(jù),如何安全地存儲(chǔ)、處理這些信息至關(guān)重要。未來的系統(tǒng)需要在本地化(盡量在用戶設(shè)備上處理數(shù)據(jù))和隱私保護(hù)算法(如差分隱私、聯(lián)邦學(xué)習(xí))上加大投入,確保用戶的數(shù)據(jù)僅為用戶所用。只有解決了隱私顧慮,公眾才能真正安心地?fù)肀н@樣全天候的AI助手。

開發(fā)團(tuán)隊(duì)

EgoLife不僅僅是一個(gè)研究項(xiàng)目,更是一場關(guān)于 AI 如何真正融入人類日常生活的探索。

未來的AI生活助手不僅能理解用戶的行為、記住關(guān)鍵細(xì)節(jié),還能主動(dòng)提供幫助,讓科技成為每個(gè)人生活中不可或缺的伙伴。

這是一項(xiàng)長期演進(jìn)的計(jì)劃,研究團(tuán)隊(duì)正在不斷擴(kuò)展數(shù)據(jù)規(guī)模、優(yōu)化AI模型、探索新的交互方式,并推動(dòng)AI生活助手的真正落地。

參考資料:

https://huggingface.co/papers/2503.03803

本文來源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部
国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av