首頁(yè) > 科技要聞 > 科技> 正文

沈向洋官宣通用視覺大模型!無(wú)需提示,就能識(shí)別萬(wàn)物

量子位 整合編輯:太平洋科技 發(fā)布于:2024-11-25 15:26

無(wú)需用戶提示,AI就可以識(shí)別萬(wàn)物!

而且精度更高、速度更快。

IDEA研究院創(chuàng)院理事長(zhǎng)沈向洋官宣IDEA研究院最新成果:通用視覺大模型DINO-X。

它實(shí)現(xiàn)視覺任務(wù)大一統(tǒng),支持各種開發(fā)世界感知和目標(biāo)理解任務(wù),包括開放世界對(duì)象檢測(cè)與分割、短語(yǔ)定位、視覺提示計(jì)數(shù)、姿態(tài)估計(jì)、無(wú)提示對(duì)象檢測(cè)與識(shí)別、密集區(qū)域字幕等。

這背后得益于,他們構(gòu)建了超過(guò)一億高質(zhì)量樣本的大型數(shù)據(jù)集Grounding-100M。

與之前DINO家族中類似,DINO-X 也分為DINO-X Pro模型和DINO-X Edge模型。

前者可為各種場(chǎng)景提供更強(qiáng)的感知能力,后者經(jīng)過(guò)優(yōu)化,推理速度更快,更適合部署在邊緣設(shè)備上。

實(shí)驗(yàn)結(jié)果表明,DINO-X Pro 模型在 COCO、LVIS-minival 和 LVIS-val 零鏡頭物體檢測(cè)基準(zhǔn)測(cè)試中分別獲得了 56.0 AP、59.8 AP和 52.4 AP 的成績(jī)。

尤其是在 LVIS-minival 和 LVIS-val 這兩個(gè)罕見類別的基準(zhǔn)測(cè)試中實(shí)現(xiàn)新SOTA——

分別獲得了 63.3 AP 和 56.5 AP 的成績(jī),都比之前的SOTA性能提高了 5.8 AP。

這一結(jié)果表明,它在識(shí)別長(zhǎng)尾物體方面的能力有了顯著提高。

在開放世界,AI識(shí)別萬(wàn)物

總結(jié)來(lái)看,DINO-X主要有四個(gè)方面的特點(diǎn)。

首先就是全面檢測(cè),幾乎可識(shí)別所有物體。DINO-X稱得上目前業(yè)界檢測(cè)最全的通用視覺模型,甚至無(wú)需用戶提示。

然后是泛化和通用性。在面對(duì)未見過(guò)的物體或環(huán)境時(shí),模型仍能保持高水平的檢測(cè)性能。

細(xì)粒度目標(biāo)理解:DINO-X通過(guò)統(tǒng)一多個(gè)視覺任務(wù),實(shí)現(xiàn)了多樣化輸出,包括邊界框、分割掩碼、關(guān)鍵點(diǎn)和描述文本,提升了模型在復(fù)雜場(chǎng)景下的理解能力。

多任務(wù)感知與理解:DINO-X整合了多個(gè)感知頭,支持包括分割、姿態(tài)估計(jì)、區(qū)域描述和基于區(qū)域的問(wèn)答在內(nèi)的多種區(qū)域級(jí)別任務(wù),讓感知到理解逐步成為了現(xiàn)實(shí)。

長(zhǎng)尾目標(biāo)檢測(cè)優(yōu)化:為了支持長(zhǎng)尾目標(biāo)的檢測(cè)任務(wù),DINO-X不僅支持文本提示和視覺提示,還支持經(jīng)過(guò)視覺提示優(yōu)化的自定義提示。

跟之前的版本 GroundingDINO 1.5 Pro 和 Grounding DINO 1.6 Pro相比,此次通用視覺大模型DINO-X 進(jìn)一步增強(qiáng)了語(yǔ)言理解能力,同時(shí)在密集物體檢測(cè)場(chǎng)景中表現(xiàn)出色。

如何做到?

DINO-X可接受文本提示、視覺提示和自定義提示,并能同時(shí)生成從粗略的表示(如邊框)到精細(xì)的細(xì)節(jié)(包括遮罩、關(guān)鍵點(diǎn)和對(duì)象標(biāo)題)等各種輸出。

DINO-X Pro的核心架構(gòu),與Grounding DINO 1.5類似,利用預(yù)先訓(xùn)練好的 ViT 模型作為主要的視覺骨干,并在特征提取階段采用了深度早期融合策略。

但不同的是,他們擴(kuò)大了DINO-X Pro在輸入階段的提示支持,除了文本,還支持視覺提示和自定義提示,以滿足包括長(zhǎng)尾物體在內(nèi)的各種檢測(cè)需求。

而對(duì)于DINO-X Edge版本,他們利用 EfficientViT作為高效特征提取的骨干,并采用了類似Transformer編碼器-解碼器架構(gòu)。

此外,為了提高 DINO-X Edge 模型的性能和計(jì)算效率,他們還對(duì)模型結(jié)構(gòu)和訓(xùn)練技術(shù)做了幾個(gè)方面的改進(jìn)。

更強(qiáng)的文本提示編碼器,采用了與pro模型相同的 CLIP 文本編碼器。

知識(shí)提煉:從 Pro 模型中提煉知識(shí),以提 Edge 模型的性能。具體來(lái)說(shuō),團(tuán)隊(duì)利用基于特征的蒸餾和基于響應(yīng)的蒸餾,分別調(diào)整Edge模型和 Pro模型之間的特征和預(yù)測(cè)對(duì)數(shù)。

改進(jìn)FP16推理:采用浮點(diǎn)乘法歸一化技術(shù),在不影響精度的情況下將模型量化為 FP16。

擁有了對(duì)開放世界的視覺感知

DINO-X的萬(wàn)物識(shí)別能力,讓其擁有了對(duì)開放世界(Open World)的視覺感知,可以輕松應(yīng)對(duì)真實(shí)世界中的眾多不確定性和開放環(huán)境。

IDEA研究院創(chuàng)院理事長(zhǎng)沈向洋提到了具身智能、大規(guī)模多模態(tài)數(shù)據(jù)的自動(dòng)標(biāo)注、視障人士服務(wù)等這幾個(gè)場(chǎng)景。

對(duì)具身智能而言,開發(fā)環(huán)境感知和理解是核心能力,這其中的視覺感知更是機(jī)器和物理世界交互的基礎(chǔ)。近期,聚焦人居環(huán)境具身智能核心技術(shù)攻關(guān)的福田實(shí)驗(yàn)室正式掛牌,該實(shí)驗(yàn)室正式由IDEA研究院與騰訊合作組建,致力于打造最前沿的具身智能創(chuàng)新平臺(tái)。

多模態(tài)模型通常需要處理大量的圖片并生成圖文對(duì),而僅依靠人工標(biāo)注的方式不僅耗時(shí)、成本高,而且在面對(duì)海量數(shù)據(jù)時(shí)難以保障標(biāo)注的一致性和效率。DINO-X的萬(wàn)物識(shí)別能力,可以幫助標(biāo)注公司快速完成大批量的高質(zhì)量圖像標(biāo)注或者為標(biāo)注員提供自動(dòng)化的輔助結(jié)果,從而降低手工標(biāo)注的工作量。

視障人士獨(dú)立性和生活質(zhì)量的提升對(duì)信息獲取與感知等方面有著極高的要求,DINO-X的萬(wàn)物識(shí)別能力恰逢其時(shí)地為助盲工具開發(fā)帶來(lái)福音,為視障人士的未來(lái)生活帶來(lái)美好希望。

在自動(dòng)駕駛、智能安防、工業(yè)檢測(cè)等領(lǐng)域,DINO-X使得系統(tǒng)能夠應(yīng)對(duì)各種復(fù)雜場(chǎng)景,識(shí)別出傳統(tǒng)模型難以檢測(cè)的物體,為產(chǎn)業(yè)升級(jí)和社會(huì)發(fā)展注入新的活力。

IDEA研究院一系列視覺大模型,為解決業(yè)務(wù)場(chǎng)景現(xiàn)存的小模型繁多、維護(hù)迭代成本高昂、準(zhǔn)確率不足等問(wèn)題,提供了可行的方案。

Dino-X基座大模型零樣本檢測(cè)能力,為廣大中小企業(yè)客戶提供便捷高效的計(jì)數(shù)和標(biāo)注工具

目前,IDEA研究院與多家企業(yè)聯(lián)合開展視覺大模型及應(yīng)用場(chǎng)景的探索研究工作,在視覺大模型的落地方面取得了實(shí)質(zhì)性進(jìn)展。

一方面,有別于市場(chǎng)上的以語(yǔ)言為基礎(chǔ)的多模態(tài)大模型基于全圖理解的方法, 通過(guò)在物體級(jí)別的理解上加入語(yǔ)言模塊優(yōu)化大模型幻覺問(wèn)題。

另一方面結(jié)合自研的“視覺提示優(yōu)化”方法,無(wú)需更改模型結(jié)構(gòu),不用重新訓(xùn)練模型,實(shí)現(xiàn)小樣本下的場(chǎng)景化定制。

IDEA研究院通用視覺大模型行業(yè)平臺(tái)架構(gòu)

論文鏈接: https://arxiv.org/abs/2411.14347

官網(wǎng)鏈接:https://deepdataspace.com/home

本文來(lái)源:量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部
    国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av