無(wú)需用戶提示,AI就可以識(shí)別萬(wàn)物! 而且精度更高、速度更快。 IDEA研究院創(chuàng)院理事長(zhǎng)沈向洋官宣IDEA研究院最新成果:通用視覺大模型DINO-X。 它實(shí)現(xiàn)視覺任務(wù)大一統(tǒng),支持各種開發(fā)世界感知和目標(biāo)理解任務(wù),包括開放世界對(duì)象檢測(cè)與分割、短語(yǔ)定位、視覺提示計(jì)數(shù)、姿態(tài)估計(jì)、無(wú)提示對(duì)象檢測(cè)與識(shí)別、密集區(qū)域字幕等。 這背后得益于,他們構(gòu)建了超過(guò)一億高質(zhì)量樣本的大型數(shù)據(jù)集Grounding-100M。 與之前DINO家族中類似,DINO-X 也分為DINO-X Pro模型和DINO-X Edge模型。 前者可為各種場(chǎng)景提供更強(qiáng)的感知能力,后者經(jīng)過(guò)優(yōu)化,推理速度更快,更適合部署在邊緣設(shè)備上。 實(shí)驗(yàn)結(jié)果表明,DINO-X Pro 模型在 COCO、LVIS-minival 和 LVIS-val 零鏡頭物體檢測(cè)基準(zhǔn)測(cè)試中分別獲得了 56.0 AP、59.8 AP和 52.4 AP 的成績(jī)。 尤其是在 LVIS-minival 和 LVIS-val 這兩個(gè)罕見類別的基準(zhǔn)測(cè)試中實(shí)現(xiàn)新SOTA—— 分別獲得了 63.3 AP 和 56.5 AP 的成績(jī),都比之前的SOTA性能提高了 5.8 AP。 這一結(jié)果表明,它在識(shí)別長(zhǎng)尾物體方面的能力有了顯著提高。 在開放世界,AI識(shí)別萬(wàn)物 總結(jié)來(lái)看,DINO-X主要有四個(gè)方面的特點(diǎn)。 首先就是全面檢測(cè),幾乎可識(shí)別所有物體。DINO-X稱得上目前業(yè)界檢測(cè)最全的通用視覺模型,甚至無(wú)需用戶提示。 然后是泛化和通用性。在面對(duì)未見過(guò)的物體或環(huán)境時(shí),模型仍能保持高水平的檢測(cè)性能。 細(xì)粒度目標(biāo)理解:DINO-X通過(guò)統(tǒng)一多個(gè)視覺任務(wù),實(shí)現(xiàn)了多樣化輸出,包括邊界框、分割掩碼、關(guān)鍵點(diǎn)和描述文本,提升了模型在復(fù)雜場(chǎng)景下的理解能力。 多任務(wù)感知與理解:DINO-X整合了多個(gè)感知頭,支持包括分割、姿態(tài)估計(jì)、區(qū)域描述和基于區(qū)域的問(wèn)答在內(nèi)的多種區(qū)域級(jí)別任務(wù),讓感知到理解逐步成為了現(xiàn)實(shí)。 長(zhǎng)尾目標(biāo)檢測(cè)優(yōu)化:為了支持長(zhǎng)尾目標(biāo)的檢測(cè)任務(wù),DINO-X不僅支持文本提示和視覺提示,還支持經(jīng)過(guò)視覺提示優(yōu)化的自定義提示。 跟之前的版本 GroundingDINO 1.5 Pro 和 Grounding DINO 1.6 Pro相比,此次通用視覺大模型DINO-X 進(jìn)一步增強(qiáng)了語(yǔ)言理解能力,同時(shí)在密集物體檢測(cè)場(chǎng)景中表現(xiàn)出色。 如何做到? DINO-X可接受文本提示、視覺提示和自定義提示,并能同時(shí)生成從粗略的表示(如邊框)到精細(xì)的細(xì)節(jié)(包括遮罩、關(guān)鍵點(diǎn)和對(duì)象標(biāo)題)等各種輸出。 DINO-X Pro的核心架構(gòu),與Grounding DINO 1.5類似,利用預(yù)先訓(xùn)練好的 ViT 模型作為主要的視覺骨干,并在特征提取階段采用了深度早期融合策略。 但不同的是,他們擴(kuò)大了DINO-X Pro在輸入階段的提示支持,除了文本,還支持視覺提示和自定義提示,以滿足包括長(zhǎng)尾物體在內(nèi)的各種檢測(cè)需求。 而對(duì)于DINO-X Edge版本,他們利用 EfficientViT作為高效特征提取的骨干,并采用了類似Transformer編碼器-解碼器架構(gòu)。 此外,為了提高 DINO-X Edge 模型的性能和計(jì)算效率,他們還對(duì)模型結(jié)構(gòu)和訓(xùn)練技術(shù)做了幾個(gè)方面的改進(jìn)。 更強(qiáng)的文本提示編碼器,采用了與pro模型相同的 CLIP 文本編碼器。 知識(shí)提煉:從 Pro 模型中提煉知識(shí),以提 Edge 模型的性能。具體來(lái)說(shuō),團(tuán)隊(duì)利用基于特征的蒸餾和基于響應(yīng)的蒸餾,分別調(diào)整Edge模型和 Pro模型之間的特征和預(yù)測(cè)對(duì)數(shù)。 改進(jìn)FP16推理:采用浮點(diǎn)乘法歸一化技術(shù),在不影響精度的情況下將模型量化為 FP16。 擁有了對(duì)開放世界的視覺感知 DINO-X的萬(wàn)物識(shí)別能力,讓其擁有了對(duì)開放世界(Open World)的視覺感知,可以輕松應(yīng)對(duì)真實(shí)世界中的眾多不確定性和開放環(huán)境。 IDEA研究院創(chuàng)院理事長(zhǎng)沈向洋提到了具身智能、大規(guī)模多模態(tài)數(shù)據(jù)的自動(dòng)標(biāo)注、視障人士服務(wù)等這幾個(gè)場(chǎng)景。 對(duì)具身智能而言,開發(fā)環(huán)境感知和理解是核心能力,這其中的視覺感知更是機(jī)器和物理世界交互的基礎(chǔ)。近期,聚焦人居環(huán)境具身智能核心技術(shù)攻關(guān)的福田實(shí)驗(yàn)室正式掛牌,該實(shí)驗(yàn)室正式由IDEA研究院與騰訊合作組建,致力于打造最前沿的具身智能創(chuàng)新平臺(tái)。 多模態(tài)模型通常需要處理大量的圖片并生成圖文對(duì),而僅依靠人工標(biāo)注的方式不僅耗時(shí)、成本高,而且在面對(duì)海量數(shù)據(jù)時(shí)難以保障標(biāo)注的一致性和效率。DINO-X的萬(wàn)物識(shí)別能力,可以幫助標(biāo)注公司快速完成大批量的高質(zhì)量圖像標(biāo)注或者為標(biāo)注員提供自動(dòng)化的輔助結(jié)果,從而降低手工標(biāo)注的工作量。 視障人士獨(dú)立性和生活質(zhì)量的提升對(duì)信息獲取與感知等方面有著極高的要求,DINO-X的萬(wàn)物識(shí)別能力恰逢其時(shí)地為助盲工具開發(fā)帶來(lái)福音,為視障人士的未來(lái)生活帶來(lái)美好希望。 在自動(dòng)駕駛、智能安防、工業(yè)檢測(cè)等領(lǐng)域,DINO-X使得系統(tǒng)能夠應(yīng)對(duì)各種復(fù)雜場(chǎng)景,識(shí)別出傳統(tǒng)模型難以檢測(cè)的物體,為產(chǎn)業(yè)升級(jí)和社會(huì)發(fā)展注入新的活力。 IDEA研究院一系列視覺大模型,為解決業(yè)務(wù)場(chǎng)景現(xiàn)存的小模型繁多、維護(hù)迭代成本高昂、準(zhǔn)確率不足等問(wèn)題,提供了可行的方案。 △Dino-X基座大模型零樣本檢測(cè)能力,為廣大中小企業(yè)客戶提供便捷高效的計(jì)數(shù)和標(biāo)注工具目前,IDEA研究院與多家企業(yè)聯(lián)合開展視覺大模型及應(yīng)用場(chǎng)景的探索研究工作,在視覺大模型的落地方面取得了實(shí)質(zhì)性進(jìn)展。 一方面,有別于市場(chǎng)上的以語(yǔ)言為基礎(chǔ)的多模態(tài)大模型基于全圖理解的方法, 通過(guò)在物體級(jí)別的理解上加入語(yǔ)言模塊優(yōu)化大模型幻覺問(wèn)題。 另一方面結(jié)合自研的“視覺提示優(yōu)化”方法,無(wú)需更改模型結(jié)構(gòu),不用重新訓(xùn)練模型,實(shí)現(xiàn)小樣本下的場(chǎng)景化定制。 △IDEA研究院通用視覺大模型行業(yè)平臺(tái)架構(gòu)論文鏈接: https://arxiv.org/abs/2411.14347 官網(wǎng)鏈接:https://deepdataspace.com/home 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。