首頁 > 科技要聞 > 科技> 正文

智譜Agent搶跑OpenAI,GLM-PC一句話搞定一切!網友:有AGI那味了

新智元 整合編輯:趙凱松 發(fā)布于:2025-02-03 00:15

春節(jié)期間最少不了的是什么?

發(fā)拜年微信!

想象這樣一個場景:微信上給xxx發(fā)送祝福語,再給他發(fā)送一個新春圖片和一個新春祝賀視頻。

這一幕,聽起來是不是比搶紅包還刺激?

就在剛剛,一個具有「代碼思維」智能體悄然而至——GLM-PC v1.1。

它可以成為你的「手替」,任何事都可以由它代勞。

這不,我們上傳一張圖片后,然后給出指令——「識別圖片中的信息生成朋友圈文案,并發(fā)送一個朋友圈」。

它首先會將任務分解成多個步驟,并對圖片內容進行識別,生成相應配文。

然后,AI瞬間跳轉到微信,打開朋友圈,將圖片上傳,再附上文案,一鍵發(fā)送就搞定了。

這個神操作,讓許多人看了驚掉下巴。

現(xiàn)在的AI都這么強了?

沒錯,這個在去年11月就搶跑了OpenAI的「GLM-PC」,就是智譜發(fā)布的全球首個面向公眾、回車即用的電腦智能體,小名叫「牛!埂

爆料稱OpenAI超級智能體也將在本周問世

現(xiàn)在,經過全新升級的v1.1版本,不僅能夠像人類一樣「觀察」和「操作」計算機,自主完成各種復雜任務;而且還擁有「深度思考」模式,以及專門用來做邏輯推理和代碼生成的功能。

值得一提的是,GLM-PC的Window和Mac客戶端已經同步上線了。

試用地址:https://cogagent.aminer.cn

左腦與右腦,GLM-PC的Agent思維結構

2025年,注定是智能體「元年」。OpenAI曾被曝出內部AGI路線圖,將這一終極目標的實現(xiàn)劃分了五級。目前已經實現(xiàn)了L2級,下一步就是向自主AI智能體邁進。

幾周前,ChatGPT「任務」功能,已初步向所有人展示了AI自主看股票、提醒日程的能力。

不僅如此,還有谷歌、微軟、Ahthropic、亞馬遜等國內外科技公司門,紛紛開始在智能體領域發(fā)力。

與大洋彼岸的巨頭們相比,智譜在智能體領域,早已展現(xiàn)出令人矚目的領先優(yōu)勢。

值得一提的是,24年10月,他們推出的AutoGLM憑借流暢的智能手機操作能力,迅速引爆科技圈。

智譜之所以能夠成為這一領域的先行者,離不開這家公司從成立伊始就繪制出的AI路線圖。

2024年,智譜同樣將AGI的實現(xiàn)劃分了5級,能力從L1逐步攀升至L5。

在他們看來,AI的能力早已突破了傳統(tǒng)語言和文本處理限制。

目前,AI已經從語言/文本逐漸擴展到多模態(tài)、工具使用,未來還會有更多的自我認知。

而最近,智譜CEO張鵬在Agent OpenDay上,再次闡述了公司對AI能力演進的戰(zhàn)略構想:

截至目前,LLM已經初步具備了人類與現(xiàn)實物理世界互動的部分能力。智能體將會極大地提升L3使用工具能力,同時開啟對L4自我學習能力的探索。

這個技術愿景,是智譜所獨有的。

GLM-PC v1.1的推出,意味著智譜在L3級智能體的探索又有了新的進展!

截至目前,智譜已經有了手機智能體AutoGLM和電腦智能體GLM-PC兩大系統(tǒng),實現(xiàn)了工具使用能力的深度突破。

這兩個系統(tǒng)分別覆蓋了移動設備和桌面端——

AutoGLM在手機上,能夠精準操控各類應用,實現(xiàn)跨場景智能交互;而GLM-PC則將電腦端的操作提升到了新的高度,基于視覺語言模型VLM的圖形界面智能體GUI Agent,實現(xiàn)邏輯推理與感知認知的結合,凸顯出AI對復雜系統(tǒng)工具的掌控力。

這些并非是簡單功能的堆砌,而是對人機交互范式的根本性重塑。

根據這個技術路線圖,AI實現(xiàn)L3之后,通過不斷優(yōu)化工具使用能力,正為L4階段——自主學習發(fā)明創(chuàng)新奠定了扎實的技術基礎。

這也正是智譜下一步,所要開拓的智能。

多模態(tài)感知,通往全GUI空間交互

回到現(xiàn)在,當前LLM一個明顯的缺陷是:能夠公開使用的純文本形式的API工具非常有限。

這就大大限制了語言模型作為Agent的使用場景。那么,我們有什么辦法能破局?

智譜選擇了一條通往全GUI空間交互的道路——借助多模態(tài)感知!

這個思路,就體現(xiàn)在以CogAgent為代表的一系列基于視覺語言模型(VLM)的圖形界面智能體(GUI Agent)上。

基于VLM的GUI Agent通過模仿人類行為,就能感知和理解交互界面中的視覺元素與整體布局,并能模擬人類做出任意元操作(例如點擊、鍵盤輸入、懸浮、拖拽等)。

這,就拓寬了Agent在虛擬交互空間中的使用邊界——理論上,任意人類能做的GUI操作,從此多模態(tài)Agent都能完成了!

接下來的問題,就是如何才能讓這些智能體去完成實際應用中的復雜任務了。

為此,我們需要打造一個在感知、思維,以及執(zhí)行層面完備的Agent系統(tǒng)。

感知層面,能接受任務所需的多元信號,如文字、圖像、視頻、音頻。

思維層面,具備嚴謹?shù)倪壿嬎季S能力和復雜任務規(guī)劃能力(類似左腦),也具備高效全面的感知能力、靈活的擬人操作能力(類似右腦)。

執(zhí)行層面,能完成全GUI空間操作,接收環(huán)境反饋并自我糾正。

在這之中,最為重要的一點就是,要在邏輯性和創(chuàng)造性之間實現(xiàn)平衡。

如今,智譜通過借鑒人類「左腦」與「右腦」分工,成功實現(xiàn)了邏輯推理與感知認知的深度結合,賦予了GLM-PC這種能力。

Agent左腦:代碼思維框架與邏輯執(zhí)行

智能體的大腦,就好比人類一樣,左腦負責邏輯語言、數(shù)學等理性的信息,而右腦主要負責的是視覺、感知等感性信息。

那么,GLM-PC的「左腦」便承擔著嚴謹?shù)倪壿嬐评、代碼,以及任務執(zhí)行職責。

它主要專注于規(guī)劃、循環(huán)執(zhí)行、動態(tài)反思、糾錯與優(yōu)化。

接下來,讓我們在實際demo中,具體看看GLM-PC(牛牛)是怎么做到的。

規(guī)劃(Planning)

想象一下,若是有一個超級助手基于用戶需求,能瞬間將復雜任務拆解為清晰可行的步驟,是不是會省力得多。

GLM-PC「左腦」,正是這樣一個智能規(guī)劃的專家。

通過綜合分析目標與資源,它能夠生成執(zhí)行路線圖,并將大型任務自動分解為可管理的子任務,以構建出清晰的執(zhí)行路徑。

馬上就要春節(jié)了,假設你要采購一批年貨,直接將匯總的圖片鏈接扔給牛牛,并告訴它——

獲取圖片中的商品信息,在桌面新建Excel存儲信息,把商品信息加入淘寶購物車。

牛牛獲取圖片中的信息后,將指令中的需求拆分,先保存Excel文件,然后列出了將魔芋爽、薯片、豬肉脯、辣條添加到購物車的分解步驟。

在規(guī)劃完成后,GLM-PC將啟動代碼生成模塊,執(zhí)行邏輯循環(huán),逐步推進任務完成

接下來,就是見證奇跡的時刻了。

循環(huán)執(zhí)行(Looping Execution)

牛牛進入淘寶主頁,開始搜索魔芋爽,點擊加入購物車;然后再回到搜索主頁,查找薯片加入購物車;之后繼續(xù)執(zhí)行,直到所有完成商品加入購物車的任務。完全不用手動,AI就幫你做了。這是因為在規(guī)劃階段結束后,GLM-PC 將啟動代碼生成模塊,執(zhí)行邏輯循環(huán),逐步推進任務完成。

可見,GLM-PC的循環(huán)機制確保了任務的精確執(zhí)行與高度自動化,從而實現(xiàn)從輸入到輸出的完整閉環(huán),無需人工干預。

長思考能力:動態(tài)反思、糾錯與優(yōu)化

以上,還只是GLM-PC左腦基本的一個操作。除了生成靜態(tài)規(guī)劃,它還能在執(zhí)行任務過程中,根據環(huán)境信息實時動態(tài)調整,反思糾正和自我糾錯,從而持續(xù)優(yōu)化解決方案。舉個栗子,你想假期與朋友聚會準備去看一場「春節(jié)賀歲檔電影」,小紅書會有很多推薦。這時,你根本不用自己去手動搜索,直接打開牛牛,告訴它——

在小紅書搜索「春節(jié)賀歲檔電影」,引用第一篇圖文貼的貼子圖片,把圖片發(fā)送到微信上的{GGG}群聊,問他們想看哪一部電影。

如同上個案例,牛牛收到指令后逐步分解任務,先去小紅書中搜索「春節(jié)賀歲檔電影」第一個帖子。接下來,它又回到工作臺,開啟一步任務——進入微信找到「GGG」群聊,然后發(fā)送消息。這樣一來,你能省下大把手動篩選和分享的時間?偠灾,通過這些自動化操作,GLM-PC能夠提供了更加便捷的社交互動和決策支持。

Agent右腦:圖像與GUI認知

見識了GLM-PC「左腦」的強大,它的「右腦」是一個具有深度感知與交互體驗的智能系統(tǒng)。其核心功能涵蓋了多個方面,比如GUI圖像理解、用戶行為認知、圖像語義解析、多模態(tài)信息融合。還以春節(jié)常見的場景為例,現(xiàn)在有了GLM-PC就能向領導「花樣」送祝福了!

給微信上的「大Boss」發(fā)送2025年新春祝福語,再給他制作一個新春圖片,發(fā)送給他

GLM-PC進入微信找到「大Boss」,然后生成簡短的祝福語,確認發(fā)送。

然后,再回到控制臺,生成一張精美的圖片發(fā)給老板。

有了這個拜年神器,你只管玩手機,群發(fā)多少個都能搞定。

左右腦協(xié)作,迎來更強泛化能力!

正是上面這種左右腦協(xié)作的模式,讓GLM-PC成為了Agent of Agents。

現(xiàn)在,它不僅能處理復雜的邏輯任務,在面對開放性問題時,適應能力、創(chuàng)造力和泛化能力也更強了。

比如,即使從未在訓練中見過的網頁和任務,GLM-PC都能完成。

有了這個AI,手寫抄題可以省媽了。

現(xiàn)在只需將試卷PDF文檔上傳,讓GLM-PC提取出想要界面的內容,簡直易如反掌。

幫我把桌面的 排列組合與二項式定理練習.pdf文件打開, 引用總結當前界面的前幾條數(shù)學題 ,放到桌面新建word文檔中

成功提取文字后,AI會自動將信息保存到Word文檔中。

再比如,我想要追一部劇——「驛站」,直接告訴GLM-PC:「騰訊視頻搜索『驛站』電視劇,并播放」。

它會立即跳轉到騰訊主頁,搜索關鍵詞,打開了視頻。

背后模型

GLM-PC的背后,智譜自主研發(fā)的多模態(tài)Agent模型CogAgent與代碼模型CodeGeex。

在智能體運轉的過程中,首先會生成代碼形式的思維框架,指揮GLM-PC的工作流程和工具調用。

期間,GLM-PC可以穩(wěn)定高效地應對各種復雜場景和任務。

并且在實際執(zhí)行時,GLM-PC會感知到來自GUI環(huán)境、程序執(zhí)行環(huán)境與模型間的多層反饋,協(xié)助反思,有效地自我糾正與優(yōu)化。

CogAgent-9B-20241220執(zhí)行指令「標題設置為CogAgent」的過程

其實早在2023年8月,智譜就開始研發(fā)首個基于視覺語言模型(VLM)的開源GUI智能體模型——CogAgent。

在經過一年多的迭代升級之后,CogAgent于2024年12月重磅升級到了「9B-20241220」版本,并成功應用在了剛剛推出的GLM-PC上。

值得一提的是,最新的CogAgent-9B-20241220除了已經用在自家產品上外,團隊為了讓研究者們有機會共同探索與提升與訓練GUI Agent,已經在第一時間進行了全面的開源。

開源項目:https://github.com/THUDM/CogAgent

評測結果顯示,CogAgent-9B-20241220模型在多平臺、多類別的GUI agent及GUI grounding benchmarks上取得了當前最優(yōu)的結果。

其中,CogAgent在GUI定位(Screenspot)、單步操作(OmniAct)、中文step-wise榜單(CogAgentBench-basic-cn)、多步操作(OSWorld)都取得了領先的結果,僅在OSworld上略遜于針對Computer Use特化的Claude-3.5-Sonnet和結合外接GUI grounding模型的GPT-4o。

下一步,裝進AIPC

下一步,GLM-PC還將與AIPC深度融合,讓所有人觸手可及。

據稱,智譜正與聯(lián)想、華碩等知名PC廠商展開深度合作探討,共同推動AIPC的創(chuàng)新與發(fā)展。

AIPC絕不僅僅是一臺電腦,更是Agent在個人計算領域的全新應用。

未來,是一個智能無限的世界。

個人電腦能夠完全理解你的意圖,自動幫你優(yōu)化工作流程,而且7x24小時待命,隨時提供精準的智能支持。

現(xiàn)在,GLM-PC正將這個未來變成現(xiàn)實。而我們,已經站在了這場智能革命的最前沿。

文章來源:新智元

新智元

網友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部
国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av