首頁 > 科技要聞 > 科技> 正文

OpenAI被狙,谷歌Gemini 2.0掀翻牌桌!最強智能體組團擊斃o1

新智元 整合編輯:太平洋科技 發(fā)布于:2024-12-13 16:28

OpenAI Day 5,風頭被谷歌再一次搶了。

12月12日,谷歌CEO劈柴、DeepMind CEO哈薩比斯、DeepMind CTO Kavukcuoglu三位大佬聯(lián)手官宣:新一代原生多模態(tài)模型Gemini 2.0 Flash正式發(fā)布!

至此,Gemini正式進入2.0時代!

從命名來看,Gemini 2.0 Flash很可能是新系列的最小杯,但它的性能已經(jīng)超越了上一代大哥1.5 Pro,而且速度提高了一倍。

甚至,它的性能完全超越o1-preview、o1-mini,僅次于GPT-4o(2024-11-20)。

不僅如此,2.0 Flash還具有出色的多語言能力,并可以原生調用谷歌搜索等工具。

值得一提的是,Gemini 2.0 Flash非常擅長編碼,在SWE-bench Verified基準上,直接擊敗完整版o1。

當然,除了新模型之外,谷歌還帶來了一系列基于Gemini 2.0打造的智能體創(chuàng)新:

通用AI助手Project Astra

在瀏覽器中進行交互的智能體Project Mariner

為開發(fā)者打造的AI代碼智能體Jules

游戲輔助智能體

機器人智能體

而這僅僅是一個開始。

對于AI智能體來說,2025年將是關鍵之年,而谷歌將憑借著Gemini 2.0支撐起自己的智能體工作流。

Gemini 2.0,迄今最強大的AI模型

Gemini 1.0和1.5,是第一批原生多模態(tài)模型。

NotebookLM就是很好的例子,說明了多模態(tài)和長上下文可以為人們帶來什么。

今天,谷歌專為新智能體時代打造的下一代模型——Gemini 2.0,重磅登場了。

這個迄今最強大的模型,能使我們構建更接近通用助手的全新AI智能體。

下一步,谷歌會將Gemini 2.0的高級推理功能引入AI Overviews,解決更復雜的主題和多步驟問題,包括高級數(shù)學方程、多模態(tài)查詢和編碼。

Gemini 2.0的進步,得益于谷歌對全棧式AI創(chuàng)新長達十年的投資。它基于定制硬件構建,比如第六代 TPU Trillium。TPU為Gemini 2.0的訓練和推理,提供了100%的支持。

Gemini 2.0支持全新的多模態(tài)AI智能體,它們能看到、聽到你周圍的世界,還能思考、計劃、記住、采取行動。

Gemini 2.0 Flash,原生多模態(tài)

今天,谷歌發(fā)布了Gemini 2.0系列模型中的第一個——Gemini 2.0 Flash的實驗版本。

基于谷歌迄今最受開發(fā)者歡迎的1.5 Flash,Gemini 2.0 Flash在保持同樣快速響應時間的同時,提供了更強勁的性能表現(xiàn)。

值得注意的是,2.0 Flash在關鍵基準測試上不僅超越了1.5 Pro的表現(xiàn),而且速度提高了一倍。

除了支持圖像、視頻和音頻等多模態(tài)輸入外,2.0 Flash還支持多模態(tài)輸出,包括原生生成的圖文混合內容和可調控的多語言文本轉語音(Text-to-Speech,TTS)功能,并且可以原生調用多種工具,如谷歌搜索、代碼執(zhí)行以及第三方用戶自定義函數(shù)等。

在各項基準測試中,相較于前一代1.5 Pro和1.5 Flash,最新2.0 Flash實現(xiàn)了全面的提升,尤其是代碼、數(shù)學、推理能力方面。

不過,在長上下文、音頻方面,2.0 Flash性能非常有限。

目前,Gemini 2.0 Flash Experimental在Google AI Studio和Vertex AI平臺上,通過Gemini API正式向開發(fā)者開放。多模態(tài)輸入和文本輸出功能,均可使用。

不過,文本轉語音、原生圖像生成功能,現(xiàn)僅向首批合作伙伴開放。

為支持開發(fā)者構建動態(tài)交互式應用,谷歌還同步推出了新的多模態(tài)實時API,支持實時音頻、視頻流輸入,并能夠集成調用多種工具組合。

對于普通用戶來說,即日就可直接用上2.0 Flash Experimental(網(wǎng)頁端),移動端很快就會上線。

另外,正式版模型將于2025年1月份推出,同時將提供更多模型規(guī)模選擇。

開啟智能體新紀元

Gemini 2.0 Flash的面世,標志著AI交互再次進入了全新的階段。

最令人興奮的是,2.0 Flash具備了原生的用戶交互界面的能力。

同時,它還在多模態(tài)推理、長文本理解、復雜指令執(zhí)行與規(guī)劃組合式函數(shù)調用、原生工具調用以及更低的延遲,取得多項技術突破。

這意味著,用戶可以獲得更加流暢、更直觀的AI交互體智能體體驗。

AI智能體的實際應用,是一個充滿無限可能的研究領域。

谷歌正通過不斷原型創(chuàng)新,打造出原生用戶界面新體驗:

「Project Astra」——探索通用AI助手的未來

「Project Mariner」——從瀏覽器入手,探索人類與智能體交互的未來方向

「Jules」——專為開發(fā)者打造的AI代碼智能體

Project Astra:讓多模態(tài)AI走入現(xiàn)實生活

今年I/O大會上,谷歌大殺器Project Astra首次亮相,在視覺識別和語音交互上,與GPT-4o幾乎不相上下。

這一次,得到Gemini 2.0加持后,Project Astra能力也在以下四大方面得到改進:

- 更強的對話能力

Project Astra現(xiàn)在不僅能夠使用多種語言進行對話,還支持混合語言交談,同時對口音和生僻詞的理解也更加出色。

- 擴展的工具集成

通過Gemini 2.0,Project Astra可以調用谷歌搜索、Lens和地圖功能,讓其作為日常生活助手變得更加實用。

- 增強的記憶能力

Project Astra現(xiàn)在可以保持長達10分鐘的對話記憶,并能記住更多用戶之前的對話內容,從而提供更加個性化的服務。

- 優(yōu)化的響應速度

借助新的流式處理能力和原生音頻理解技術,Project Astra現(xiàn)在可以以近乎人類對話的速度來理解語言。

此外,谷歌還計劃將些功能引入Gemini應用等產(chǎn)品,并進一步擴展到智能眼鏡等其他設備形式。

在演示視頻中,研究小哥用裝載了Project Astra的測試版Pixel手機和智能眼鏡向我們展示了Astra的多模態(tài)能力。

首先,小哥在手機里打開了一封包含公寓信息的郵件,讓Astra幫他識別并記住門禁碼。

Astra直接讀屏獲取密碼,告訴了他該如何操作開門,并記住了這個密碼。

在視頻的結尾,研究小哥在倫敦逛了一大圈回來,戴著智能眼鏡向Astra詢問門禁碼,Astra準確地回答了出來。

小哥讓Astra讀取衣服上的洗滌標簽,Astra馬上給出洗衣建議。

接著他又將手機鏡頭轉向洗衣機,詢問Astra該如何操作洗衣機,Astra很快地提供了指導。

研究小哥準備出門,于是拿了一份地點清單,請Astra介紹了幾個地方。

路過面包店看到司康(scone),小哥順口問了下「scone」發(fā)音的問題。

隨便指了個街邊的雕塑,Astra就能講出它的來歷。

小哥看到倫敦街頭的山羊絨,詢問Astra它適不適合帶回家種。

要知道,小哥在提問的時候并沒有告訴Astra他的家在紐約,但Astra記得之前的對話,流暢回答。這體現(xiàn)出Astra的跨會話記憶能力。

研究小哥還測試了一下Astra給朋友挑禮物的能力。他在手機里瀏覽了一遍朋友的書單,讓Astra讀屏識別,并總結出這個朋友的閱讀品味。

然后小哥挑了幾本書,讓Astra從中挑選最適合的一本。

小哥將手機攝像頭對著路邊的一輛公交車,詢問Astra它是否會路過唐人街。

對于沿途會路過的地標,Astra也能迅速提供相關信息。

Astra的多語言能力也不容小覷,不僅英語溜,還能用法語和泰米爾語聊天。

除了能在手機上使用Astra,Astra還能搭載在智能眼鏡上。

視頻中,研究小哥戴著搭載Astra的智能眼鏡上街了,上來就問了一句倫敦的天氣,Astra對答如流。

騎行時,Astra還能認出路過的公園并介紹它的信息。

小哥準備騎車回公寓,讓Astra查詢沿途有沒有超市。

Project Mariner:能幫你完成復雜任務的AI智能體

Project Mariner,或許聽起來陌生。

但此前曾有外媒爆料稱,谷歌自研全新智能體項目「Project Jarvis」能夠將Chrome任務自動化,并由未來Gemini 2.0版本驅動,預計在今年12月發(fā)布。

種種跡象表明,賈維斯項目與Project Mariner有極大的關聯(lián)。

正如博客所述,Project Mariner是一個基于Gemini 2.0構建的早期「研究原型」。它從瀏覽器入手,探索人工智能與人類交互的未來。

Project Mariner的核心能力在于,卓越的信息理解和分析,它能夠全面感知瀏覽器屏幕上的各種信息。

比如像素級精準識別,以及網(wǎng)頁元素(如文本、代碼、圖像、表單等)智能分析。

演示中,打開一個在線谷歌表格——戶外公司,然后喚出Project Mariner(目前是Chrome實驗性擴展程序)。

輸入提示「記住這份公司的名單,然后,找到他們的網(wǎng)站,并查找我可以聯(lián)系到他們的郵箱。記住這些方便我日后使用」

隨后,智能體讀取了表格中的內容,并了解到了所有公司名稱。

通過搜索第一家公司名字,AI智能體點擊查詢后,進入了Benchingmark Climbing的官網(wǎng)主頁,找到右上角「信息」菜單欄中的「關于我們」。

一直下滑到網(wǎng)頁末端,找到了這家公司的郵箱地址。

接下來,是第二家公司Lunkerhunt,同樣搜索找到官網(wǎng),公司信息介紹得到郵件地址。

在右側對話欄中,你可以清晰看到智能體的推理過程,能夠更清晰理解它的操作。

表格中另外兩家公司郵件查找,AI智能體同樣執(zhí)行如上的重復操作——導航搜索、點擊鏈接、滾動頁面、記錄信息。

在瀏覽完第四個網(wǎng)站后,智能體完成了任務,并列出了所有的郵箱地址。

以上,我們所看到的能力,其實與Anthropic所展示的Claude 3.5操作計算機界面,執(zhí)行各種任務的能力幾乎一致。

智能體也是巨頭們將在明年,重點布局的方向之一。

在業(yè)界權威的WebVoyager基準測試中,Project Mariner已交出了令人驚艷的成績單:

作為單一AI智能體系統(tǒng),它在真實網(wǎng)絡任務的端到端測試中,取得了驚人的83.5%成功率。

這可能意味著,AI已經(jīng)能夠相對準確地模仿人類在互聯(lián)網(wǎng)上,完成任務的行為。

此外,Project Mariner最大的亮點是其嚴格的安全設計,用戶始終可以保持對系統(tǒng)的控制。

舉例來說,其操作權限僅限當前瀏覽器的標簽頁,而且僅能執(zhí)行一些基本操作:輸入、滾動、點擊。

若在執(zhí)行購物等敏感操作之前,必須獲得用戶的最終確認。

盡管仍處于早期研究階段,但Project Mariner證明了智能體在瀏覽器中導航的可能性,其意義遠遠超過了技術本身。

雖然目前在完成任務時,可能存在準確度不足和速度較慢的問題,但這都將隨著技術迭代快速得到改善。

Jules:面向開發(fā)者的AI智能體

隨著AI代碼助手的迅速發(fā)展,它已從基礎的代碼搜索工具進化為深度融入開發(fā)者工作流程的智能助手。

如今,在評測真實軟件工程任務的基準SWE-bench Verified中,搭載了代碼執(zhí)行工具的2.0 Flash已經(jīng)可以取得51.8%的優(yōu)異成績。

得益于2.0 Flash超群的推理速度,智能體能夠快速生成和評估數(shù)百個潛在解決方案,并通過現(xiàn)有單元測試和Gemini自身的判斷,篩選出最優(yōu)方案。

想象一下,你的團隊剛剛完成了一次Bug Bash,現(xiàn)在你面臨著一大堆待修復的bug。

從今天開始,這些讓人頭大的Python和Javascript編程任務,全部都可以交給由Gemini 2.0驅動的AI代碼智能體——Jules去做了。

Jules可以異步工作并與你的GitHub工作流程集成,在你專注于真正想要構建的內容時,它會處理bug修復和其他耗時的任務。

Jules會制定全面的多步驟計劃來解決問題,高效地修改多個文件,甚至準備拉取請求(pull request)直接將修復合并回 GitHub。

雖然還處于早期階段,但從谷歌內部的使用經(jīng)驗來看,Jules可以為開發(fā)者帶來諸多便利:

- 更高的生產(chǎn)力

把問題和編程任務交給 Jules,實現(xiàn)高效的異步編程。

- 進度跟蹤

通過實時更新隨時了解情況,優(yōu)先處理最需要關注的任務。

- 完全的開發(fā)者控制

審查Jules制定的計劃,根據(jù)需要提供反饋或請求調整,并在合適的時候將Jules編寫的代碼合并到項目當中。

游戲、機器人AI智能體

谷歌DeepMind一直致力于通過游戲來提升AI模型在規(guī)則遵循、策略規(guī)劃和邏輯推理方面的能力。

就在上周,能夠僅從一張圖片就創(chuàng)造出無限種可玩3D世界的Genie 2誕生。

秉承這一研究傳統(tǒng),谷歌基于Gemini 2.0開發(fā)了新的AI智能體,能夠協(xié)助玩家在視頻游戲的虛擬世界中探索。

這些「游戲助手」智能體可以單純依靠觀察屏幕上的動作來理解游戲機制,并通過實時對話為玩家提供下一步行動的建議。

此外,它們還能通過接入谷歌搜索,幫助你獲取網(wǎng)絡上海量的游戲攻略和相關知識。

目前,谷歌正與Supercell等頂尖游戲開發(fā)商展開合作,深入研究這些AI智能體的運作機制,并在不同類型的游戲中測試它們理解游戲規(guī)則和應對挑戰(zhàn)的能力,涵蓋從《部落沖突》等策略游戲到《Hay Day》等農(nóng)場模擬游戲。

除了在虛擬世界中探索AI智能體的應用能力,谷歌還在機器人領域進行創(chuàng)新性研究,將Gemini 2.0強大的空間推理能力應用其中,開發(fā)能在現(xiàn)實世界中提供實際幫助的AI智能體。

下面這些demo,展示了Gemini 2.0玩游戲的強大潛力。

注意,過程中沒有任何具體的后訓練或者游戲集成,Agent就可以對音頻、游戲視頻和從網(wǎng)絡獲取的實時信息做出響應。

在demo中,研究者對Gemini 2.0說:「我打算玩游戲了,我想確保完成每周的任務。你能看到它們嗎?」

Gemini 2.0立刻回答,「是的,我能看見,看起來你需要收集300顆寶石,擊敗10個boss,你已經(jīng)有10個寶石了。」

因為研究者表示自己經(jīng)常忘記這件事,Gemini 2.0承諾會在游戲過程中留意,提醒她關于任務的事。

在另一個demo中,研究者表示在計劃進行一次攻擊,但首先需要訓練一支軍隊,請AI幫他推薦一下軍隊構成。

Gemini立刻給出了非常明智的建議: 「根據(jù)屏幕左上角你的可用部隊和數(shù)量,我們應該訓練巨人、野蠻人、弓箭手和法師的組合。重點是使用巨人來吸收傷害,法師可以對付高輸出防御設施,野蠻人和弓箭手可以處理較弱的建筑!

另外,Gemini 2.0還能自己查攻略。比如幫我們選角色,完成「在Reddit上搜索一下Donetta是什么」這樣的任務。

深度研究,個人研究助理來了

在智能體方面,谷歌今天還放出了一個名為Deep Research研究助理,并在Gemini Advanced中上線。

不過,這項新功能由Gemini 1.5 Pro加持。

它可以深入研究復雜的主題,創(chuàng)建報告,并提供相關來源的鏈接。

假設你想要完成一篇機器學術論文,主題是關于自動駕駛傳感器的研究趨勢,直接Deep Research。

它便會列出一項研究計劃清單,包含了6個要點的信息查找、分析網(wǎng)址、創(chuàng)建報告,點擊「開始研究」。

接下來,AI全網(wǎng)搜索分析,并匯總出一份全面詳細的研究報告,包括了清晰的表格分析、搜索的62個網(wǎng)址來源。

有了Deep Research,能為我們節(jié)省大把的研究時間。

參考資料:

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ceo-message

https://deepmind.google/technologies/project-astra/

本文來源:新智元

新智元

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部
国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av