OpenAI 年末的12天連續(xù)Devday更新終于落幕,每天蹲守觀看發(fā)布會(huì)都像在開巧克力盲盒,不知道下一個(gè)是什么口味。 在前11天的發(fā)布會(huì)中,大部分屬實(shí)非常寡淡,只有三個(gè)產(chǎn)品還有些精彩的“滋味”。 總結(jié)起來,能稱得上重磅的更新包括:o1正式版、Sora、Canvas,它們主要集中在前4天發(fā)布。 其中,o1正式版確實(shí)提升很大,Sora則是增加了不少對AI生成視頻進(jìn)行更改的產(chǎn)品模式,Canvas可以被視為OpenAI第一次挑戰(zhàn)AI工作臺(tái)的產(chǎn)品嘗試。 其次,相對還有些看點(diǎn)的是:和蘋果的深度合作,視頻通話功能,以及o1-mini的強(qiáng)化微調(diào)。 o1-mini的強(qiáng)化微調(diào)在專業(yè)領(lǐng)域潛力很大,微調(diào)簡單提升明顯。視頻通話功能則是那個(gè)讓人驚艷的“HER”正式上線。和蘋果的深度合作對OpenAI來講也是件大事,更站穩(wěn)了在AI行業(yè)的一哥地位。 另外一些小的產(chǎn)品更新則是讓人覺得——“這也值得開發(fā)布會(huì)?” 這些產(chǎn)品包括“Projects”項(xiàng)目功能、o1 圖像輸入和4o高級語音API正式開放、ChatGPT Search 升級和給GPT打電話 的功能。它們都是相對比較小,也都和競爭對手沒什么差異的更新。 到了最后一天,OpenAI終于甩出一個(gè)王炸:GPT-o3。一舉打破AI發(fā)展陷入瓶頸的懷疑,各項(xiàng)性能直奔AGI而去。 我們根據(jù)發(fā)布產(chǎn)品的重要性做了一個(gè)表格,梳理這過山車似的十二天發(fā)布日。 下面,我們來稍微詳細(xì)地講述一下這些更新的核心點(diǎn)。 重要產(chǎn)品更新 o1完全版(Day1) 從能力上看,o1確實(shí)比Preview版本有了比較大的進(jìn)步。它在國際數(shù)學(xué)奧林匹克預(yù)選賽題目(AIME 2024)、編程能力測試(CodeForces)方面都比o1- preview提升了50%。在處理復(fù)雜問題時(shí)的重大錯(cuò)誤率降低了34%。 它還能根據(jù)題目的難易程度調(diào)節(jié)處理時(shí)間,這使得用戶等待時(shí)間下降超過50%。 更重要的是o1也能支持多模態(tài)識(shí)別了。這讓它的實(shí)用性暴增。醫(yī)生可以用它分析醫(yī)學(xué)影像,工程師能讓它幫忙看圖紙,設(shè)計(jì)師還能讓它提供創(chuàng)意建議。 但它的價(jià)格也相當(dāng)貴,只有200美金的ChatGPT Pro版訂閱用戶才能享受無限使用,其他普通20美元訂閱用戶僅能享受每日20次使用權(quán)限。 作為第一天登場的產(chǎn)品,o1確實(shí)能讓人眼前一亮。 Sora(Day3) 等了10個(gè)月后,Sora終于姍姍來遲。 但這不是個(gè)模型版本升級,而更像是一個(gè)產(chǎn)品打磨。正式版的Sora能生成最長20秒,最高1080p的視頻。生成效果和2月份剛放出的差異不大。 但產(chǎn)品上OpenAI確實(shí)下了點(diǎn)心思,故事板是此次發(fā)布中最具創(chuàng)新性的功能,也是Sora最具野心的嘗試。它為用戶提供了類似專業(yè)視頻編輯軟件的時(shí)間軸界面。用戶可以在時(shí)間軸上添加多個(gè)場景卡片。用戶可以將多個(gè)提示詞串聯(lián)起來,系統(tǒng)會(huì)自動(dòng)處理場景之間的過渡效果。 除此之外,OpenAI還提供了Remix、Blend和Loop三個(gè)專業(yè)工具。換掉視頻中的元素,或者混合兩個(gè)視頻,還能自動(dòng)補(bǔ)全做無限循環(huán)視頻。 產(chǎn)品是挺不錯(cuò)的,但沒升級過的模型不太給力。在發(fā)布后的評測中,Sora頻頻翻車,運(yùn)動(dòng)、交互和物理經(jīng)常處理得一塌糊涂。還會(huì)有憑空出現(xiàn)的人和鬼影。 OpenAI 給的可用量也很小氣,20美元的Plus用戶每月可用50次。只有支付每月200美元的Pro用戶則能享受無限次數(shù)的"慢速"生成權(quán)限。 Sora總算來了,但是挺讓人失望的。 Canvas(Day4) 一句話形容,Canvas就是OpenAI 打造的AI版Google Docs。 因?yàn)镃anvas已經(jīng)進(jìn)化成了集智能寫作、代碼協(xié)作和AI智能體為一體的一套完整工作臺(tái)。它顯示出了OpenAI超越Chatbot的產(chǎn)品野心。 作為寫作助手,可以提供編輯意見。 編程功能上,Canvas則通過內(nèi)置的WebAssembly Python模擬器,創(chuàng)造了一個(gè)幾乎無延遲的編程環(huán)境。它還展現(xiàn)出了理解代碼意圖的能力。 與近期更新的Cursor和Devin一樣,它上線了定制化AI智能體的能力。它可以完成一系列操作,幫你給朋友們發(fā)圣誕信。 Canvas的這三個(gè)維度并不是孤立運(yùn)作的。在實(shí)際使用中,它們往往會(huì)相互配合,這種無縫的集成使Canvas成了一個(gè)多功能AI驅(qū)動(dòng)的創(chuàng)作工作室原型。 但單純從前端展示的角度看,它不如Claude 的 Artifacts。編程的便利性也不如Cursor。因此融合才是它的亮點(diǎn)吧。 一般產(chǎn)品更新 o1-mini強(qiáng)化微調(diào)(Day2) 這一產(chǎn)品如果不是實(shí)用性較窄,也算是一個(gè)重磅發(fā)布。 它改變了過去微調(diào)只是通過增加專業(yè)數(shù)據(jù)的邏輯,而是對具有推理能力的模型進(jìn)行強(qiáng)化學(xué)習(xí)方向的微調(diào)。引導(dǎo)模型在面對復(fù)雜問題時(shí)有更深刻的思考能力。 現(xiàn)在,僅需“幾十個(gè)例子”甚至12個(gè)例子,就能夠讓模型有效學(xué)會(huì)特定領(lǐng)域的推理。根據(jù)OpenAI的研究數(shù)據(jù),經(jīng)過強(qiáng)化微調(diào)的o1mini模型,其測試通過率比傳統(tǒng)的o1模型高出24%,相比未經(jīng)過強(qiáng)化微調(diào)的o1mini則提升了整整82%。 可惜只能微調(diào)o1-mini,適用上也都是那些復(fù)雜領(lǐng)域任務(wù),比如醫(yī)療、法律或金融和保險(xiǎn)。泛用性較差。 高級視頻語音模式(Day6) 這又是個(gè)老餅上桌。5月13日,在GPT-4o的演示中,OpenAI的工作人員就能和4o視頻通話,可以看到我們實(shí)時(shí)的手機(jī)屏幕內(nèi)容,或者根據(jù)相機(jī)里的實(shí)時(shí)畫面和我們聊天或解答問題。 這次就是真正實(shí)裝了,沒有什么升級。但這個(gè)功能本身還是非常重要的。 不過因?yàn)檫@個(gè)餅烙的時(shí)間有點(diǎn)長,前兩天微軟推出的Vision和谷歌還在烙的Astra也已經(jīng)跟上了。OpenAI的領(lǐng)先正在一點(diǎn)點(diǎn)被蠶食。 與蘋果的合作(Day5、Day11)ChatGPT和Apple Intelligence的,更像是個(gè)官宣深度結(jié)果。蘋果搞不定的只能讓賢OpenAI了。 整合主要包含三個(gè)方面:首先是與Siri的協(xié)同。當(dāng)Siri判斷某個(gè)任務(wù)可能需要ChatGPT的協(xié)助時(shí),它可以將任務(wù)移交給ChatGPT處理; 其次是寫作工具的增強(qiáng),用戶現(xiàn)在可以使用ChatGPT從頭開始撰寫文檔,還能進(jìn)行文檔細(xì)化和總結(jié); 第三是iPhone 16的相機(jī)控制功能,它能夠通過視覺智能讓用戶更深入地了解拍攝對象。 后面第十一天的Mac整合,則是給了GPT更多Mac工具的調(diào)用權(quán)限。 我唯一不理解的就是這倆為什么不能同一天宣布,還非分兩天? 能力補(bǔ)齊和小功能更新(Day 7,8,9,10)剩下的幾個(gè)更新最多只能算是湊數(shù)。簡單一句話就能說清。 “Projects”項(xiàng)目功能:它允許用戶創(chuàng)建特定項(xiàng)目,上傳相關(guān)文件,設(shè)置自定義指令,并將所有與該項(xiàng)目相關(guān)的對話集中在一個(gè)地方;竞虲laude的沒差別。 ChatGPT搜索升級:能在對話中搜索,支持多模態(tài)輸出。Perplexity的Pro模式早支持了。 4o熱點(diǎn):美國用戶能打電話用4o了!挺尊老愛老的,我看也算是給他們過重陽了。 o1 圖像輸入和4o高級語音API正式開放:我建議這個(gè)放在o1發(fā)布當(dāng)天最后一句話說完。 這幾天真的是有點(diǎn)進(jìn)入拖時(shí)間的循環(huán)了。 最終王炸 GPT-o3(Day 12) 如果不是最后一天GPT-o3壓軸登場,我真的覺得OpenAI純粹是為了攪渾水才連開12天發(fā)布會(huì)。 因?yàn)樵谶@期間,Google發(fā)布了Gemini 2 Flash,超快超強(qiáng);Astra,看起來是真的Agent模樣;Voe2,碾壓Sora ;Gemini 2 Flash Thinking,o1人家也有了。就發(fā)了三篇公告幾個(gè)視頻,把OpenAI前11天的發(fā)布全都掀了桌。 但在Day 12,OpenAI還是找回了雄風(fēng)。用o3向業(yè)界證明:Scaling Law未死,OpenAI為王。 o3 是 o1的下一個(gè)版本。在9月份o1發(fā)布后僅3個(gè)月后,這一新版本在編碼、數(shù)學(xué)以及 ARC-AGI 基準(zhǔn)測試等多個(gè)基準(zhǔn)上就大幅超過了 OpenAI 此前的 o1 模型。 看幾個(gè)數(shù)據(jù)對比: Codeforces 評分:2727——相當(dāng)于全球人類程序員編碼競賽中,排名第 175 位。超過99%的人類程序員。 博士水平的科學(xué)問題(GPQA):87.7%——博士生一般得分70% 最難的前沿?cái)?shù)學(xué)測試:25.2%——其他模型沒有超過2%,數(shù)學(xué)天才陶哲軒說該測試“可能難住AI好幾年” 證明是否達(dá)到AGI的題目ARC-AGI:87.5%——o1的得分25% 最值得注意的就是這最后一項(xiàng)測試ARC-AGI,它展示的是模型新型任務(wù)適應(yīng)能力。作為對比,之前ARC-AGI-1從2020年GPT-3的0%僅提升到2024年GPT-4o的5%。這意味著模型不是死記硬背,而是真正在解決問題的能力。 雖然ARC-AGI測試中表現(xiàn)出色,但這并不意味著o3已達(dá)到了AGI水平,因?yàn)樗詴?huì)在一些非常簡單的任務(wù)中失敗,和人類智能有根本性的差別。 但不論如何,這都證明OpenAI選擇強(qiáng)化推理這個(gè)范式轉(zhuǎn)變成功了。人工智能的發(fā)展沒有任何放緩的跡象。Scaling Law依然有效。 那些對AI停滯不前的擔(dān)憂,被OpenAI年末的圣誕禮物一掃而空。 雖然o3進(jìn)行一次低算力計(jì)算的成本高達(dá)20美元,高算力甚至可能高達(dá)3000美元,要使用在現(xiàn)階段幾乎是不可能的。但算力會(huì)降低,Scaling Law會(huì)延續(xù)。 3個(gè)月,兩個(gè)頂尖模型,OpenAI在這12天的最后一天又讓我們感受到了2022年末到2023年初從ChatGPT到GPT4那段時(shí)間AI撲面而來的速度。 也許正如之前參與開發(fā)了o1的 OpenAI科學(xué)家Noam Brown在采訪中說的一樣,“2024年,OpenAI是在實(shí)驗(yàn),而2025年就是全速前進(jìn)的一年。” OpenAI 12天的發(fā)布會(huì),過程波折,完美收工。為2025年的AI埋下了希望。 本文來源:騰訊科技 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選