它急了,它急了! 就在昨天,美國各方頻頻發(fā)出對DeepSeek「偷竊數(shù)據(jù)」的指控。 先是特朗普的AI事務(wù)主管David Sacks聲稱,有所謂「確鑿證據(jù)」表明DeepSeek利用了OpenAI模型的輸出數(shù)據(jù)來開發(fā)自身技術(shù)。 然后微軟的研究人員就跟著站出來表示,與DeepSeek相關(guān)的個人,曾在去年秋天使用OpenAI的API大規(guī)模提取數(shù)據(jù)。 剛剛, Anthropic CEO Dario Amodei也發(fā)出了長篇檄文:DeepSeek的進(jìn)展表明,美國應(yīng)該加強對華芯片出口管制! 不僅如此,美國還針對DeepSeek的線上服務(wù),進(jìn)行不間斷的大規(guī)模攻擊。 直到目前,API和網(wǎng)頁對話服務(wù)都還處于異常狀態(tài)。 據(jù)悉,美國海軍已向相關(guān)人員發(fā)出郵件示警,提醒「不得以任何形式下載、安裝或使用DeepSeek模型」。 而作為美國忠實「盟友」的意大利,也在第一時間跟進(jìn)了制裁——直接把蘋果和谷歌應(yīng)用商店里的DeepSeek APP,全給下架了。 蘋果App Store向意大利用戶顯示的通知稱,該應(yīng)用「目前在您所在的國家或地區(qū)不可用」。谷歌應(yīng)用平臺則顯示在意大利「不支持」下載。 微軟和OpenAI:DeepSeek偷我們數(shù)據(jù),有證據(jù) DeepSeek僅用了2048塊英偉達(dá)H800,投入560萬美元,就訓(xùn)出了約6710億參數(shù)的V3模型,由此引發(fā)前所未有的風(fēng)暴。 彭博社表示,如今微軟和OpenAI已經(jīng)在展開調(diào)查,DeepSeek是否曾以未經(jīng)授權(quán)的方式,獲得了OpenAI的數(shù)據(jù)輸出。 他們表示,這類活動可能已經(jīng)違反了OpenAI的服務(wù)條款,或者說相關(guān)團(tuán)體正在試圖繞過OpenAI對可獲取數(shù)據(jù)量的限制。 知情人士透露,微軟作為OpenAI的技術(shù)合作伙伴及其最大投資者,已將此事透露給了OpenAI。 彭博社這樣描述DeepSeek-R1模型引起的轟動效應(yīng):「這一潛在威脅動搖了美國科技公司的行業(yè)領(lǐng)先地位,導(dǎo)致與AI相關(guān)的科技股大跌,包括微軟、英偉達(dá)、甲骨文以及谷歌母公司Alphabet。本周一,這些公司的市值合計蒸發(fā)近1萬億美元�!� 特朗普的AI事務(wù)專員David Sacks周二表示,已有「證據(jù)」表明DeepSeek利用了OpenAI模型的輸出來開發(fā)自己的技術(shù)。 在接受福克斯新聞采訪時,Sacks表示,DeepSeek利用蒸餾技術(shù)獲得了能力,即一個AI模型使用另一個模型的輸出進(jìn)行訓(xùn)練。 「有確鑿證據(jù)表明DeepSeek通過蒸餾技術(shù)提取了OpenAI模型的知識,而我認(rèn)為OpenAI對此并不高興�!� 不過,到底都有哪些證據(jù),卻只字未提。 OpenAI:正在展開調(diào)查 而針對Sacks的言論,OpenAI也在一份聲明中表示,中國的一些團(tuán)隊「正在使用包括蒸餾在內(nèi)的方法,試圖復(fù)制美國先進(jìn)的AI模型。」 我們已經(jīng)注意到DeepSeek可能不當(dāng)蒸餾我們模型的跡象,正在對之審查,并將在掌握更多信息后進(jìn)行分享。我們正在采取一系列保護(hù)措施來維護(hù)知識產(chǎn)權(quán),包括謹(jǐn)慎評估在發(fā)布模型時應(yīng)包含哪些前沿技術(shù)能力。我們認(rèn)為,與美國政府保持密切合作對于保護(hù)最先進(jìn)的模型至關(guān)重要,這可以防止競爭對手和其他相關(guān)方獲取美國的核心技術(shù)。 在業(yè)界,蒸餾其實是一種常見做法。 但在OpenAI但服務(wù)條款中,有這么一條規(guī)定:用戶不得「復(fù)制」其任何服務(wù)或「使用輸出來開發(fā)與OpenAI存在競爭的模型」。 有專家指出,DeepSeek在訓(xùn)練中用到了GPT-4的輸出 業(yè)內(nèi)人士透露,中美兩國的AI實驗室,普遍都會用OpenAI模型的輸出內(nèi)容。畢竟OpenAI斥巨資雇傭了人員訓(xùn)練模型產(chǎn)生更接近人類的響應(yīng),這種人類對齊訓(xùn)練成本高昂,需要大量人力。 UC伯克利的AI博士生Twik Gupta就表示:「初創(chuàng)公司和學(xué)術(shù)界普遍會使用ChatGPT等經(jīng)過人類對齊的商業(yè)LLM輸出,來訓(xùn)練新模型。這相當(dāng)于免費獲得了人類反饋這個訓(xùn)練環(huán)節(jié)。」 DeepSeek是「克隆」?LeCun轉(zhuǎn)發(fā):不懂別瞎說 對于這些流傳甚廣的說法,LeCun前幾日就轉(zhuǎn)發(fā)了Perplexity CEO Aravind Srinivas的帖子,表示澄清。 Aravind Srinivas寫道,很多人以為中國克隆了OpenAI的成果,他們明顯對模型訓(xùn)練方式的理解很片面。 DeepSeek已經(jīng)找到了強化學(xué)習(xí)微調(diào)的方法,他們的「DeepSeek-R1 Zero」論文中,也沒有使用監(jiān)督微調(diào)。 隨后,他們結(jié)合了一些SFT,并通過良好的拒絕采樣(即過濾)來增加領(lǐng)域知識。 DeepSeek-R1之所以表現(xiàn)出色,主要原因在于它是從零開始學(xué)習(xí)推理能力,而不是簡單模仿人類或其他模型。 機器學(xué)習(xí)大牛Sebastian Raschka也對于這種說法表示駁斥。 他表示,在LLM的背景下,「蒸餾」這個術(shù)語的使用已經(jīng)相當(dāng)寬泛。 團(tuán)隊只是為SFT創(chuàng)建并整理了一個數(shù)據(jù)集,用于訓(xùn)練基于Qwen和Llama的R1模型。 Anthropic CEO長篇檄文:加大制裁力度,趕緊的 Anthropic CEO Dario Amodei也剛剛發(fā)出萬字檄文,對美國政府發(fā)出警告—— DeepSeek的崛起,就證明美國對華的芯片管制應(yīng)該繼續(xù)加碼! 有趣的是,針對Amodei的行為,LeCun轉(zhuǎn)發(fā)了以下這個梗圖。 檄文全文如下。 出口管制肩負(fù)著一個重要使命:確保我們在AI發(fā)展中保持領(lǐng)先地位。為此,美國及其盟友的AI公司就必須開發(fā)出比中國更優(yōu)秀的模型。 幾周前,我曾提出加強美國對華芯片出口管制的理由。緊接著,DeepSeek就以更低的成本,實現(xiàn)了接近美國前沿AI模型的性能。 結(jié)合這些情況來看,我認(rèn)為加緊出口管制,比一周前顯得更重要了! AI發(fā)展的三個動態(tài)特征 在闡述政策主張之前,我將描述AI系統(tǒng)的三個基本動態(tài)特征。 1. Scaling Law AI的一個特性,就是在其他條件相同的情況下,擴(kuò)大AI系統(tǒng)的訓(xùn)練規(guī)模會導(dǎo)致在各類認(rèn)知任務(wù)上的性能平穩(wěn)提升。 例如,一個100萬美元的模型可能解決20%的重要編程任務(wù),1000萬美元的可能解決40%,1億美元的可能解決60%,以此類推。 這些差異在實踐中往往帶來重大影響——再增加10倍投入,可能意味著從本科生到博士水平的跨越——因此各公司都在大力投資訓(xùn)練這些模型。 2. 曲線位移 AI領(lǐng)域正不斷涌現(xiàn)大大小小的創(chuàng)新理念,使系統(tǒng)變得更有效或更高效:可能是模型架構(gòu)的改進(jìn),或只是優(yōu)化模型在底層硬件上的運行方式。 新一代硬件同樣具有這種效果。 這通常會導(dǎo)致曲線位移:如果創(chuàng)新帶來2倍的「計算乘數(shù)」(Compute Multiplier,CM),那么只需500萬美元而非1000萬美元就能在編程任務(wù)上達(dá)到40%的成功率;或者用5000萬美元而非1億美元達(dá)到60%的成功率。 每家前沿AI公司都經(jīng)常發(fā)現(xiàn)這樣的算力倍增效應(yīng):通常是小幅度的(約1.2倍),有時是中等規(guī)模的(約2倍),偶爾會有顯著的(約10倍)。 由于更智能系統(tǒng)的價值極高,這種曲線位移往往促使公司增加而非減少模型訓(xùn)練投入:成本效率的提升將完全用于訓(xùn)練更智能的模型,僅受限于公司的財務(wù)資源。 人們通常會有「先貴后便宜」的思維模式——仿佛AI是一個質(zhì)量恒定的單一產(chǎn)品,變得更便宜時就能用更少的芯片來訓(xùn)練。 但關(guān)鍵在于規(guī)模曲線(scaling curve):當(dāng)曲線位移時,我們只是更快地達(dá)到目標(biāo),因為終點的價值無比重要。 2020年,我的團(tuán)隊就發(fā)表論文指出,算法進(jìn)步帶來的曲線位移每年約為1.68倍。這個速度現(xiàn)已顯著提升,且尚未考慮效率和硬件因素。 我估計現(xiàn)在這個數(shù)字可能達(dá)到每年4倍。訓(xùn)練曲線的位移也會帶動推理曲線位移,因此多年來在保持模型質(zhì)量不變的情況下,價格持續(xù)大幅下降。 例如,比GPT-4晚15個月發(fā)布的Claude 3.5 Sonnet,在幾乎所有基準(zhǔn)測試中都超越了GPT-4,而API價格僅為后者的十分之一。 3. 范式轉(zhuǎn)變 有時,被擴(kuò)展的基礎(chǔ)要素會發(fā)生變化,或訓(xùn)練過程中會引入新的擴(kuò)展類型。 2020年至2023年間,擴(kuò)展主要集中在預(yù)訓(xùn)練模型上:這些模型在海量互聯(lián)網(wǎng)文本上訓(xùn)練,只需少量額外訓(xùn)練。 到了2024年,使用強化學(xué)習(xí)(RL)訓(xùn)練模型生成思維鏈已成為擴(kuò)展的新焦點。 Anthropic、OpenAI、DeepSeek等公司發(fā)現(xiàn),這種訓(xùn)練顯著提升了模型在特定、可客觀衡量的任務(wù)(如數(shù)學(xué)、編程競賽)及類似推理任務(wù)上的表現(xiàn)。 這種新范式始于常規(guī)預(yù)訓(xùn)練模型,然后在第二階段使用RL添加推理能力。 值得注意的是,由于這種RL方法較新,我們?nèi)蕴幱跀U(kuò)展曲線(scaling curve)的早期:所有參與者在第二階段RL上的投入都相對較小。從10萬美元增加到100萬美元就能帶來顯著提升。 DeepSeek-R1不值一提 上述三個動態(tài)特征可以幫助我們理解DeepSeek最近發(fā)布的模型。 大約一個月前,DeepSeek發(fā)布了名為「DeepSeek-V3」的純預(yù)訓(xùn)練模型。隨后在上周,他們又發(fā)布了添加第二階段訓(xùn)練的「R1」模型。 雖然從外部視角難以完全掌握這些模型的所有細(xì)節(jié),但以下是我對這兩次發(fā)布的深入理解。 DeepSeek-V3的發(fā)布堪稱重大創(chuàng)新,這本應(yīng)在一個月前就引起業(yè)界廣泛關(guān)注。 作為一個預(yù)訓(xùn)練模型,它在某些重要任務(wù)上的表現(xiàn)已經(jīng)接近美國最先進(jìn)的模型,同時顯著降低了訓(xùn)練成本。 DeepSeek團(tuán)隊通過一系列令人印象深刻的創(chuàng)新實現(xiàn)了這一突破,主要集中在提升工程效率方面。他們在「鍵值緩存」(Key-Value cache)管理方面做出了特別創(chuàng)新的改進(jìn),并且將MoE方法推進(jìn)到了前所未有的水平。 然而,我們需要仔細(xì)審視: DeepSeek并非「只用600萬美元就做到了美國AI公司需要數(shù)十億美元才能做到的事」。Claude 3.5 Sonnet是一個中等規(guī)模的模型,訓(xùn)練成本在數(shù)千萬美元級別(具體數(shù)字不便透露)。此外,3.5 Sonnet的訓(xùn)練過程完全沒有涉及更大或更昂貴的模型(與某些傳言相反)。Sonnet的訓(xùn)練是在9-12個月前進(jìn)行的,而DeepSeek的模型是在去年11、12月訓(xùn)練的,但在眾多內(nèi)部和外部評估中,Sonnet仍然保持明顯領(lǐng)先。因此,一個客觀的說法是:「DeepSeek以較低的成本(但遠(yuǎn)未達(dá)到外界猜測的比例)開發(fā)出了一個性能接近7-10個月前美國模型水平的產(chǎn)品」。 如果成本曲線的歷史下降趨勢是每年約4倍,這意味著在正常業(yè)務(wù)發(fā)展過程中——即在 2023年和2024年出現(xiàn)的常規(guī)成本下降趨勢中——我們預(yù)計現(xiàn)在會出現(xiàn)比3.5 Sonnet/GPT-4便宜3-4倍的模型。由于DeepSeek-V3不如這些美國前沿模型——在擴(kuò)展曲線上大約差了2倍,這個估計對DeepSeek-V3來說已經(jīng)相當(dāng)寬容——這表明如果DeepSeek-V3的訓(xùn)練成本比一年前開發(fā)的美國當(dāng)前模型低約8倍,這完全符合預(yù)期。我不會給出具體數(shù)字,但從前面的分析可以清楚看出,即使按照表面價值來看DeepSeek的訓(xùn)練成本,他們最多只是符合行業(yè)趨勢,甚至可能還達(dá)不到這個水平。例如,這比原始GPT-4到Claude 3.5 Sonnet的推理價格差異(10倍)還要小,而且3.5 Sonnet是比GPT-4更優(yōu)秀的模型。這些都表明,DeepSeek-V3并非獨特的突破,也不是從根本上改變LLM經(jīng)濟(jì)學(xué)的創(chuàng)新;它只是持續(xù)成本降低曲線上的一個預(yù)期點。這次的特殊之處在于,首先展示預(yù)期成本降低的是一家中國公司。這種情況前所未有,具有重要的地緣政治意義。然而,美國公司很快就會跟進(jìn)——他們不是通過復(fù)制DeepSeek,而是因為他們同樣在實現(xiàn)常規(guī)的成本降低趨勢。 DeepSeek和美國AI公司目前都擁有比訓(xùn)練其主打模型時更多的資金和芯片。這些額外的芯片用于研發(fā)模型背后的理念,有時也用于訓(xùn)練尚未成熟的更大模型(或需要多次嘗試才能完善的模型)。據(jù)真實性未經(jīng)證實的報道,DeepSeek擁有50,000片Hopper芯片,我估計這在規(guī)模上與主要美國AI公司相差約2~3倍。因此,DeepSeek作為一家公司的總投入與美國AI實驗室的差距并不顯著。 值得注意的是,「擴(kuò)展曲線」分析可能過于簡化,因為不同模型各有特色,優(yōu)劣勢各異;擴(kuò)展曲線的數(shù)據(jù)只是一個忽略了諸多細(xì)節(jié)的粗略平均值。正如前文所述,Claude在編程能力和人機交互設(shè)計方面表現(xiàn)卓越。在這些及其他特定任務(wù)上,DeepSeek與之相比仍有較大差距。這些優(yōu)勢特性并未反映在擴(kuò)展曲線的數(shù)據(jù)中。 上周發(fā)布的R1模型引發(fā)了公眾的廣泛關(guān)注,但從創(chuàng)新或工程的角度來看,它遠(yuǎn)不如V3具有研究價值。 R1增加的第二階段訓(xùn)練(強化學(xué)習(xí)),是復(fù)制了OpenAI在o1上所做的工作。 然而,由于我們?nèi)蕴幱谀P汀笖U(kuò)展曲線」的早期階段,只要以一個強大的預(yù)訓(xùn)練模型為基礎(chǔ),多家公司都有可能開發(fā)出這類模型。在已有V3的基礎(chǔ)上,開發(fā)R1的成本可能相當(dāng)?shù)汀?/p> 因此,我們正處于一個關(guān)鍵的轉(zhuǎn)折點,即暫時出現(xiàn)了多家公司都能生產(chǎn)出高質(zhì)量推理模型的局面。但隨著各公司在這些模型的擴(kuò)展曲線上繼續(xù)向上攀升,這種局面將很快改變。 出口管制力度還需加大 以上內(nèi)容都是為我的核心關(guān)注點作鋪墊:對中國的芯片出口管制。 我對這種情況的看法如下: 目前存在一個持續(xù)的趨勢,即各公司在訓(xùn)練強大的AI模型上的投入不斷增加,盡管成本曲線會周期性下移,訓(xùn)練特定智能水平模型的成本也在迅速下降。然而,由于訓(xùn)練更智能模型所帶來的經(jīng)濟(jì)價值極其巨大,任何成本節(jié)約幾乎立即就被消耗殆盡——這些節(jié)省下來的成本又被投入到使用相同巨額預(yù)算開發(fā)更智能的模型中。對于美國實驗室尚未發(fā)現(xiàn)的創(chuàng)新,DeepSeek開發(fā)的效率創(chuàng)新很快就會被美國和中國的實驗室應(yīng)用于訓(xùn)練數(shù)十億美元級別的模型。這些模型的表現(xiàn)會比他們之前計劃訓(xùn)練的數(shù)十億美元模型更優(yōu)異——但投入仍將保持在數(shù)十億美元水平。這個數(shù)字會持續(xù)攀升,直到我們實現(xiàn)在幾乎所有領(lǐng)域都超越絕大多數(shù)人類智能水平的AI。 開發(fā)出在幾乎所有領(lǐng)域都超越絕大多數(shù)人類智能水平的AI將需要數(shù)百萬片芯片、至少數(shù)百億美元的投入,這很可能發(fā)生在2026-2027年。DeepSeek的發(fā)布并不會改變這一預(yù)期,因為它們基本符合這些計算中一直考慮在內(nèi)的預(yù)期成本下降曲線。這意味著在2026-2027年,我們可能會面臨兩個截然不同的世界。在美國,多家公司必定會獲得所需的數(shù)百萬片芯片(耗資數(shù)百億美元)。關(guān)鍵問題在于中國是否也能獲得這樣數(shù)量的芯片。 如果中國能獲得,我們將生活在一個兩極世界,美國和中國都將擁有強大的AI模型,這將推動科技呈現(xiàn)爆發(fā)式發(fā)展——我將其稱為「數(shù)據(jù)中心里的天才國度」(countries of geniuses in a datacenter)。但這種兩極格局不一定能永遠(yuǎn)維持平衡。即使美中兩國在AI系統(tǒng)上實力相當(dāng),中國可能會將更多的人才、資金和注意力投入到這項技術(shù)當(dāng)中。結(jié)合其龐大的工業(yè)基礎(chǔ)優(yōu)勢,這可能幫助中國在全球舞臺上獲得主導(dǎo)地位,不僅是在AI領(lǐng)域,而是在所有領(lǐng)域。 如果中國無法獲得數(shù)百萬片芯片,我們將生活在一個單極世界,只有美國及其盟友擁有這些模型。單極世界的持續(xù)時間尚難預(yù)測,但存在這樣一種可能:由于AI系統(tǒng)最終可以協(xié)助開發(fā)更智能的系統(tǒng),暫時的領(lǐng)先優(yōu)勢可能會轉(zhuǎn)化為持久的優(yōu)勢。因此,在這種情況下,美國及其盟友可能會在全球舞臺上確立主導(dǎo)地位并長期保持這一優(yōu)勢。 嚴(yán)格執(zhí)行的出口管制是唯一能阻止中國獲得數(shù)百萬片芯片的手段,因此也是決定我們最終是進(jìn)入單極還是兩極世界的最關(guān)鍵因素。 DeepSeek的表現(xiàn)并不意味著出口管制失敗。如前文所述,DeepSeek擁有中等到大規(guī)模數(shù)量的芯片,因此他們能夠開發(fā)并訓(xùn)練出一個強大的模型并不令人意外。他們所面臨的資源限制并不比美國AI公司明顯更多,出口管制也并非促使他們「創(chuàng)新」的主要因素。他們只是一群極具才華的工程師,這也顯示了為什么中國是美國的重要競爭對手。 DeepSeek的AI芯片儲備中,由應(yīng)該但還沒被禁的芯片、在禁令前交付的芯片等構(gòu)成。這表明出口管制實際上正在發(fā)揮作用并不斷完善:監(jiān)管漏洞正在被逐步填補;否則,他們所有的芯片可能都是最頂級的H100。如果我們能夠及時堵住這些漏洞,就可能阻止中國獲得數(shù)百萬片芯片,從而增加形成美國領(lǐng)先的單極世界格局的可能性。 鑒于我對出口管制和美國國家安全的關(guān)注,我需要明確一點:我并不將DeepSeek視為對手,我們的重點也并非針對他們。 從他們接受的采訪來看,他們是一群聰明且充滿求知欲的研究人員,只是希望開發(fā)能造福社會的技術(shù)。 然而,為了防止中國在AI領(lǐng)域追平美國,出口管制就是最有效工具之一。 若認(rèn)為技術(shù)日益強大、投資回報率提高就是應(yīng)當(dāng)解除出口管制的理由,這種邏輯是完全站不住腳的。 本文來源:新智元
|
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選