讓我們?cè)購(gòu)?fù)習(xí)一遍:小紅靠捧,大紅靠命。 DeepSeek 已經(jīng)爆火了一個(gè)春節(jié),紅起來(lái)自然是非就多。尤其在海外局勢(shì)變化錯(cuò)綜復(fù)雜的情況下,DeepSeek 的中國(guó)血統(tǒng),給它招來(lái)了許多謠言。 Stability AI 曾經(jīng)的研究主管 Tanishq Mathew Abraham 昨天挺身而出,以自己業(yè)內(nèi)人士的身份下場(chǎng),指出了 DeepSeek 極為特殊的幾點(diǎn): 1.性能實(shí)際上與 OpenAI 的 o1 一樣好,這是一個(gè)前沿模型,標(biāo)志著開(kāi)源真正趕上了閉源 2.與其他前沿模型相比,DeepSeek 以相對(duì)較低的訓(xùn)練費(fèi)用完成 3.易于使用的界面,結(jié)合其網(wǎng)站和應(yīng)用程序中可見(jiàn)的思維鏈,吸引了數(shù)百萬(wàn)新用戶加入 除此之外,他更是針對(duì)幾大流行的謠言,寫(xiě)了長(zhǎng)長(zhǎng)一篇博文,分析解釋了圍繞在 DeepSeek 四周的(離譜)言論。 以下為博客文章,內(nèi)容有所編輯: 2025 年 1 月 20 日,一家名為 DeepSeek 的中國(guó) AI 公司開(kāi)源并發(fā)布了他們的推理模型 R1。鑒于 DeepSeek 是一家中國(guó)公司,美國(guó)及其 AGI 公司存在各種「國(guó)家安全擔(dān)憂」。由于這一點(diǎn),關(guān)于它的錯(cuò)誤信息已經(jīng)廣泛傳播。 這篇文章的目的是反駁自 DeepSeek 發(fā)布以來(lái),許多關(guān)于 DeepSeek 的極端糟糕的 AI 相關(guān)觀點(diǎn)。同時(shí),作為一個(gè)在生成式 AI 前沿工作的 AI 研究人員,提供更有平衡性的觀點(diǎn)。 謠言 1:可疑!DeepSeek 是一家突然冒出來(lái)的中國(guó)公司 完全錯(cuò)誤,到 2025 年 1 月,幾乎所有生成式 AI 研究人員都已經(jīng)聽(tīng)說(shuō)過(guò) DeepSeek。DeepSeek 甚至在完整版發(fā)布前幾個(gè)月就發(fā)布了 R1 的預(yù)覽! 任何傳播這種謠言的人,很可能并不從事人工智能工作——如果你不涉足該領(lǐng)域,卻以為自己了解這個(gè)領(lǐng)域的一切,是荒謬且極其自負(fù)的。 DeepSeek 的首個(gè)開(kāi)源模型 DeepSeek-Coder,于 2023 年 11 月發(fā)布。當(dāng)時(shí)是業(yè)界領(lǐng)先的代碼 LLMs(編者注:專(zhuān)注于理解和生成代碼的語(yǔ)言模型)。正如下面的圖表所示,DeepSeek 在一年內(nèi)持續(xù)發(fā)貨,達(dá)到 R1: 這不是一夜之間的成功,他們進(jìn)步的速度也沒(méi)有什么可疑之處。在人工智能發(fā)展如此迅速,且他們擁有一個(gè)明顯高效的團(tuán)隊(duì)的情況下,一年內(nèi)取得這樣的進(jìn)步在我看來(lái)是非常合理的。 如果您想知道哪些公司在公眾視野之外,但 AI 領(lǐng)域內(nèi)備受看好,我會(huì)推薦關(guān)注 Qwen(阿里巴巴)、YI(零一萬(wàn)物)、Mistral、Cohere、AI2。 需要注意的是,它們沒(méi)有像 DeepSeek 那樣持續(xù)發(fā)布 SOTA 模型,但它們都有潛力發(fā)布出色的模型,正如它們過(guò)去所展示的那樣。 謠言 2:撒謊!這個(gè)模型的成本不是 600 萬(wàn)美元 這是一個(gè)有趣的問(wèn)題。這類(lèi)謠言認(rèn)為 DeepSeek 想避免承認(rèn)他們有非法的幕后交易來(lái)獲取他們不應(yīng)獲得的計(jì)算資源(由于出口管制),從而在關(guān)于模型訓(xùn)練成本的真實(shí)性上撒謊。 首先,600 萬(wàn)美元這個(gè)數(shù)字值得好好研究。它在 DeepSeek-V3 論文中有提及,該論文是在 DeepSeek-R1 論文發(fā)布前一個(gè)月發(fā)布的: DeepSeek-V3 是 DeepSeek-R1 的基礎(chǔ)模型,這意味著 DeepSeek-R1 是 DeepSeek-V3 加上一些額外的強(qiáng)化學(xué)習(xí)訓(xùn)練。所以在某種程度上,成本已經(jīng)不準(zhǔn)確,因?yàn)閺?qiáng)化學(xué)習(xí)訓(xùn)練的額外成本沒(méi)有被計(jì)算在內(nèi)。但那可能只會(huì)花費(fèi)幾十萬(wàn)美元。 好的,那么 DeepSeek-V3 論文中提到的 550 萬(wàn)美元,是不正確的嗎?基于 GPU 成本、數(shù)據(jù)集大小和模型大小的眾多分析,已經(jīng)得出了類(lèi)似的估計(jì)。 請(qǐng)注意,雖然 DeepSeek V3/R1 是一個(gè) 671B 參數(shù)的模型,但它是一個(gè)專(zhuān)家混合模型,這意味著模型的任何函數(shù)調(diào)用/前向傳遞只使用約 37B 參數(shù),這是計(jì)算訓(xùn)練成本所使用的值。 然而,DeepSeek 的成本,是基于當(dāng)前市場(chǎng)價(jià)格估計(jì)的這些 GPU 的成本。我們實(shí)際上并不知道他們的 2048 個(gè) H800 GPU 集群(注意:不是 H100s,這是一個(gè)常見(jiàn)的誤解和混淆!)的成本。通常,連續(xù)的 GPU 集群在批量購(gòu)入時(shí)成本會(huì)更低,因此甚至可能更便宜。 但是這里有個(gè)問(wèn)題,這是最終運(yùn)行的成本。在這成功之前,可能進(jìn)行了許多在小規(guī)模的實(shí)驗(yàn)和消融,這一部分會(huì)需要相當(dāng)大的成本,但這些并未在此處報(bào)告。 除此之外,可能還有許多其他成本,如研究員薪資。SemiAnalysis 報(bào)告稱(chēng),DeepSeek 的研究員薪資傳聞約為 100 萬(wàn)美元。這相當(dāng)于 AGI 前沿實(shí)驗(yàn)室如 OpenAI 或 Anthropic 的高薪水平。 通常,當(dāng)報(bào)道和比較不同模型的訓(xùn)練成本時(shí),最終的訓(xùn)練運(yùn)行成本是最受關(guān)注的。但由于糟糕的論調(diào)和錯(cuò)誤信息的傳播,人們一直在爭(zhēng)論額外的成本使 DeepSeek 的低成本和高效運(yùn)營(yíng)性質(zhì)受到質(zhì)疑。這是極其不公平的。 無(wú)論是從消融/實(shí)驗(yàn)的角度,還是從其他 AGI 前沿實(shí)驗(yàn)室的研究人員薪酬的角度來(lái)看,成本都非常顯著,但這些通常在這樣的討論中沒(méi)有被提及! 謠言 3:這么便宜?所有美國(guó) AGI 公司都在浪費(fèi)錢(qián),看跌英偉達(dá) 我認(rèn)為這又是一個(gè)相當(dāng)愚蠢的看法。與許多其他 LLM 相比,DeepSeek 在訓(xùn)練中確實(shí)效率更高。是的,許多美國(guó)前沿實(shí)驗(yàn)室在計(jì)算上效率低下是非常可能的。然而,這并不一定意味著擁有更多的計(jì)算資源是壞事。 老實(shí)說(shuō),每當(dāng)聽(tīng)到這樣的觀點(diǎn),我就清楚地知道他們不懂 scaling laws,也不懂 AGI 公司 CEO(以及任何被視為 AI 專(zhuān)家的人)的心態(tài)。 Scaling laws 表明,只要我們繼續(xù)將更多的計(jì)算能力投入到模型中,我們就能獲得更好的性能。當(dāng)然,AI 擴(kuò)展的確切方法和方面隨著時(shí)間的推移而發(fā)生了變化:最初是模型大小,然后是數(shù)據(jù)集大小,現(xiàn)在是推理時(shí)間計(jì)算和合成數(shù)據(jù)。 自 2017 年原始 Transformer 以來(lái),更多的計(jì)算能力等于更好的性能的整體趨勢(shì)似乎仍在持續(xù)。 更高效的模型意味著您可以在給定的計(jì)算預(yù)算下獲得更高的性能,但更多的計(jì)算資源仍然更好。更高效的模型意味著可以用更少的計(jì)算資源做更多的事情,但使用更多的計(jì)算資源,可以做到更多! 你可能有自己的關(guān)于 scaling laws 的看法。你可能認(rèn)為即將出現(xiàn)一個(gè)平臺(tái)期。你可能認(rèn)為過(guò)去的表現(xiàn)并不能預(yù)示未來(lái)的結(jié)果。 但如果所有最大的 AGI 公司都在押注 scaling laws 能夠持續(xù)足夠長(zhǎng)的時(shí)間,以實(shí)現(xiàn) AGI 和 ASI。這是他們的堅(jiān)定信念,那么唯一合理的行動(dòng)就是獲取更多的計(jì)算能力。 現(xiàn)在你可能認(rèn)為「NVIDIA 的 GPU 很快就會(huì)過(guò)時(shí),看看 AMD、Cerebras、Graphcore、TPUs、Trainium 等」,blabla。有數(shù)百萬(wàn)種針對(duì) AI 的硬件產(chǎn)品,都在試圖與 NVIDIA 競(jìng)爭(zhēng)。其中之一可能在將來(lái)獲勝。在這種情況下,也許這些 AGI 公司會(huì)轉(zhuǎn)向它們——但這與 DeepSeek 的成功完全無(wú)關(guān)。 個(gè)人而言,我認(rèn)為沒(méi)有強(qiáng)有力的證據(jù)表明其他公司會(huì)撼動(dòng) NVIDIA 在 AI 加速芯片領(lǐng)域的統(tǒng)治地位,鑒于 NVIDIA 目前的市場(chǎng)統(tǒng)治地位和持續(xù)的創(chuàng)新水平。 總體而言,我看不出為什么 DeepSeek 意味著你應(yīng)該看跌 NVIDIA。你可能有其他理由看跌 NVIDIA,這些理由可能非常合理且正確,但 DeepSeek 似乎不是我認(rèn)為合適的理由。 謠言 4:模仿罷了!DeepSeek 沒(méi)有做出任何有意義的創(chuàng)新 錯(cuò)誤。語(yǔ)言模型的設(shè)計(jì)和訓(xùn)練方法有很多創(chuàng)新,其中一些比其他更重要。以下是一些(不是完整的列表,可以閱讀 DeepSeek-V3 和 DeepSeek-R1 論文以獲取更多詳細(xì)信息): 多頭潛注意力 (MLA) - LLMs 通常是指利用所謂的多頭注意力(MHA)機(jī)制的 Transformer。DeepSeek 團(tuán)隊(duì)開(kāi)發(fā)了一種 MHA 機(jī)制的變體,它既更節(jié)省內(nèi)存,又提供更好的性能。 GRPO 與可驗(yàn)證獎(jiǎng)勵(lì) - 自從 o1 發(fā)布以來(lái),AI 從業(yè)者一直在嘗試復(fù)制它。由于 OpenAI 對(duì)它的工作方式一直相當(dāng)保密,大家不得不探索各種不同的方法來(lái)實(shí)現(xiàn)類(lèi)似 o1 的結(jié)果。有各種嘗試,如蒙特卡洛樹(shù)搜索(谷歌 DeepMind 在圍棋中獲勝所采用的方法),結(jié)果證明不如最初預(yù)期的那樣有希望。 DeepSeek 展示了一個(gè)非常簡(jiǎn)單的強(qiáng)化學(xué)習(xí)(RL)管道實(shí)際上可以實(shí)現(xiàn)類(lèi)似 o1 的結(jié)果。除此之外,他們還開(kāi)發(fā)了自己變種的常見(jiàn) PPO RL 算法,稱(chēng)為 GRPO,它更高效且性能更好。我想 AI 社區(qū)中的許多人都在想,我們?yōu)槭裁粗皼](méi)有嘗試過(guò)這種方法呢? DualPipe - 在多個(gè) GPU 上訓(xùn)練 AI 模型時(shí),有許多效率方面需要考慮。你需要弄清楚模型和數(shù)據(jù)集如何在所有 GPU 之間分配,數(shù)據(jù)如何通過(guò) GPU 流動(dòng)等。你還需要減少 GPU 之間任何數(shù)據(jù)傳輸,因?yàn)樗浅B,最好盡可能在每個(gè)單獨(dú)的 GPU 上處理。 無(wú)論如何,有許多設(shè)置此類(lèi)多 GPU 訓(xùn)練的方法,DeepSeek 團(tuán)隊(duì)設(shè)計(jì)了一種新的、效率更高且速度更快的解決方案,稱(chēng)為 DualPipe。 我們非常幸運(yùn),DeepSeek 完全開(kāi)源了這些創(chuàng)新,并寫(xiě)了詳細(xì)的介紹,這與美國(guó) AGI 公司不同,F(xiàn)在,每個(gè)人都可以受益,用這些創(chuàng)新的辦法來(lái)提高他們自己的 AI 模型訓(xùn)練。 謠言 5:DeepSeek 正在「汲取」ChatGPT 的知識(shí) 戴維·薩克斯(美國(guó)政府的 AI 和加密巨頭)和 OpenAI 聲稱(chēng),DeepSeek 使用一種稱(chēng)為蒸餾的技術(shù)「汲取」ChatGPT 的知識(shí)。 首先,這里的「蒸餾」一詞使用得非常奇怪。通常,蒸餾指的是在所有可能的下一個(gè)詞(token)的全概率(logits)上進(jìn)行訓(xùn)練,但這個(gè)信息甚至不能通過(guò) ChatGPT 暴露出來(lái)。 但是好吧,就假設(shè)我們?cè)谟懻撊绾问褂?ChatGPT 生成的文本進(jìn)行訓(xùn)練,盡管這并不是該術(shù)語(yǔ)的典型用法。 OpenAI 及其員工聲稱(chēng) DeepSeek 自己使用 ChatGPT 生成文本并在此基礎(chǔ)上進(jìn)行訓(xùn)練。他們沒(méi)有提供證據(jù),但如果這是真的,那么 DeepSeek 顯然違反了 ChatGPT 的服務(wù)條款。我認(rèn)為這對(duì)一家中國(guó)公司來(lái)說(shuō),法律后果尚不明確,但我對(duì)此了解不多。 請(qǐng)注意,這僅限于 DeepSeek 自己生成了用于訓(xùn)練的數(shù)據(jù)。如果 DeepSeek 使用了來(lái)自其他來(lái)源的 ChatGPT 生成數(shù)據(jù)(目前有許多公開(kāi)數(shù)據(jù)集),我的理解是這種「蒸餾」或合成數(shù)據(jù)訓(xùn)練并未被 TOS 禁止。 盡管如此,在我看來(lái),這并不減少 DeepSeek 的成就。與 DeepSeek 的效率方面相比,作為研究人員,讓我印象更深刻的是他們對(duì) o1 的復(fù)制。我非常懷疑對(duì) ChatGPT 進(jìn)行「蒸餾」有任何幫助,這種懷疑完全是出于 o1 的 CoT 思維過(guò)程從未公開(kāi)過(guò),那么 DeepSeek 如何能夠?qū)W習(xí)它呢? 此外,許多 LLMs 確實(shí)在 ChatGPT(以及其他 LLM)上進(jìn)行了訓(xùn)練,而且在新抓取的任何互聯(lián)網(wǎng)內(nèi)容中自然也會(huì)有 AI 文本。 總體而言,認(rèn)為 DeepSeek 的模型表現(xiàn)良好僅僅是因?yàn)樗?jiǎn)單提煉了 ChatGPT 的觀點(diǎn),是忽略了 DeepSeek 在工程、效率和架構(gòu)創(chuàng)新方面的現(xiàn)實(shí)。 應(yīng)該擔(dān)心中國(guó)在人工智能領(lǐng)域的霸權(quán)嗎? 或許有一點(diǎn)?坦白說(shuō),現(xiàn)在和兩個(gè)月前相比,中美 AI 競(jìng)賽在實(shí)質(zhì)上并沒(méi)有太多變化。相反,外界的反應(yīng)相當(dāng)激烈,這確實(shí)可能通過(guò)資金、監(jiān)管等方面的變化影響整體 AI 格局。 中國(guó)人一直都在人工智能領(lǐng)域具有競(jìng)爭(zhēng)力,DeepSeek 現(xiàn)在讓他們變得無(wú)法忽視。 關(guān)于開(kāi)源的典型論點(diǎn)是,由于中國(guó)落后,我們不應(yīng)該公開(kāi)分享我們的技術(shù),讓他們趕上。但顯然,中國(guó)已經(jīng)趕上了,他們實(shí)際上很久以前就已經(jīng)趕上了,他們?cè)陂_(kāi)源方面實(shí)際上處于領(lǐng)先地位,因此不清楚進(jìn)一步收緊我們的技術(shù),實(shí)際上的幫助是否有那么大。 請(qǐng)注意,像 OpenAI、Anthropic 和 Google DeepMind 這樣的公司肯定有比 DeepSeek R1 更好的模型。例如,OpenAI 的 o3 模型的基準(zhǔn)測(cè)試結(jié)果相當(dāng)令人印象深刻,他們可能已經(jīng)有一個(gè)后續(xù)模型正在開(kāi)發(fā)中。 在此基礎(chǔ)上,隨著像星門(mén)項(xiàng)目以及 OpenAI 即將到來(lái)的融資輪等重要額外投資,OpenAI 和其他美國(guó)前沿實(shí)驗(yàn)室將擁有充足的計(jì)算能力,以保持他們的領(lǐng)先地位。 當(dāng)然,中國(guó)將向人工智能發(fā)展投入大量額外資金。所以總的來(lái)說(shuō),競(jìng)爭(zhēng)正在升溫!但我認(rèn)為,美國(guó) AGI 前沿實(shí)驗(yàn)室保持領(lǐng)先的道路仍然相當(dāng)有希望。 結(jié)論 一方面,一些 AI 人士,尤其是 OpenAI 的一些人,試圖淡化 DeepSeek。而另一方面,一些評(píng)論家和自稱(chēng)專(zhuān)家對(duì) DeepSeek 又反應(yīng)過(guò)度。 需要指出的是,OpenAI、Anthropic、Meta、Google、xAI 和 NVIDIA 等并沒(méi)有就此完蛋。不,DeepSeek (很可能)沒(méi)有在說(shuō)他們所做的事情上撒謊。 然而無(wú)論如何,必須承認(rèn)的是:DeepSeek 應(yīng)得到認(rèn)可,R1 是一個(gè)令人印象深刻的模型。 原文鏈接: https://www.tanishq.ai/blog/posts/deepseek-delusions.html 本文來(lái)源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。