太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

Anthropic CEO 最新萬字長文：不認(rèn)為 DeepSeek 本身是對手，美國要加強(qiáng)芯片出口管制

愛范兒整合編輯：太平洋科技發(fā)布于：2025-01-31 10:30

今天凌晨，Anthropic CEO Dario Amodei 在 X 平臺發(fā)布了一篇萬字長文，回應(yīng)了近期圍繞在 DeepSeek 的諸多風(fēng)波事件。

在這篇博客中，Amodei 表示不認(rèn)為 DeepSeek 本身是對手，但同時(shí)卻又喊話美國要加強(qiáng)芯片出口管制。

面對 Amodei 疑似「破防」的行為，X 網(wǎng)友在評論區(qū)貼臉輸出：

附上原文編譯：

幾周前，我曾提出應(yīng)加強(qiáng)美國對華芯片出口管制。如今，中國 AI 公司 DeepSeek 竟然在某些方面以更低成本接近了美國最前沿的 AI 模型。

在這篇文章中，我不會討論 DeepSeek 是否真的威脅到 Anthropic 等美國 AI 企業(yè)（盡管我認(rèn)為，關(guān)于中國 AI 取代美國領(lǐng)導(dǎo)地位的某些說法被夸大了）¹。

相反，我想探討一個問題：DeepSeek 的技術(shù)突破是否削弱了對芯片出口管制的必要性？我的答案是否定的。事實(shí)上，我認(rèn)為這反而更加凸顯了出口管制的重要性²。

出口管制的核心目標(biāo)是確保國家在 AI 發(fā)展中保持領(lǐng)先。需要明確的是，管制政策并不是為了回避中美 AI 競爭。

最終，如果美國及其他國家希望在 AI 領(lǐng)域占據(jù)主導(dǎo)地位，就必須擁有比中國更先進(jìn)的模型。但與此同時(shí)，我們也不應(yīng)該在可以避免的情況下，讓中國政府獲得技術(shù)優(yōu)勢。

AI 發(fā)展的三大核心動態(tài)

在討論政策問題之前，我想先介紹 AI 系統(tǒng)的三個關(guān)鍵發(fā)展動態(tài)，這對理解 AI 產(chǎn)業(yè)至關(guān)重要：

1. 縮放規(guī)律（Scaling Laws）

AI 領(lǐng)域的一個核心規(guī)律是，隨著訓(xùn)練規(guī)模的擴(kuò)大，模型的表現(xiàn)會持續(xù)平穩(wěn)提升。我和我的聯(lián)合創(chuàng)始人在 OpenAI 工作時(shí)，就曾率先記錄并驗(yàn)證過這一現(xiàn)象。簡單來說，在其他條件相同的情況下，增加訓(xùn)練計(jì)算量（compute）會讓 AI 在各種認(rèn)知任務(wù)上的表現(xiàn)更好。例如：

價(jià)值 100 萬美元的 AI 可能能解決 20% 的關(guān)鍵編程任務(wù)

價(jià)值 1000 萬美元的 AI 可能能解決 40%

價(jià)值 1 億美元的 AI 可能能解決 60%

這些差異在實(shí)際應(yīng)用中會帶來巨大影響——計(jì)算量增加 10 倍，可能意味著 AI 水平從本科生提升到博士生。因此，各家公司都在投入巨額資金訓(xùn)練更強(qiáng)的模型。

2. 計(jì)算效率提升（Shifting the Curve）

AI 領(lǐng)域不斷涌現(xiàn)出各種大大小小的創(chuàng)新，使得 AI 訓(xùn)練和推理更加高效。這些創(chuàng)新可能涉及模型架構(gòu)改進(jìn)（例如對 Transformer 結(jié)構(gòu)的優(yōu)化）、更高效的計(jì)算方式（提升硬件利用率）以及新一代 AI 計(jì)算芯片。

這些優(yōu)化會整體提升 AI 的訓(xùn)練效率，也就是「Shifting the Curve」：

如果某項(xiàng)技術(shù)帶來 2 倍的計(jì)算提升（Compute Multiplier，CM），那么原本需要 1000 萬美元訓(xùn)練出的 40% 代碼解決能力，現(xiàn)在只需要 500 萬美元；原本 1 億美元的 60% 代碼解決能力，現(xiàn)在只需要 5000 萬美元。

各大 AI 公司不斷發(fā)現(xiàn)這樣的 CM 提升：

小幅優(yōu)化（約 1.2 倍）：常見的微調(diào)優(yōu)化

中等優(yōu)化（約 2 倍）：架構(gòu)改進(jìn)或算法優(yōu)化

大幅優(yōu)化（約 10 倍）：重大技術(shù)突破

由于 AI 智能水平的提升價(jià)值極高，這種效率提升通常不會降低總訓(xùn)練成本，反而會促使企業(yè)投入更多資金，訓(xùn)練更強(qiáng)的模型。許多人誤以為 AI 會像傳統(tǒng)產(chǎn)品那樣「先貴后便宜」，但 AI 并不是一個固定質(zhì)量的商品——當(dāng)計(jì)算效率提高后，行業(yè)不會減少計(jì)算消耗，而是更快地追求更強(qiáng)的 AI。

在 2020 年，我的團(tuán)隊(duì)發(fā)表了一篇論文，指出算法進(jìn)步帶來的計(jì)算效率提升速度約為每年 1.68 倍。但目前這一速度可能已經(jīng)加快到每年 4 倍，并且這一估算還未考慮硬件進(jìn)步的影響。

3. 推理成本的降低（Inference Cost Reduction）訓(xùn)練效率的提升同樣會影響 AI 推理（即模型在運(yùn)行時(shí)的計(jì)算成本）。過去幾年，我們已經(jīng)看到 AI 的推理成本持續(xù)下降，同時(shí)性能不斷提升。例如 Claude 3.5 Sonnet（發(fā)布于 GPT-4 之后 15 個月），在幾乎所有基準(zhǔn)測試上都超越了 GPT-4，但其 API 價(jià)格僅為 GPT-4 的 1/10。

3、范式轉(zhuǎn)變（Shifting the Paradigm）

AI 訓(xùn)練的擴(kuò)展方式并非一成不變，有時(shí)核心擴(kuò)展對象會發(fā)生變化，或者訓(xùn)練過程中會引入新的擴(kuò)展方法。

在 2020-2023 年間，AI 訓(xùn)練的主要擴(kuò)展方向是預(yù)訓(xùn)練模型，這些模型主要基于大規(guī)�；ヂ�(lián)網(wǎng)文本數(shù)據(jù)進(jìn)行訓(xùn)練，在此基礎(chǔ)上進(jìn)行少量額外的微調(diào)訓(xùn)練，以提升特定能力。

進(jìn)入 2024 年，利用強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）訓(xùn)練模型生成思維鏈（Chain of Thought, CoT）成為 AI 訓(xùn)練的新焦點(diǎn)。

Anthropic、DeepSeek，以及 OpenAI（2024 年 9 月發(fā)布的 o1-preview 模型）等公司發(fā)現(xiàn)，這種訓(xùn)練方式可以顯著提升模型在某些客觀可衡量任務(wù)上的表現(xiàn)，特別是在數(shù)學(xué)推理、編程競賽、以及類似數(shù)學(xué)和編程的復(fù)雜邏輯推理。

新的訓(xùn)練范式采用兩階段方法，先訓(xùn)練傳統(tǒng)預(yù)訓(xùn)練模型，使其具備基礎(chǔ)能力。其次，通過強(qiáng)化學(xué)習(xí)（RL）增強(qiáng)模型的推理能力。

由于這種 RL 訓(xùn)練方法仍然較新，當(dāng)前所有公司在 RL 階段的投入都較少，因此仍處于早期規(guī)�；A段。僅從 10 萬美元擴(kuò)展到 100 萬美元的訓(xùn)練投入，就能帶來巨大性能提升。

企業(yè)正在迅速推進(jìn) RL 訓(xùn)練的擴(kuò)展，預(yù)計(jì)很快將達(dá)到數(shù)億美元甚至數(shù)十億美元級別。目前，我們正處于一個獨(dú)特的「交叉點(diǎn)」（crossover point），AI 訓(xùn)練正在經(jīng)歷重要的范式轉(zhuǎn)變，由于 RL 訓(xùn)練仍處于早期擴(kuò)展階段，因此可以在短時(shí)間內(nèi)實(shí)現(xiàn)快速性能突破。

DeepSeek 的模型

上述三大 AI 發(fā)展動態(tài)可以幫助我們理解 DeepSeek 最近發(fā)布的模型。

大約一個月前，DeepSeek 推出了「DeepSeek-V3」，這是一個純預(yù)訓(xùn)練模型，即前文第 3 點(diǎn)中提到的第一階段模型。隨后，上周他們又發(fā)布了「R1」，在 V3 的基礎(chǔ)上增加了第二階段訓(xùn)練。雖然外界無法完全了解這些模型的內(nèi)部細(xì)節(jié)，但以下是我對這兩次發(fā)布的最佳理解。

DeepSeek-V3 才是 DeepSeek 近期的真正創(chuàng)新，早在一個月前就值得引起關(guān)注（我們當(dāng)時(shí)確實(shí)注意到了）。

作為一個純預(yù)訓(xùn)練模型，DeepSeek-V3 在某些關(guān)鍵任務(wù)上的表現(xiàn)接近美國最先進(jìn)的 AI 模型，但訓(xùn)練成本要低得多。（不過，我們發(fā)現(xiàn) Claude 3.5 Sonnet 在某些關(guān)鍵任務(wù)上仍然明顯更強(qiáng)，特別是現(xiàn)實(shí)世界中的編程能力。）

DeepSeek 團(tuán)隊(duì)能夠做到這一點(diǎn)，主要依賴于一系列真正出色的工程創(chuàng)新，特別是在計(jì)算效率優(yōu)化方面，包括「鍵-值緩存」（Key-Value Cache）管理的創(chuàng)新優(yōu)化，提高了模型在推理過程中的效率，以及對「專家混合模型」（Mixture of Experts, MoE）技術(shù)的突破性應(yīng)用，使其在大規(guī)模 AI 模型中的表現(xiàn)優(yōu)于以往。

然而，我們需要更仔細(xì)地分析：

DeepSeek 并沒有「用 600 萬美元⁵完成了美國 AI 公司花費(fèi)數(shù)十億美元才能做到的事情」。就我能代表的 Anthropic 而言，Claude 3.5 Sonnet 是一個中等規(guī)模的模型，訓(xùn)練成本為幾千萬美元（具體數(shù)字我不會透露）。此外，關(guān)于 3.5 Sonnet 訓(xùn)練過程中使用了更大、更昂貴的模型的傳言并不屬實(shí)。Sonnet 的訓(xùn)練是在 9 到 12 個月前進(jìn)行的，而 DeepSeek 的模型是在去年 11 月至 12 月訓(xùn)練的。

盡管如此，Sonnet 在許多內(nèi)部和外部評測中仍然明顯領(lǐng)先。因此，更準(zhǔn)確的說法應(yīng)該是：「DeepSeek 以相對較低的成本訓(xùn)練出了一個接近 7 到 10 個月前的美國模型性能的模型，但成本遠(yuǎn)沒有人們所說的那么低。」

如果按照過去的趨勢，AI 訓(xùn)練成本每年大約下降 4 倍，那么在正常情況下——比如 2023 年和 2024 年的成本下降趨勢——我們可以預(yù)期，現(xiàn)在的模型訓(xùn)練成本應(yīng)該比 3.5 Sonnet 或 GPT-4o 低 3 到 4 倍。而 DeepSeek-V3 的性能仍然遜色于這些美國最前沿的模型——大約差 2 倍（這個估計(jì)對 DeepSeek-V3 來說已經(jīng)相當(dāng)慷慨了）。這意味著，如果 DeepSeek-V3 的訓(xùn)練成本比一年前的美國頂級模型低 8 倍，那也是正常的，符合趨勢的，并不是什么意外突破。

事實(shí)上，DeepSeek-V3 的成本下降幅度甚至比 GPT-4 到 Claude 3.5 Sonnet 的推理價(jià)格下降幅度（10 倍）還要小，而 3.5 Sonnet 本身比 GPT-4 還要強(qiáng)。這一切都說明，DeepSeek-V3 既不是技術(shù)上的革命性突破，也沒有改變大語言模型（LLM）的經(jīng)濟(jì)模式，它只是符合現(xiàn)有成本下降趨勢的一個正常案例。

不同之處在于，這次率先實(shí)現(xiàn)預(yù)期成本下降的是一家中國公司。這在歷史上是第一次發(fā)生，因此具有重要的地緣政治意義。不過，美國 AI 公司很快也會跟上這一趨勢，而且它們并不是通過復(fù)制 DeepSeek 來實(shí)現(xiàn)的，而是因?yàn)樗鼈冏陨硪苍谘刂榷ǖ某杀鞠陆登€前進(jìn)。

無論是 DeepSeek 還是美國 AI 公司，現(xiàn)在都擁有比訓(xùn)練它們現(xiàn)有主力模型時(shí)更多的資金和芯片。這些額外的芯片被用于研發(fā)新的模型技術(shù)，有時(shí)也會用于訓(xùn)練尚未發(fā)布、或者需要多次嘗試才能完善的大型模型。

據(jù)報(bào)道（盡管我們無法確認(rèn)其真實(shí)性），DeepSeek 實(shí)際上擁有 50000 片 Hopper 代 GPU⁶，而我估計(jì)這大約是美國主要 AI 公司 GPU 規(guī)模的 1/2 到 1/3（例如，這個數(shù)量比 xAI 的「Colossus」集群少 2 到 3 倍）⁷。這 50000 片 Hopper GPU 的成本大約在 10 億美元左右。

因此，DeepSeek 作為一家公司（而不僅僅是某個單一模型的訓(xùn)練費(fèi)用）的總投入，并沒有與美國 AI 研究實(shí)驗(yàn)室有巨大的差距。

值得注意的是，「擴(kuò)展曲線」（scaling curve）的分析其實(shí)有些過于簡化了。不同的模型各有特點(diǎn)，擅長的領(lǐng)域也不同，而擴(kuò)展曲線的數(shù)值只是一個粗略的平均值，忽略了許多細(xì)節(jié)。

就我所了解的 Anthropic 的模型而言，正如我之前提到的，Claude 在代碼生成和與用戶進(jìn)行高質(zhì)量互動方面表現(xiàn)極佳，許多人甚至將其用于個人建議或支持。在這些方面，以及其他一些特定任務(wù)上，DeepSeek 根本無法與之相比，而這些差距并不會直接反映在擴(kuò)展曲線的數(shù)據(jù)中。

上周發(fā)布的 R1 讓公眾高度關(guān)注，并導(dǎo)致英偉達(dá)股價(jià)下跌約 17%。但從創(chuàng)新或工程角度來看，R1 遠(yuǎn)不如 V3 令人興奮。

R1 只是在訓(xùn)練中增加了第二階段——強(qiáng)化學(xué)習(xí)（這一點(diǎn)在上一部分的 #3 中有提到），本質(zhì)上是對 OpenAI 在 o1 版本中的方法的復(fù)現(xiàn)（兩者的規(guī)模和效果似乎相近）⁸。不過，由于目前仍處于擴(kuò)展曲線的早期階段，多家公司都有可能訓(xùn)練出類似的模型，前提是它們有一個強(qiáng)大的預(yù)訓(xùn)練基礎(chǔ)模型。

在 V3 現(xiàn)有的基礎(chǔ)上訓(xùn)練出 R1 可能成本非常低。因此，我們正處于一個有趣的「交叉點(diǎn)」：在這個階段，多個公司都能訓(xùn)練出優(yōu)秀的推理能力模型。但這種情況不會持續(xù)太久，隨著模型繼續(xù)沿?cái)U(kuò)展曲線向上發(fā)展，這種「門檻較低」的窗口期將很快結(jié)束。

芯片出口管制

以上分析其實(shí)只是為我真正關(guān)注的話題做鋪墊——對中國的芯片出口管制。結(jié)合前面的事實(shí)，我認(rèn)為當(dāng)前的情況如下：

AI 訓(xùn)練的趨勢是，企業(yè)會投入越來越多的資金來訓(xùn)練更強(qiáng)大的模型。雖然訓(xùn)練同等智能水平模型的成本在不斷下降，但 AI 模型的經(jīng)濟(jì)價(jià)值實(shí)在太高，因此節(jié)省下來的成本幾乎立即被重新投入，以訓(xùn)練更強(qiáng)大的模型，而整體支出仍然保持在原來的高額水平。

DeepSeek 研發(fā)的效率優(yōu)化方法，如果美國實(shí)驗(yàn)室還沒有掌握，那么很快也會被美中雙方的實(shí)驗(yàn)室應(yīng)用于訓(xùn)練價(jià)值數(shù)十億美元的 AI 模型。這些新模型的表現(xiàn)將比原本計(jì)劃訓(xùn)練的多億美元級模型更強(qiáng)，但投入依然會是數(shù)十億美元，并且這個數(shù)字還會持續(xù)上升，直到 AI 智能水平超越幾乎所有人在幾乎所有領(lǐng)域的能力。

要打造這樣比幾乎所有人都更聰明的 AI，需要數(shù)百萬顆芯片、至少數(shù)百億美元的資金，并且最有可能在 2026-2027 年實(shí)現(xiàn)。DeepSeek 的最新發(fā)布并不會改變這個趨勢，因?yàn)樗鼈兊某杀鞠陆捣热匀辉陬A(yù)期范圍內(nèi)，這一點(diǎn)早已納入行業(yè)的長期計(jì)算。

這意味著，到 2026-2027 年，世界可能會出現(xiàn)兩種截然不同的局面，在美國，多家公司肯定會擁有所需的數(shù)百萬顆芯片（成本高達(dá)數(shù)百億美元）。問題在于，中國是否也能獲得數(shù)百萬顆芯片⁹。

如果中國能夠獲得數(shù)百萬顆芯片，我們將進(jìn)入一個雙極世界（bipolar world），即美國和中國都擁有強(qiáng)大的 AI 模型，推動科學(xué)技術(shù)以前所未有的速度發(fā)展——我稱之為「數(shù)據(jù)中心里的天才國家」（countries of geniuses in a datacenter）。

但雙極世界未必會長期保持平衡。即使中美 AI 技術(shù)暫時(shí)相當(dāng)，中國可能會投入更多的人才、資金和精力來將 AI 技術(shù)應(yīng)用于軍事領(lǐng)域。再加上中國龐大的工業(yè)基礎(chǔ)和軍事戰(zhàn)略優(yōu)勢，這可能使中國不僅在 AI 領(lǐng)域取得主導(dǎo)地位，甚至在全球各個領(lǐng)域占據(jù)領(lǐng)先。

如果中國無法獲得數(shù)百萬顆芯片，我們至少暫時(shí)會進(jìn)入一個單極世界（unipolar world），即只有美國及其盟友掌握最先進(jìn)的 AI 模型。這個單極局面是否會持續(xù)并不確定，但至少有可能出現(xiàn)這樣一種情況：由于 AI 系統(tǒng)可以幫助構(gòu)建更強(qiáng)的 AI，短暫的領(lǐng)先可能會被轉(zhuǎn)化為長期優(yōu)勢¹⁰。在這種情況下，美國及其盟友可能會在全球舞臺上取得決定性并長期的主導(dǎo)地位。

因此，嚴(yán)格執(zhí)行的出口管制¹¹是阻止中國獲取數(shù)百萬顆芯片的唯一有效手段，也是決定世界最終是單極還是雙極格局的最重要因素。

DeepSeek 的成功并不意味著出口管制失效。正如我之前所說，DeepSeek 實(shí)際上擁有相當(dāng)可觀的芯片資源，因此他們能夠開發(fā)并訓(xùn)練出強(qiáng)大的模型并不令人意外。他們在資源上并沒有比美國 AI 公司受到更大的限制，出口管制也并不是促使他們「創(chuàng)新」的主要原因。他們只是非常優(yōu)秀的工程師，而這正說明了中國在 AI 領(lǐng)域是美國的嚴(yán)峻競爭對手。

DeepSeek 的成功也并不意味著中國可以一直通過走私獲得所需的芯片，或者出口管制存在無法堵住的漏洞。我認(rèn)為，出口管制從來就不是為了阻止中國獲得幾萬顆芯片。10 億美元的經(jīng)濟(jì)活動可以隱藏，但 100 億美元甚至 10 億美元的活動就難以掩蓋了，而要偷偷運(yùn)送上百萬顆芯片在物理上也可能極為困難。

我們還可以看看目前 DeepSeek 被報(bào)道所擁有的芯片類型。據(jù) SemiAnalysis 分析，DeepSeek 現(xiàn)有的 50000 片 AI 芯片是 H100、H800 和 H20 的混合。

H100 自推出以來就受到出口管制的限制，因此如果 DeepSeek 擁有 H100，那它們必然是通過走私獲得的。（不過，值得注意的是，英偉達(dá)曾表示 DeepSeek 的 AI 進(jìn)展「完全符合出口管制規(guī)定」）。

H800 在 2022 年最初的出口管制政策下仍可出口，但在 2023 年 10 月政策更新后被禁止，因此這些芯片可能是在禁令生效前運(yùn)送的。

H20 在訓(xùn)練方面效率較低，但在推理（采樣）方面更高效，目前仍允許出口，但我認(rèn)為它也應(yīng)該被禁止。

綜上所述，DeepSeek 擁有的 AI 芯片主要包括目前尚未被禁（但應(yīng)該被禁）的芯片、在被禁之前獲得的芯片、可能通過走私獲取的少量芯片。

這實(shí)際上表明了出口管制正在發(fā)揮作用，并且在不斷調(diào)整優(yōu)化：如果出口管制完全無效，DeepSeek 現(xiàn)在很可能會擁有一整批頂級的 H100 芯片。然而，事實(shí)并非如此，這說明政策正在逐步堵住漏洞。如果我們能夠足夠快地加強(qiáng)管控，就可能阻止中國獲得數(shù)百萬顆芯片，從而提高美國維持 AI 領(lǐng)先地位、形成單極世界的可能性。

關(guān)于出口管制和美國國家安全，我想明確一點(diǎn)：

我并不認(rèn)為 DeepSeek 本身是對手，我也不是專門針對這家公司。從他們接受采訪時(shí)的表現(xiàn)來看，DeepSeek 的研究人員看起來像是聰明、充滿好奇心的工程師，他們只是想開發(fā)出有用的技術(shù)。

出口管制是我們最強(qiáng)有力的手段之一，能夠阻止這種情況發(fā)生。有人認(rèn)為，AI 技術(shù)變得越來越強(qiáng)、性價(jià)比越來越高，是一個應(yīng)該放松出口管制的理由——但這完全沒有道理。

腳注

1 關(guān)于模型蒸餾：在這篇文章中，我不對有關(guān) DeepSeek 是否對西方模型進(jìn)行蒸餾的報(bào)道發(fā)表任何看法。我僅基于 DeepSeek 論文中提供的信息，假設(shè)他們確實(shí)按照自己所述的方式訓(xùn)練了模型。

2 DeepSeek 的發(fā)布并不影響英偉達(dá)：事實(shí)上，我認(rèn)為 DeepSeek 模型的發(fā)布顯然不會對英偉達(dá)造成負(fù)面影響，而英偉達(dá)股價(jià)因此下跌約 17% 讓我感到困惑。從邏輯上講，DeepSeek 的發(fā)布對英偉達(dá)的影響甚至比對其他 AI 公司的影響還要小。但無論如何，我這篇文章的主要目的是為出口管制政策辯護(hù)。

3 關(guān)于 R1 訓(xùn)練方式的細(xì)節(jié)：更精確地說，R1 是一個預(yù)訓(xùn)練模型，并且僅進(jìn)行了少量的強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練，這種做法在推理范式變革前的模型中很常見。

4 DeepSeek 在某些特定任務(wù)上表現(xiàn)較強(qiáng)：但這些任務(wù)范圍非常有限。

5 關(guān)于 DeepSeek 論文中提到的「600 萬美元訓(xùn)練成本」：這個數(shù)據(jù)是 DeepSeek 論文中引用的，我在這里暫且接受，并不對其真實(shí)性提出質(zhì)疑。不過，我質(zhì)疑的是將此與美國 AI 公司的訓(xùn)練成本直接對比的合理性。600 萬美元僅指訓(xùn)練某個具體模型的成本，但 AI 研發(fā)的整體成本要遠(yuǎn)遠(yuǎn)高于這個數(shù)字。此外，我們也無法完全確定 600 萬美元的真實(shí)性——雖然模型規(guī)模可以驗(yàn)證，但訓(xùn)練時(shí)使用的 token 數(shù)量等因素卻難以核實(shí)。

6 關(guān)于 DeepSeek 現(xiàn)有芯片的更正：在一些采訪中，我曾說 DeepSeek 擁有「50,000 片 H100」，但這實(shí)際上是對相關(guān)報(bào)道的不準(zhǔn)確概括，在此更正。H100 是目前最知名的 Hopper 架構(gòu)芯片，所以我當(dāng)時(shí)假設(shè)報(bào)道所指的就是 H100。但實(shí)際上，Hopper 系列還包括 H800 和 H20，DeepSeek 擁有的是這三種芯片的混合，總數(shù)為 50000 片。雖然這個事實(shí)并不會改變整體情況，但仍值得澄清。我在討論出口管制時(shí)會更詳細(xì)地分析 H800 和 H20 的問題。

10 出口管制的目標(biāo)：這里需要明確一點(diǎn)，目標(biāo)并不是剝奪中國從 AI 科技進(jìn)步中獲益的機(jī)會——AI 在科學(xué)、醫(yī)療、生活質(zhì)量等領(lǐng)域的突破，理應(yīng)造福所有人。真正的目標(biāo)是防止這些國家在軍事領(lǐng)域取得主導(dǎo)地位。

本文來源：愛范兒

DeepSeek 芯片出口管制 AI發(fā)展

愛范兒

原創(chuàng)欄目