Anthropic CEO萬字長文：DeepSeek不是我們的對手鎖死芯片出口才能保證美國領導下的單極世界

來源: lionhill 於 2025-01-30 10:40:10 [檔案] [舊帖] [給我悄悄話] 閱讀數 : (46693 bytes)

本帖於 2025-01-30 10:54:05 時間, 由版主 lionhill 編輯

周三，Anthropic 首席執行官達裏奧·阿莫迪 (Dario Amodei) 發布了一篇長文，對DeepSeek 的成功是否威脅到了美國，以及意味著美國對人工智能芯片的出口管製不起作用的爭論進行了分析。

以下是原文翻譯，文中的“我”指代達裏奧·阿莫迪。

圖片來源：Dario Amodei

幾周前，我主張美國加強對華芯片出口管製。自那以後，中國人工智能公司 DeepSeek 至少在某些方麵以更低的成本接近美國前沿人工智能模型的性能。

在這裏，我不會關注 DeepSeek 是否對 Anthropic 等美國人工智能公司構成威脅（盡管我確實認為，許多關於它們對美國人工智能領導地位構成威脅的說法都被大大誇大了）1。相反，我將關注 DeepSeek 的發布是否會破壞芯片出口管製政策的理由。我認為不會。事實上，我認為它們使出口管製政策比一周前更加重要2。

出口管製有一個至關重要的目的：讓美國走在人工智能發展的前沿。需要明確的是，這不是避開美國和中國之間競爭的方法。歸根結底，如果我們想獲勝，美國的人工智能公司必須擁有比中國更好的模式。我們不應該在沒有必要的情況下將技術優勢拱手讓給中國。

人工智能發展的三大動力

在我提出政策論點之前，我將描述理解AI係統的三個至關重要的基本動態：

擴展定律（Scaling Laws）。人工智能的一個特性（我和我的聯合創始人在 OpenAI 工作時是第一批記錄下來的）是，在其他條件相同的情況下，擴大人工智能係統的訓練範圍可以全麵改善一係列認知任務的結果。例如，一個價值 100 萬美元的模型可能解決 20% 的重要編碼任務，價值 1000 萬美元的模型可能解決 40%，價值 1 億美元的模型可能解決 60%，等等。這些差異在實踐中往往會產生巨大的影響——另一個 10 倍可能對應於本科生和博士生技能水平之間的差異——因此公司正在大力投資訓練這些模型。
改變曲線。這個領域不斷湧現出大大小小的想法，使事情變得更加有效或高效：這可能是模型架構的改進（對當今所有模型使用的 Transformer 基本架構進行調整），也可能隻是一種在底層硬件上更有效地運行模型的方法。新一代硬件也有同樣的效果。這通常改變曲線：如果創新是 2 倍的“計算乘數”（CM），那麽它可以讓您以 500 萬美元而不是 1000 萬美元的價格獲得 40% 的編碼任務；或者以 5000 萬美元而不是 1 億美元的價格獲得 60% 的編碼任務，等等。

每個前沿 AI 公司都會定期發現許多這樣的 CM：通常是小型的（~1.2 倍），有時是中型的（~2 倍），偶爾也會發現非常大的（~10 倍）。由於擁有更智能係統的價值如此之高，這種曲線的轉變通常會導致公司在訓練模型上花費更多，而不是更少：成本效率的提高最終完全用於訓練更智能的模型，僅受公司財務資源的限製。人們自然會被“一開始很貴，然後會變得更便宜”的想法所吸引——好像人工智能是一個質量恒定的單一事物，當它變得更便宜時，我們會使用更少的芯片來訓練它。

但重要的是縮放曲線：當它移動時，我們隻是更快地遍曆它，因為曲線末端的價值是如此之高。2020 年，我的團隊發表了一篇論文，指出由於算法進步導致的曲線變化約為每年 1.68 倍。自那以後，這一速度可能已經大大加快；它也沒有考慮到效率和硬件。

我猜今天的數字可能是每年約 4 倍。另一個估計是在這裏。訓練曲線的變化也會改變推理曲線，因此多年來，在模型質量保持不變的情況下，價格大幅下降。例如，比原始 GPT-4 晚 15 個月發布的 Claude 3.5 Sonnet 在幾乎所有基準測試中都勝過 GPT-4，同時 API 價格降低了約 10 倍。
轉變範式。每隔一段時間，正在擴展的底層內容就會發生一些變化，或者在訓練過程中會添加一種新的擴展類型。從 2020 年到 2023 年，擴展的主要內容是預訓練模型：在越來越多的互聯網文本上訓練模型，並在其基礎上進行少量其他訓練。2024 年，使用強化學習(RL) 訓練模型以生成思維鏈的想法已成為擴展的新焦點。

Anthropic、DeepSeek 和許多其他公司（也許最值得注意的是 9 月份發布了 o1 預覽模型的 OpenAI）發現，這種訓練極大地提高了某些選定的、客觀可衡量的任務（如數學、編碼競賽）以及類似於這些任務的推理的性能。

這種新範式涉及從普通類型的預訓練模型開始，然後在第二階段使用 RL 添加推理技能。重要的是，由於這種類型的強化學習是新的，我們仍處於擴展曲線的早期階段：對於所有參與者來說，在第二個強化學習階段花費的金額都很小。花費 100 萬美元而不是 10 萬美元就足以獲得巨大的收益。

各家公司現在正在迅速將第二階段的規模擴大到數億甚至數十億美元，但重要的是要明白，我們正處於一個獨特的“交叉點”，其中有一個強大的新範式處於擴展曲線的早期階段，因此可以快速獲得巨大收益。

DeepSeek 的模型

上述三個動態可以幫助我們了解 DeepSeek 最近的發布。大約一個月前，DeepSeek 發布了一個名為“ DeepSeek-V3 ”的模型，這是一個純粹的預訓練模型3 — 即上文第 3 點中描述的第一階段。然後上周，他們發布了“ R1 ”，其中增加了第二階段。從外部無法確定這些模型的所有內容，但以下是我對這兩個版本的最佳理解。

DeepSeek-V3實際上是真正的創新，一個月前就應該引起人們的注意（我們確實注意到了）。作為預訓練模型，它似乎在一些重要任務上的表現接近4個最先進的美國模型，同時訓練成本大大降低（盡管我們發現 Claude 3.5 Sonnet 在其他一些關鍵任務上的表現尤其好）。DeepSeek 團隊通過一些真正的、令人印象深刻的創新實現了這一點，這些創新主要集中在工程效率上。在管理稱為“鍵值緩存”的方麵以及使一種稱為“專家混合”的方法比以前更進一步方麵，都有特別創新的改進。

然而，仔細觀察是很重要的：

DeepSeek 不會“以 600 萬美元完成美國 AI 公司花費數十億美元完成的任務”。我隻能代表 Anthropic 發言，但 Claude 3.5 Sonnet 是一個中型模型，訓練成本高達幾千萬美元（我不會給出確切數字）。此外，3.5 Sonnet的訓練方式並未涉及更大或更昂貴的模型（與一些傳言相反）。Sonnet 的訓練是在 9-12 個月前進行的，DeepSeek 的模型是在 11 月/12 月進行的，而 Sonnet 在許多內部和外部評估中仍然遙遙領先。因此，我認為一個公平的說法是“ DeepSeek 生產的模型接近 7-10 個月前美國模型的性能，成本要低得多（但遠不及人們建議的比例） ”
如果成本曲線下降的曆史趨勢是每年約 4 倍，這意味著現在的模型比 3.5 Sonnet/GPT-4o 便宜 3-4 倍。由於 DeepSeek-V3 比美國前沿模型更差——假設在擴展曲線上差約 2 倍，我認為這對 DeepSeek-V3 來說相當慷慨——這意味著如果 DeepSeek-V3 的訓練成本比一年前開發的當前美國模型低約 8 倍，這將是完全正常的，完全“符合趨勢”。

我不會給出一個數字，但從前麵的要點可以清楚地看出，即使你從表麵上看 DeepSeek 的訓練成本，它們充其量也符合趨勢，甚至可能甚至不符合趨勢。例如，這比原始 GPT-4 到 Claude 3.5 Sonnet 推理價格差異（10 倍）要小，而且 3.5 Sonnet 是一個比 GPT-4 更好的模型。所有這些都表明，DeepSeek-V3 並不是一項獨特的突破，也不是從根本上改變 LLM 經濟的東西；它是持續成本降低曲線上的一個預期點。

這次的不同之處在於，第一個展示預期成本降低的公司是中國公司。這種情況從未發生過，具有地緣政治意義。然而，美國公司很快就會效仿——他們不會通過複製 DeepSeek 來做到這一點，而是因為他們也在實現成本降低的通常趨勢。
DeepSeek 和美國 AI 公司都擁有比他們訓練主要模型時更多的資金和芯片。額外的芯片用於研發以開發模型背後的理念，有時用於訓練尚未準備好的大型模型（或需要多次嚐試才能正確）。據報道 — — 我們不能確定它是否屬實 — — DeepSeek 實際上擁有 50,000 個 Hopper 代芯片6，我猜這大約是美國主要 AI 公司所擁有芯片的 2-3 倍（例如，它比 xAI“ Colossus ”集群少 2-3 倍）7。這 50,000 個 Hopper 芯片的成本約為 10 億美元。因此，DeepSeek 作為一家公司的總支出（與訓練單個模型的支出不同）與美國 AI 實驗室並沒有太大差別。
值得注意的是，“縮放曲線”分析有些過於簡單化，因為模型之間存在一定差異，各有優缺點；縮放曲線數字是一個粗略的平均值，忽略了很多細節。我隻能談論 Anthropic 的模型，但正如我上麵所暗示的，Claude 非常擅長編碼，並且擁有精心設計的與人互動的風格（許多人用它來獲得個人建議或支持）。在這些任務和其他一些任務上，DeepSeek 根本無法與之相比。這些因素沒有出現在縮放數字中。

R1是上周發布的模型，它引發了公眾的強烈關注（包括 Nvidia 股價下跌約 17% ），但從創新或工程角度來看，它遠不如 V3 那麽有趣。它增加了第二階段的訓練——強化學習，如上一節第 3 點所述——並且基本上複製了 OpenAI 對 o1 所做的事情（它們的規模似乎相似，結果也相似） 8。

但是，因為我們處於擴展曲線的早期階段，所以隻要從強大的預訓練模型開始，多家公司都可以生產這種類型的模型。在 V3 的情況下生產 R1 可能非常便宜。因此，我們處於一個有趣的“交叉點”，暫時有幾家公司可以生產出好的推理模型。隨著每個人都在這些模型的擴展曲線上進一步向上移動，這種情況將迅速不再成立。

出口管製

以上隻是我感興趣的主要話題的序言：對華芯片出口管製。鑒於上述事實，我認為情況如下：

有一種趨勢是，公司在訓練強大的人工智能模型上投入了越來越多的資金，盡管曲線會定期發生變化，訓練特定水平的模型智能的成本會迅速下降。隻是訓練越來越智能的模型的經濟價值是如此之大，以至於任何成本收益幾乎都會立即被吃掉——它們被重新投入到製作更智能的模型中，而我們最初計劃花費的成本與此相同。

在美國實驗室尚未發現的情況下，DeepSeek 開發的效率創新將很快被美國和中國的實驗室應用於訓練價值數十億美元的模型。這些模型的表現將優於他們之前計劃訓練的價值數十億美元的模型——但他們仍將花費數十億美元。這個數字將繼續上升，直到我們擁有在幾乎所有事情上都比幾乎所有人類更聰明的人工智能。
製造出在幾乎所有方麵都比人類更聰明的人工智能將需要數百萬個芯片，數百億美元（至少），而且最有可能在 2026-2027 年實現。DeepSeek 的發布不會改變這一點，因為它們大致處於預期的成本降低曲線上，而這一直被計入這些計算中。
這意味著，在 2026-2027 年，我們可能會陷入兩個截然不同的世界。在美國，多家公司肯定會擁有所需的數百萬個芯片（成本高達數百億美元）。問題是中國是否也能獲得數百萬個芯片9。

如果可以的話，我們將生活在一個兩極世界，美國和中國都擁有強大的人工智能模型，這將推動科學技術的極速進步——我稱之為“數據中心的天才國家”。兩極世界不一定會無限期保持平衡。即使美國和中國在人工智能係統方麵勢均力敵，中國以其龐大的工業基礎，可以幫助中國在全球舞台上占據主導地位，不僅是在人工智能領域，而是在所有領域。

如果中國無法獲得數百萬個芯片，我們將（至少暫時）生活在一個單極世界，隻有美國及其盟友擁有這些模型。目前尚不清楚單極世界是否會持續下去，但至少存在這樣一種可能性，即由於人工智能係統最終可以幫助製造更智能的人工智能係統，暫時的領先優勢可以轉化為持久的優勢。因此，在這個世界上，美國及其盟友可能會在全球舞台上占據主導地位並保持長期領先。
隻有嚴格執行出口管製11才能阻止中國獲得數百萬芯片，因此也是決定我們最終是進入單極世界還是兩極世界最重要的因素。
DeepSeek 的表現並不意味著出口管製失敗。正如我上麵所說，DeepSeek 擁有中等到大量的芯片，因此他們能夠開發並訓練出強大的模型也就不足為奇了。他們的資源限製並不比美國 AI 公司嚴重，出口管製也不是促使他們“創新”的主要因素。他們隻是非常有才華的工程師，並展示了為什麽中國是美國的有力競爭對手。
DeepSeek 也沒有表明管製總是有漏洞。10 億美元的經濟活動可以隱藏，但很難隱藏 1000 億美元甚至 100 億美元。100 萬個芯片在物理上也很難走私。

看看 DeepSeek 目前報道的芯片也是有啟發性的。根據 SemiAnalysis 的說法，這是 H100、H800 和 H20 的混合體，總計 5 萬個。自發布以來，H100 就被出口管製禁止，所以如果 DeepSeek 有任何芯片，它們一定不是通過正規渠道來的（請注意，Nvidia 已聲明 DeepSeek 的進展“完全符合出口管製”）。H800 在 2022 年第一輪出口管製中是被允許的，但在 2023 年 10 月管製更新時被禁止，所以這些芯片可能是在禁令之前發貨的。H20 的訓練效率較低，采樣效率較高——雖然我認為應該禁止，但仍然被允許。

所有這些都表明，DeepSeek 的 AI 芯片群中似乎有相當一部分是由尚未被禁止（但應該被禁止）的芯片。這表明出口管製確實在發揮作用和適應：漏洞正在被堵塞。如果我們能夠足夠快地堵塞它們，我們也許能夠增加美國領導單極世界的可能性。