上周,中國 AI 初創公司 DeepSeek 宣布其最新語言模型 DeepSeek-R1 似乎以遠低于常規的成本達到了美國頂級 AI 系統的性能水平,這一消息震動了整個 AI 界。這一宣布不僅導致 Nvidia 市值蒸發近 6000 億美元,還引發了關于 AI 未來發展的激烈討論。
人們很快形成了一種說法:DeepSeek 從根本上改變了開發高級 AI 系統的經濟規律,據稱僅用 600 萬美元就實現了美國公司投入數十億美元才能達到的水平。這種解讀在硅谷引起了軒然大波,因為像 OpenAI、Anthropic 和 Google 這樣的公司一直通過在計算基礎設施上的巨額投資來保持技術優勢。
然而,在市場動蕩和轟動性頭條之中,Anthropic 聯合創始人、現代大型語言模型 (LLM) 的開創性研究者之一 Dario Amodei 發表了一份深入分析,對 DeepSeek 的成就提供了更為細致的見解。他的博文摒棄了表面喧囂,深入剖析了 DeepSeek 的實際成就及其對 AI 發展未來的意義。
以下是 Amodei 分析中的四個關鍵發現,它們重塑了我們對 DeepSeek 公告的理解:
1. "600 萬美元模型"的說法忽略了關鍵背景
Amodei 指出,我們需要用更寬廣的視角來看待 DeepSeek 報告的開發成本。他直接挑戰了流行的說法:
"DeepSeek 并不是'用 600 萬美元做到了美國 AI 公司投入數十億美元才能做到的事'。就 Anthropic 而言,Claude 3.5 Sonnet 是一個中等規模的模型,訓練成本在數千萬美元級別(具體數字不便透露)。而且,與某些傳言相反,3.5 Sonnet 的訓練并未依賴更大或更昂貴的模型。"
這個出人意料的揭示從根本上改變了人們對 DeepSeek 成本效率的認知??紤]到 Sonnet 是在 9-12 個月前訓練的,并且在許多任務上仍然優于 DeepSeek 的模型,這一成就更像是 AI 開發成本自然演進的結果,而不是一個革命性的突破。
DeepSeek 以更低的成本(但遠沒有人們說的那么低)生產出了一個接近 7-10 個月前美國模型水平的產品。
時機和背景也至關重要。按照 AI 開發成本降低的歷史趨勢——Amodei 估計每年約 4 倍——DeepSeek 的成本結構基本符合這一趨勢,而不是大幅領先于曲線。
2. DeepSeek-V3,而不是 R1,才是真正的技術突破
盡管市場和媒體高度關注 DeepSeek 的 R1 模型,但 Amodei 指出該公司更重要的創新出現在更早之前。
"DeepSeek-V3 才是真正的創新,也是一個月前就應該引起關注的成果(我們當時確實注意到了)。作為預訓練模型,它在某些重要任務上接近美國最先進模型的性能水平,同時大幅降低了訓練成本。"
區分 V3 和 R1 對于理解 DeepSeek 真正的技術進步至關重要。V3 代表了真正的工程創新,特別是在管理模型的 "Key-Value cache" 和推進混合專家 (MoE) 方法方面。
這一見解有助于解釋為什么市場對 R1 的劇烈反應可能有失偏頗。R1 本質上只是在 V3 的基礎上增加了強化學習能力——這是目前多家公司都在對其模型采取的步驟。
3. 企業總投資揭示了不同的圖景
Amodei 分析中最具啟發性的可能是關于 DeepSeek 在 AI 開發上的總體投資。
"據報道——雖然無法確認真實性—— DeepSeek 擁有 50,000 個 Hopper 一代芯片,我估計這大約是主要美國 AI 公司持有量的 2-3 倍以內。這些 Hopper 芯片的成本大約在 10 億美元左右。因此,從公司整體支出來看(區別于單個模型的訓練成本),DeepSeek 與美國 AI 實驗室的差距并不大。"
這一揭示徹底改變了人們對 DeepSeek 資源效率的認知。雖然該公司在單個模型訓練方面可能取得了令人矚目的成果,但其在 AI 開發上的總體投入與美國同行相差無幾。
模型訓練成本與企業總投資之間的區別突顯了雄厚資源在 AI 開發中的持續重要性。這表明雖然可以提高工程效率,但要在 AI 領域保持競爭力仍然需要大量資本投入。
4. 當前的"交叉點"只是暫時的
Amodei 將 AI 發展的當前階段描述為獨特但短暫的。
"我們正處在一個有趣的'交叉點',暫時出現了多家公司都能開發出優秀推理模型的情況,"他寫道。"但隨著各公司在這些模型上繼續向上攀升擴展曲線,這種情況很快就會消失。"
這一觀察為理解 AI 競爭的當前狀態提供了重要背景。多家公司在推理能力方面都能達到類似水平,這只是一種暫時現象,而不是一個新的常態。
這對 AI 發展的未來有重要啟示。隨著各公司繼續擴大模型規模,特別是在資源密集的強化學習領域,行業可能會再次出現分化,而關鍵因素將是誰能在訓練和基礎設施上投入更多資源。這表明,盡管 DeepSeek 確實達到了一個重要里程碑,但并沒有從根本上改變高級 AI 開發的長期經濟規律。
以下是原文的全文翻譯:
幾周前,我提出應該加強美國對中國的芯片出口管制。而在這之后,中國 AI 公司 DeepSeek 以較低的成本在某些領域達到了接近美國頂尖 AI 模型的性能水平。
本文不會討論 DeepSeek 是否對 Anthropic 等美國 AI 公司構成威脅 (雖然我認為有關它們威脅美國 AI 領導地位的說法被嚴重夸大了)。相反,我想探討 DeepSeek 的出現是否削弱了實施芯片出口管制的必要性。我的答案是否定的。事實上,我認為現在的出口管制比一周前更加重要,甚至關乎生存。
出口管制有著至關重要的目的:確保民主國家在 AI 發展中保持領先地位。需要說明的是,這并非逃避中美競爭的手段。如果我們想要取得勝利,美國和其他民主國家的 AI 公司必須開發出比中國更優秀的模型。但在可能的情況下,我們不應該把技術優勢拱手讓給中國。
理解 AI 發展的三個基本規律
在展開政策論述之前,我想先解釋三個關于 AI 系統的基本規律:
擴展法則。這是 AI 的一個基本特性——我和聯合創始人在 OpenAI 工作時最早發現了這一點:在其他條件相同的情況下,增加 AI 系統的訓練規模,會讓它在各類認知任務上的表現穩步提升。
比如,投入 100 萬美元的模型可能解決 20% 的重要編程任務,投入 1000 萬美元可能解決 40%,投入 1 億美元可能解決 60%,以此類推。這些差異在實踐中影響巨大——再增加 10 倍投入可能就是本科生和博士生水平的差距——這就是為什么各公司都在大規模投資訓練模型。
曲線位移。這個領域不斷涌現大大小小的創新,提高效率:可能是模型架構的改進 (對目前所有模型使用的基礎 Transformer 架構的調整),或者只是優化模型在硬件上的運行方式。新一代硬件也能帶來類似效果。
這些創新通常會推動效率曲線向前:如果某個創新帶來 2 倍的"計算倍增" (CM,compute multiplier),那么原本需要 1000 萬美元才能在編程任務上達到 40% 的成功率,現在只需要 500 萬美元;原本需要 1 億美元才能達到 60% 的成功率,現在只需要 5000 萬美元,依此類推。
每家頂尖 AI 公司都在不斷發現這樣的 CM:小型的 (約 1.2 倍) 較常見,中型的 (約 2 倍) 偶爾出現,大型的 (約 10 倍) 則很罕見。
由于更智能的系統價值極高,這種曲線位移反而會讓公司投入更多而不是更少:效率提升帶來的所有收益都用于訓練更智能的模型,只受限于公司的財力。人們往往會想當然地認為"東西總是先貴后便宜"——仿佛 AI 是一個質量恒定的產品,價格下降就意味著可以用更少的芯片來訓練。
但關鍵在于擴展曲線:當曲線向前推移時,我們只是更快地攀登它,因為終點的價值實在太高。2020 年,我的團隊發表論文指出,算法進步每年帶來約 1.68 倍的曲線位移。這個速度可能已經明顯加快;而且還沒有考慮效率和硬件因素。
我估計現在每年大約是 4 倍。這里還有另一種估算方法。訓練曲線的位移也會帶動推理曲線移動,這就是為什么多年來在模型性能不變的情況下,價格一直在大幅下降。例如,比 GPT-4 晚 15 個月推出的 Claude 3.5 Sonnet 在幾乎所有測試中都優于 GPT-4,而 API 價格卻低了約 10 倍。
范式轉換。有時,擴展的基本對象會發生變化,或者訓練過程會增加新的擴展維度。2020-2023 年間,主要擴展的是預訓練模型:主要用互聯網文本訓練,輔以少量其他訓練。到了 2024 年,使用強化學習 (RL) 訓練模型生成思維鏈的方法成為了新的擴展重點。
Anthropic、DeepSeek 和許多其他公司 (最引人注目的可能是在 9 月發布 o1-preview 模型的 OpenAI) 發現,這種訓練方法大大提升了模型在特定、可客觀衡量的任務 (如數學、編程競賽) 以及類似推理任務上的表現。這種新范式是先有常規的預訓練模型,然后在第二階段用 RL 增強推理能力。
重要的是,由于這種 RL 方法很新,我們還處在擴展曲線的早期:所有參與者在第二階段 RL 上的投入都很少。投入從 10 萬美元增加到 100 萬美元就能帶來巨大進步。各公司現在正在快速將第二階段的投入擴大到數億乃至數十億美元,但關鍵是要理解我們正處在一個獨特的"交叉點":一個強大的新范式正處于擴展曲線的早期,因此可以快速取得重大突破。
解讀 DeepSeek 的模型
通過上述三個動態規律,我們可以更好地理解 DeepSeek 最近發布的模型。大約一個月前,DeepSeek 發布了純預訓練模型 "DeepSeek-V3"——也就是前文第三點提到的第一階段模型。上周,他們又發布了增加了第二階段訓練的 "R1" 模型。雖然從外部無法完全了解這些模型的細節,但以下是我對這兩次發布的理解。
真正的創新其實是 DeepSeek-V3,它才是一個月前就應該引起關注的模型(我們當時確實注意到了)。作為預訓練模型,它在某些重要任務上的表現接近美國最先進的模型,但訓練成本大幅降低(不過,我們發現在實際編程等某些關鍵任務上,Claude 3.5 Sonnet 仍然保持著明顯優勢)。
DeepSeek 團隊通過一些真正令人印象深刻的創新實現了這一點,主要是在工程效率方面。他們在 "Key-Value cache" 管理方面的改進特別創新,并且將 "mixture of experts" 方法推進到了前所未有的程度。
然而,我們需要更深入地分析:
-DeepSeek 并不是 "用 600 萬美元做到了美國 AI 公司投入數十億美元才能做到的事"。就 Anthropic 而言,Claude 3.5 Sonnet 是一個中等規模的模型,訓練成本在數千萬美元級別(具體數字不便透露)。此外,與某些傳言相反,3.5 Sonnet 的訓練并未依賴更大或更昂貴的模型。
Sonnet 的訓練是在 9-12 個月前完成的,而 DeepSeek 的模型是在去年 11/12 月訓練的,但在許多內部和外部評測中,Sonnet 仍然保持領先。因此,更準確的說法應該是 "DeepSeek 以更低的成本(但遠沒有人們說的那么低)生產出了一個接近 7-10 個月前美國模型水平的產品"。
- 如果成本曲線每年下降約 4 倍,那么按照正常的業務發展趨勢——就像 2023 年和 2024 年發生的成本下降——現在出現比 3.5 Sonnet/GPT-4o 便宜 3-4 倍的模型是完全正常的。由于 DeepSeek-V3 比這些美國頂尖模型要差——即使我們很寬容地認為在擴展曲線上只差約 2 倍——那么如果 DeepSeek-V3 的訓練成本比一年前開發的美國模型低約 8 倍,這完全符合正常趨勢。
我不會給出具體數字,但從前面的分析可以看出,即使按照表面價值接受 DeepSeek 的訓練成本,他們充其量只是符合趨勢,甚至可能還達不到。例如,這比原始 GPT-4 到 Claude 3.5 Sonnet 的 API 價格降幅(10 倍)還小,而且 3.5 Sonnet 的性能還優于 GPT-4。
所有這些都說明,DeepSeek-V3 并不是一個獨特的突破,也沒有從根本上改變 LLM 的經濟規律;它只是持續成本下降曲線上的一個預期點。這次唯一的不同是,首先展示預期成本降低的是一家中國公司。這在歷史上還是第一次,具有重要的地緣政治意義。不過,美國公司很快也會跟上——不是通過復制 DeepSeek,而是因為他們也在實現常規的成本降低。
- DeepSeek 和美國 AI 公司現在都比訓練其主打模型時擁有更多的資金和芯片。這些額外的芯片用于研發模型背后的創新理念,有時也用于訓練更大的實驗性模型(或需要多次嘗試才能達到預期效果的模型)。
據報道——雖然無法確認真實性—— DeepSeek 擁有 50,000 個 Hopper 一代芯片,我估計這大約是主要美國 AI 公司持有量的 2-3 倍以內(例如,比 xAI "Colossus" 集群少 2-3 倍)。這些 Hopper 芯片的成本大約在 10 億美元左右。因此,從公司整體支出來看(區別于單個模型的訓練成本),DeepSeek 與美國 AI 實驗室的差距并不大。
- 需要注意的是,"擴展曲線"分析可能過于簡化了,因為不同模型有各自的優勢和劣勢;擴展曲線上的數字只是一個粗略的平均值,忽略了許多細節。就 Anthropic 的模型而言,正如我前面提到的,Claude 在編程和人機交互設計方面表現出色(很多人用它來獲取個人建議或支持)。在這些領域和其他一些特定任務上,DeepSeek 根本無法與之相比。這些優勢在擴展數字中是無法體現的。
上周發布的 R1 模型雖然引發了公眾的熱議(導致 Nvidia 股價下跌約 17%),但從創新或工程角度來看,遠不如 V3 有趣。它增加了第二階段訓練——前文第三點提到的強化學習——本質上是復制了 OpenAI 在 o1 上的工作(它們似乎在相似規模下獲得了相似的結果)。
不過,由于我們還處在擴展曲線的早期階段,只要有一個強大的預訓練模型作為基礎,幾家公司都能開發出這類模型。有了 V3 的基礎后,開發 R1 的成本可能很低。因此,我們正處在一個有趣的"交叉點",暫時出現了多家公司都能生產出優秀推理模型的情況。但隨著各公司在這些模型上繼續向上攀升擴展曲線,這種情況很快就會消失。
關于出口管制
以上內容只是引出我的核心關注點:對中國的芯片出口管制?;谇懊娴姆治?,我對當前形勢的看法如下:
目前存在一個持續的趨勢:盡管曲線周期性移動,訓練特定水平 AI 模型的成本在快速下降,但各公司在訓練強大 AI 模型上的投入卻在不斷增加。這是因為訓練更智能模型的經濟價值太大了,以至于任何成本節省幾乎立即就被消耗殆盡——它們被用來訓練更智能的模型,投入規模與原計劃相當。
美國實驗室如果還沒有發現這些創新,DeepSeek 開發的效率創新很快就會被美中兩國的實驗室用于訓練數十億美元級別的模型。這些模型會比他們之前計劃的表現更好——但仍然需要投入數十億美元。這個數字會持續增長,直到我們開發出在幾乎所有領域都超越人類的 AI。
要開發出這樣的 AI,需要數百萬枚芯片,至少數百億美元的投入,最有可能在 2026-2027 年實現。DeepSeek 的發布并未改變這一點,因為它們大致符合預期的成本下降曲線,這在之前的計算中已經考慮在內。
這意味著到 2026-2027 年,我們可能會面臨兩種截然不同的局面。在美國,多家公司必定會擁有所需的數百萬枚芯片(投入數百億美元)。關鍵問題是中國能否也獲得數百萬枚芯片。
如果中國能獲得這些芯片,我們將生活在一個兩極世界,美中兩國都擁有強大的 AI 模型,推動科技飛速發展——我稱之為"數據中心里的天才國家"。但這種兩極平衡不一定能長期維持。即使美中兩國在 AI 系統上勢均力敵,中國也可能會將更多人才、資金和精力投入到技術的軍事應用中。再加上其龐大的工業基礎和軍事戰略優勢,這可能幫助中國在全球舞臺上取得主導地位,不僅是在 AI 領域,而是在所有方面。
如果中國無法獲得數百萬枚芯片,我們將(至少暫時)生活在一個單極世界,只有美國及其盟友擁有這些模型。雖然不清楚這種單極格局能持續多久,但至少存在一種可能:由于 AI 系統最終能幫助開發更智能的 AI,暫時的領先可能會轉化為持久優勢。在這種情況下,美國及其盟友可能會在全球舞臺上獲得長期的主導地位。
嚴格執行的出口管制是唯一能阻止中國獲得數百萬枚芯片的手段,因此也是決定我們最終進入單極還是兩極世界的最重要因素。
DeepSeek 的表現并不意味著出口管制失敗了。如前所述,DeepSeek 擁有相當數量的芯片,所以他們能夠開發并訓練出一個強大的模型并不令人意外。他們面臨的資源限制并不比美國 AI 公司嚴重多少,出口管制也不是促使他們"創新"的主要原因。他們只是非常優秀的工程師,這也表明了為什么中國是美國的強勁競爭對手。
DeepSeek 的案例也不能說明中國總能通過走私獲得所需的芯片,或者管制總存在漏洞。我認為出口管制的初衷就不是要阻止中國獲得幾萬枚芯片。10 億美元的經濟活動可以隱藏,但要隱藏 1000 億美元甚至 100 億美元就很難了。走私一百萬枚芯片在物理上也可能很困難。
仔細分析 DeepSeek 目前據報道擁有的芯片也很有啟發意義。根據 SemiAnalysis 的分析,他們總共擁有 5 萬枚芯片,包括 H100、H800 和 H20。H100 自發布以來就被列入出口管制清單,所以如果 DeepSeek 擁有任何 H100,這些一定是走私的(注意 Nvidia 已經聲明 DeepSeek 的進展"完全符合出口管制規定")。
H800 在 2022 年初期的出口管制下是允許的,但在 2023 年 10 月管制更新時被禁止,所以這些可能是在禁令前購入的。H20 在訓練效率上較低,但在推理效率上較高——目前仍允許出口,盡管我認為應該禁止。所有這些都表明,DeepSeek 的 AI 芯片庫存中相當大一部分是由尚未被禁止(但應該被禁止)的芯片、在禁令前購入的芯片,以及一些很可能是走私的芯片組成。
這恰恰表明出口管制正在發揮作用并不斷完善:漏洞正在被堵上;否則,他們可能已經擁有一整套最頂級的 H100 芯片。如果我們能夠足夠快地堵住這些漏洞,我們可能就能阻止中國獲得數百萬枚芯片,增加實現美國領先的單極世界的可能性。
鑒于我對出口管制和美國國家安全的關注,我想說明一點。我不認為 DeepSeek 本身是對手,重點也不是針對他們。從他們的采訪來看,他們似乎是聰明、富有求知欲的研究人員,只是想開發有用的技術。
出口管制是我們防止這種情況發生的最有力工具之一,認為技術變得更強大、更具性價比就是取消出口管制的理由,這完全說不通。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.