網易首頁 > 網易號 > 正文申請入駐

硅谷AI霸權和神話的破滅開端：淺談DeepSeek R1的意義

2025-01-21 23:16:33　來源: Web3天空之城

浙江舉報

分享至

點擊藍字關注??公眾號并設星標，不錯過最新內容

Web3天空之城·城主：

寫這一篇，放在這里，方便以后被打臉，

或者，以此見證。

昨晚懂王登基，美國科技圈大佬破天荒云集現場。懂王第一天確實也做了很多大事，本文無關，就不展開了。

但同是昨晚，科技圈還有另外一件大事，其背后意義的深遠，或許還沒完全揭曉。那就是DeepSeek自V3模型之后，再度發布自家的R1推理大模型（選擇同一天是不是故意的）。重要的是，這是一個可以和OpenAI世界最強O1推理大模型直接PK的大模型，完全開源，可商用，同時還加上一篇詳細解釋訓練過程的優秀論文。

鑒于很多美國人還在被新王的表現震驚著，DeepSeek R1發布的真正意義可能還要過一兩天才會全面發酵。

但核心圈子已經完全爆炸了。在Reddit論壇上，還有各路youtube博主都是各種震驚體：What？一個免費開源的和OpenAI O1 媲美的大模型？還附帶能本地跑起來的蒸餾小模型版本？

今天國內外各大科技v已經爭相發文講解R1的細節，推薦大家可以看以下以講解AI論文著稱的Wes Roth的“震驚”視頻，可以幫助很快了解R1大模型的基本知識點：

為什么DeepSeek的R1這么重要，不僅僅是因為它彎道超車實現了OpenAI 價值每用戶200刀/?訂閱費的O1大模型性能，且速度快5倍，價格便宜30倍；

也不僅僅因為它徹底開源可商用--這意味著任何企業都可以直接拿來做自己的私有化部署-- 甚至還有個人可以在本地部署的R1小型版本 - 對每個科技企業和個人，這都是天大的禮物。

最重要的是，DeepSeek R1革新了自GPT以來，通用大模型訓練的方式

前OpenAI大神，現已經離職去搞AI教育的Andrej Karpathy在快2年前的 2023年微軟大會上講解的OpenAI大模型訓練原理，仍然是至今為止最好的理解大模型訓練基礎機制的講稿：

簡單的說，OpenAI定義了大模型訓練的四個階段：預訓練，監督微調，獎勵建模，強化學習。

城主用通俗的語言來解釋一下大模型訓練的這四個步驟。你可以把大模型想象成一個正在學習各種技能的學生。

1. 預訓練 (Pre-training)：

目標：讓模型“讀”大量的文字，學習語言的規律和知識。

過程：把海量的文本數據（比如：互聯網上的網頁、書籍、文章等）喂給模型。模型就像一個好奇的學生，大量閱讀各種書籍，學習語法、詞匯、常識等。模型學習預測句子中的下一個單詞，或者掩蓋掉的單詞。例如，模型看到“The cat sat on the”，它就會學習預測下一個詞是“mat”。

2. 監督微調 (Supervised Fine-tuning, SFT)：

目標：讓模型學習如何完成特定任務，例如：寫文章、做翻譯、回答問題等。

過程：把標注好的“任務數據”喂給模型（比如，文章和對應的摘要，問題和對應的答案）。模型就像學生一樣，學習如何做特定類型的題目，同時對比自己答案和標準答案的差異，從而學習如何更好完成特定任務。模型學習如何根據輸入，生成正確的輸出。例如，模型看到一篇新聞，學習生成簡潔的摘要。

3. 獎勵建模 (Reward Modeling)：

目標：建立一個模型，可以評價其他模型生成的文本的好壞。

過程：讓人類對模型生成的文本進行打分，例如：對于同一問題，哪個回答更好、更準確、更符合人類的偏好？然后進一步使用這些人類打分數據，訓練一個新的模型（獎勵模型），使其能夠模仿人類的評分標準。獎勵模型學習如何判斷哪個輸出更好，就像一個評委一樣。

4. 強化學習 (Reinforcement Learning, RL)：

目標：讓模型在“獎勵模型”的指導下，不斷生成更好的文本。

強化學習的核心思想就是：在嘗試中學習，通過獎勵來改進。

用獎勵模型給生成的文本打分（獎勵模型認為文本好的，就給高分；認為不好的，就給低分），讓模型知道自己做得好還是不好。模型根據獎勵分數，不斷地調整自己的策略，讓模型學會如何獲得更高的分數。在這個過程中，模型會不斷嘗試不同的生成方式，逐漸找到最優的策略。

自從OpenAI 公布ChatGPT以來，以上這四大訓練步驟基本就是常識，大模型的訓練都大差不差按照這四步訓練法來。

到后來，美國科技大廠都只堆算力，無腦買卡建數據中心給大模型喂數據，相信“大力出奇跡”，數據就是一切；甚至于到今年，美國那邊曾一度吃香的深度學習博士開始找不到工作了。這大概有一個原因：大公司認為大模型不再需要繼續研究算法了，只需要堆算力堆數據就夠了。

反而言之，如果算力不夠，就可以躺平，直接不做大模型了：非我之過，實無卡也。

但是，這一次，DeepSeek直接提出了一個全新的優雅訓練思路，簡而言之，就是去除/極端弱化了其中第二個步驟“SFT監督微調”，直接上強化學習。并且是反復多次的強化學習，逼近最好結果。

這是什么概念呢， “監督微調”就是把人類的正確做題結果（問題+答案）用來調教大模型。這是此前通用大模型優化性能的很重要的一步。

而現在DeepSeek說，我們完全不用人類知識去調教大模型，讓AI自己和自己PK尋找變強的路徑，我們只看結果。

這很像當年下圍棋的AlphaGo，第一版AlphaGo就是用人類棋譜訓練的，我們可以類比常規用SFT監督微調來訓練大模型；而后續版本的AlphaGo Zero，則完全拋棄了人類先驗的圍棋知識，只是規定規則和勝負結果，然后AI互相對弈來實現模型的迭代進化。

一切很順理成章：既然可以這樣這么強化學習訓練出下圍棋的Alpha Zero，那么也應該可以這么訓練出通用大模型。

明顯是向AlphaGo Zero致敬，在DeepSeek的論文中，也出現了R1 Zero這個純AI迭代得到的中間研究模型。（最終產出的R1 是用同一個訓練思路，基于DeepSeek V3多次強化訓練得到）

有意思的是，上面引用演講的大神Andrej Karpathy對OpenAI所發明的RLHF微調技術本身就抱有保留態度。Andrej認為RLHF本質上是對人類偏好的模仿。他更傾向于像AlphaGo那樣的自博弈的強化學習方法，認為沒有人工干預的自我進化才是大模型的未來。大神還是說對了方向。

只是為什么老美沒有第一個做出來呢？

有趣的是，同一天Kimi團隊也發布了自己號稱媲美O1的大模型，其論文同樣揭露了依靠強化學習實現的思路（這是商量好的嗎）但Kimi只拿出了論文，沒有放出可以驗證的模型，所以嘛。。。

關于這一次DeepSeek R1橫空出世的意義。城主簡單說說一些個人的想法。

在ChatGPT驚天問世2年之后，DeepSeek R1是國產LLM大模型第一次追平世界最強大模型的性能。相關評測已經滿天飛，子彈可以再飛一會，但根據外網一片異口同聲的“已測，牛逼~”反饋，這事情錯的概率很小了。

這個追趕，還是在美國極限打壓之下的追趕。而再考慮到API以極高的性價比遠遠勝出，國產大模型可以說正式完成了對O1的超越。

當然，我們可以說OpenAI還有壓箱底的GPT5沒拿出來，Anthropic或許也有個Claude4.0。

但超越了一次，誰說不會有第二次。從0到1難，還是從1到2難呢？

讓我們直白一點，給一個論斷吧，DeekSeek R1是硅谷AI霸權和神話的破滅開端。

所謂霸權，也就是類似各路硅谷大咖，包括一些硅谷投資人大咖，那些曾經都自帶光環的名字，開口閉口要防止中國學習美國大模型技術；還有硅谷AI新貴公司們在行動上對中國使用者的嚴防死守：OpenAI的API還能翻墻，Claude針對中國地區封號的方式，用過的都知道，要多惡心就多惡心。

沒辦法，捏著鼻子也要用，畢竟對很多技術人來說，希望用最好的。

現在呢，國產大模型不但有可能是最好的之一，而且毫無疑問是性價比最高的，數十倍的便宜。

外網已經有視頻推薦用DeepSeek R1 + Cline來實現最強的AI編程助手。城主這個月的Windsurf訂閱到期后，也不打算繼續花錢了。

如上面視頻的Wes Roth博主在最后所說，美國人整天提防AI技術不給中國人，到最后反而是中國人開源了最強大模型。無論如何，他預料不到這個結果。

打臉打得很爽。

其實不止老外吧，一些國人也在被打臉；這兩年看了太多這樣的論調，信誓旦旦說中國大模型就是比美國落后好幾年。

在一些AI技術群里，最常見的是“唯硅谷論”，只要是硅谷的一個小技術集會的言論，說什么都是香的；而且分享這些的同學偶爾還有自覺不自覺帶著一股優越感的，那個意思基本是，“你看，硅谷聚會有這些信息，硅谷才是AI的圣地，我來分享一下，國內能學習跟上就不錯啦”。

不止搞技術的，很多媒體的也習慣性散布悲觀言論，總之就是中國AI落后了，顯卡算力也被限制了，通用大模型能不被拉太遠就可以了。

一些國內大佬也潛意識里選擇躺平，反正算力沒有了，我們的大模型落后一些也是情有可原的。

但DeepSeek團隊的年輕人似乎不信邪。沒有算力，是不是可以從訓練方式上突破呢？為什么OpenAI的訓練方式就一定是金科玉律呢?

在這點上，反而是老美更清醒一點，Google的施密特的表態，從起初“中國可能只落后2年”，后來是“只落后1年”，在DeepSeek V3出來后評價“各有千秋”。現在DeepSeek R1出來了，很想知道施密特會怎么說。

還記得一個小插曲，在DeepSeek V3出來后，OpenAI的Sam Altman酸溜溜額發帖說，復制別人是容易的，言下之意是DeepSeek利用了他們家的模型來訓練；某些公知也跟風說，如果美國大模型不讓國人訪問，DeepSeek V3就打造不出來了。

荒謬的言論很多時候可以混淆視聽。但辯解千次，都不如拿出一個絕對的結果有力量。

OK，現在我已經比你厲害了，你說一下我是怎么抄你的呢？

所以要感謝DeepSeek團隊，拿出了這個讓國人揚眉吐氣的結果。從現在起，誰敢再說中國大模型抄襲美國？誰敢再說中國大模型落后美國X年？

從今天開始，城主認為中國大模型進展已經沒有短板了。AI視頻生成模型這個重要領域, 國產諸君已經是事實上的世界最強；而之前稍遜一籌的通用大模型，從今天開始，不說超越硅谷，說平起平坐，沒人能反對了吧。

今后，硅谷大咖說的話我們要聽，國產年輕AI團隊說的話一樣值得聽。

更加佩服DeepSeek的是，這么一個世界最頂尖的成果，直接開源了。油管上X上已經很多老外發聲，點贊DeepSeek才是那個真正繼承了OpenAI最初使命和火種的團隊。

這個評價可不是一般的高了。

這個事情是否還有更深的意義，大家可以繼續琢磨一下：如果硅谷的AI霸權已經被稀釋了，不可超越的神話已經破滅了，那美國芯片還要不要防著中國，防著還有什么意義呢？最大的意義是不是讓中國過兩年憋出光刻機，憋出自己的芯片和算力生態。。。

1月20號從各個方面而言都是一個有趣的日子。很久以后回頭，我們才能更明白這一天的意義。

以此小文致敬所有自強不息的人們。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.