點擊藍字關注??公眾號并設星標,不錯過最新內容
Web3天空之城·城主:
寫這一篇,放在這里,方便以后被打臉,
或者,以此見證。
昨晚懂王登基,美國科技圈大佬破天荒云集現場。懂王第一天確實也做了很多大事,本文無關,就不展開了。
但同是昨晚, 科技圈還有另外一件大事,其背后意義的深遠,或許還沒完全揭曉。那就是DeepSeek自V3模型之后,再度發布自家的R1推理大模型(選擇同一天是不是故意的)。重要的是,這是一個可以和OpenAI世界最強O1推理大模型直接PK的大模型,完全開源,可商用,同時還加上一篇詳細解釋訓練過程的優秀論文。
鑒于很多美國人還在被新王的表現震驚著,DeepSeek R1發布的真正意義可能還要過一兩天才會全面發酵。
但核心圈子已經完全爆炸了。在Reddit論壇上,還有各路youtube博主都是各種震驚體:What?一個免費開源的和OpenAI O1 媲美的大模型?還附帶能本地跑起來的蒸餾小模型版本?
今天國內外各大科技v已經爭相發文講解R1的細節, 推薦大家可以看以下以講解AI論文著稱的Wes Roth的“震驚”視頻,可以幫助很快了解R1大模型的基本知識點:
為什么DeepSeek的R1這么重要,不僅僅是因為它彎道超車實現了OpenAI 價值每用戶200刀/?訂閱費的O1大模型性能,且速度快5倍,價格便宜30倍;
也不僅僅因為它徹底開源可商用--這意味著任何企業都可以直接拿來做自己的私有化部署-- 甚至還有個人可以在本地部署的R1小型版本 - 對每個科技企業和個人,這都是天大的禮物。
最重要的是,DeepSeek R1革新了自GPT以來,通用大模型訓練的方式
前OpenAI大神,現已經離職去搞AI教育的Andrej Karpathy在快2年前的 2023年微軟大會上講解的OpenAI大模型訓練原理,仍然是至今為止最好的理解大模型訓練基礎機制的講稿:
簡單的說,OpenAI定義了大模型訓練的四個階段:預訓練,監督微調,獎勵建模,強化學習。
城主用通俗的語言來解釋一下大模型訓練的這四個步驟。你可以把大模型想象成一個正在學習各種技能的學生。
1. 預訓練 (Pre-training):
目標: 讓模型“讀”大量的文字,學習語言的規律和知識。
過程:把海量的文本數據(比如:互聯網上的網頁、書籍、文章等)喂給模型。模型就像一個好奇的學生,大量閱讀各種書籍,學習語法、詞匯、常識等。模型學習預測句子中的下一個單詞,或者掩蓋掉的單詞。例如,模型看到“The cat sat on the”, 它就會學習預測下一個詞是“mat”。
2. 監督微調 (Supervised Fine-tuning, SFT):
目標:讓模型學習如何完成特定任務,例如:寫文章、做翻譯、回答問題等。
過程:把標注好的“任務數據”喂給模型(比如,文章和對應的摘要,問題和對應的答案)。模型就像學生一樣,學習如何做特定類型的題目,同時對比自己答案和標準答案的差異,從而學習如何更好完成特定任務。模型學習如何根據輸入,生成正確的輸出。例如,模型看到一篇新聞,學習生成簡潔的摘要。
3. 獎勵建模 (Reward Modeling):
目標:建立一個模型,可以評價其他模型生成的文本的好壞。
過程:讓人類對模型生成的文本進行打分,例如:對于同一問題,哪個回答更好、更準確、更符合人類的偏好?然后進一步使用這些人類打分數據,訓練一個新的模型(獎勵模型),使其能夠模仿人類的評分標準。獎勵模型學習如何判斷哪個輸出更好,就像一個評委一樣。
4. 強化學習 (Reinforcement Learning, RL):
目標:讓模型在“獎勵模型”的指導下,不斷生成更好的文本。
強化學習的核心思想就是:在嘗試中學習,通過獎勵來改進。
用獎勵模型給生成的文本打分(獎勵模型認為文本好的,就給高分;認為不好的,就給低分),讓模型知道自己做得好還是不好。模型根據獎勵分數,不斷地調整自己的策略,讓模型學會如何獲得更高的分數。在這個過程中,模型會不斷嘗試不同的生成方式,逐漸找到最優的策略。
自從OpenAI 公布ChatGPT以來,以上這四大訓練步驟基本就是常識,大模型的訓練都大差不差按照這四步訓練法來。
到后來,美國科技大廠都只堆算力,無腦買卡建數據中心給大模型喂數據,相信“大力出奇跡”,數據就是一切; 甚至于到今年,美國那邊曾一度吃香的深度學習博士開始找不到工作了。這大概有一個原因:大公司認為大模型不再需要繼續研究算法了,只需要堆算力堆數據就夠了。
反而言之,如果算力不夠,就可以躺平,直接不做大模型了:非我之過,實無卡也 。
但是,這一次,DeepSeek直接提出了一個全新的優雅訓練思路,簡而言之,就是去除/極端弱化了其中第二個步驟“SFT監督微調”, 直接上強化學習。并且是反復多次的強化學習,逼近最好結果。
這是什么概念呢, “監督微調”就是把人類的正確做題結果(問題+答案)用來調教大模型。這是此前通用大模型優化性能的很重要的一步。
而現在DeepSeek說,我們完全不用人類知識去調教大模型,讓AI自己和自己PK尋找變強的路徑,我們只看結果。
這很像當年下圍棋的AlphaGo,第一版AlphaGo就是用人類棋譜訓練的,我們可以類比常規用SFT監督微調來訓練大模型;而后續版本的AlphaGo Zero,則完全拋棄了人類先驗的圍棋知識,只是規定規則和勝負結果,然后AI互相對弈來實現模型的迭代進化。
一切很順理成章:既然可以這樣這么強化學習訓練出下圍棋的Alpha Zero,那么也應該可以這么訓練出通用大模型。
明顯是向AlphaGo Zero致敬,在DeepSeek的論文中,也出現了R1 Zero這個純AI迭代得到的中間研究模型。(最終產出的R1 是用同一個訓練思路,基于DeepSeek V3多次強化訓練得到)
有意思的是,上面引用演講的大神Andrej Karpathy對OpenAI所發明的RLHF微調技術本身就抱有保留態度。Andrej認為RLHF本質上是對人類偏好的模仿。他更傾向于像AlphaGo那樣的自博弈的強化學習方法,認為沒有人工干預的自我進化才是大模型的未來。大神還是說對了方向。
只是為什么老美沒有第一個做出來呢?
有趣的是, 同一天Kimi團隊也發布了自己號稱媲美O1的大模型,其論文同樣揭露了依靠強化學習實現的思路(這是商量好的嗎) 但Kimi只拿出了論文, 沒有放出可以驗證的模型, 所以嘛。。。
關于這一次DeepSeek R1橫空出世的意義。城主簡單說說一些個人的想法。
在ChatGPT驚天問世2年之后,DeepSeek R1是國產LLM大模型第一次追平世界最強大模型的性能。相關評測已經滿天飛,子彈可以再飛一會,但根據外網一片異口同聲的“已測,牛逼~”反饋,這事情錯的概率很小了。
這個追趕,還是在美國極限打壓之下的追趕。而再考慮到API以極高的性價比遠遠勝出,國產大模型可以說正式完成了對O1的超越。
當然,我們可以說OpenAI還有壓箱底的GPT5沒拿出來,Anthropic或許也有個Claude4.0。
但超越了一次,誰說不會有第二次。從0到1難,還是從1到2難呢?
讓我們直白一點, 給一個論斷吧,DeekSeek R1是硅谷AI霸權和神話的破滅開端。
所謂霸權,也就是類似各路硅谷大咖,包括一些硅谷投資人大咖,那些曾經都自帶光環的名字,開口閉口要防止中國學習美國大模型技術;還有硅谷AI新貴公司們在行動上對中國使用者的嚴防死守:OpenAI的API還能翻墻,Claude針對中國地區封號的方式,用過的都知道,要多惡心就多惡心。
沒辦法,捏著鼻子也要用,畢竟對很多技術人來說,希望用最好的。
現在呢,國產大模型不但有可能是最好的之一,而且毫無疑問是性價比最高的,數十倍的便宜。
外網已經有視頻推薦用DeepSeek R1 + Cline來實現最強的AI編程助手。城主這個月的Windsurf訂閱到期后,也不打算繼續花錢了。
如上面視頻的Wes Roth博主在最后所說, 美國人整天提防AI技術不給中國人,到最后反而是中國人開源了最強大模型。無論如何,他預料不到這個結果。
打臉打得很爽。
其實不止老外吧,一些國人也在被打臉;這兩年看了太多這樣的論調,信誓旦旦說中國大模型就是比美國落后好幾年。
在一些AI技術群里,最常見的是“唯硅谷論”,只要是硅谷的一個小技術集會的言論,說什么都是香的;而且分享這些的同學偶爾還有自覺不自覺帶著一股優越感的,那個意思基本是,“你看, 硅谷聚會有這些信息,硅谷才是AI的圣地,我來分享一下,國內能學習跟上就不錯啦”。
不止搞技術的,很多媒體的也習慣性散布悲觀言論,總之就是中國AI落后了,顯卡算力也被限制了,通用大模型能不被拉太遠就可以了。
一些國內大佬也潛意識里選擇躺平,反正算力沒有了,我們的大模型落后一些也是情有可原的。
但DeepSeek團隊的年輕人似乎不信邪。沒有算力,是不是可以從訓練方式上突破呢?為什么OpenAI的訓練方式就一定是金科玉律呢?
在這點上,反而是老美更清醒一點,Google的施密特的表態,從起初“中國可能只落后2年”, 后來是“只落后1年”, 在DeepSeek V3出來后評價“各有千秋”。現在DeepSeek R1出來了,很想知道施密特會怎么說。
還記得一個小插曲,在DeepSeek V3出來后,OpenAI的Sam Altman酸溜溜額發帖說,復制別人是容易的,言下之意是DeepSeek利用了他們家的模型來訓練;某些公知也跟風說,如果美國大模型不讓國人訪問,DeepSeek V3就打造不出來了。
荒謬的言論很多時候可以混淆視聽。但辯解千次,都不如拿出一個絕對的結果有力量。
OK,現在我已經比你厲害了,你說一下我是怎么抄你的呢?
所以要感謝DeepSeek團隊,拿出了這個讓國人揚眉吐氣的結果。從現在起,誰敢再說中國大模型抄襲美國?誰敢再說中國大模型落后美國X年?
從今天開始, 城主認為中國大模型進展已經沒有短板了。AI視頻生成模型這個重要領域, 國產諸君已經是事實上的世界最強;而之前稍遜一籌的通用大模型, 從今天開始,不說超越硅谷,說平起平坐,沒人能反對了吧。
今后,硅谷大咖說的話我們要聽,國產年輕AI團隊說的話一樣值得聽。
更加佩服DeepSeek的是,這么一個世界最頂尖的成果,直接開源了。油管上X上已經很多老外發聲,點贊DeepSeek才是那個真正繼承了OpenAI最初使命和火種的團隊。
這個評價可不是一般的高了。
這個事情是否還有更深的意義,大家可以繼續琢磨一下:如果硅谷的AI霸權已經被稀釋了,不可超越的神話已經破滅了, 那美國芯片還要不要防著中國,防著還有什么意義呢?最大的意義是不是讓中國過兩年憋出光刻機,憋出自己的芯片和算力生態。。。
1月20號從各個方面而言都是一個有趣的日子。很久以后回頭,我們才能更明白這一天的意義。
以此小文致敬所有自強不息的人們。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.