99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

硅谷AI霸權和神話的破滅開端:淺談DeepSeek R1的意義

0
分享至

點擊藍字關注??公眾號并設星標,不錯過最新內容


Web3天空之城·城主:

寫這一篇,放在這里,方便以后被打臉,

或者,以此見證。

昨晚懂王登基,美國科技圈大佬破天荒云集現場。懂王第一天確實也做了很多大事,本文無關,就不展開了。

但同是昨晚, 科技圈還有另外一件大事,其背后意義的深遠,或許還沒完全揭曉。那就是DeepSeek自V3模型之后,再度發布自家的R1推理大模型(選擇同一天是不是故意的)。重要的是,這是一個可以和OpenAI世界最強O1推理大模型直接PK的大模型,完全開源,可商用,同時還加上一篇詳細解釋訓練過程的優秀論文。

鑒于很多美國人還在被新王的表現震驚著,DeepSeek R1發布的真正意義可能還要過一兩天才會全面發酵。

但核心圈子已經完全爆炸了。在Reddit論壇上,還有各路youtube博主都是各種震驚體:What?一個免費開源的和OpenAI O1 媲美的大模型?還附帶能本地跑起來的蒸餾小模型版本?

今天國內外各大科技v已經爭相發文講解R1的細節, 推薦大家可以看以下以講解AI論文著稱的Wes Roth的“震驚”視頻,可以幫助很快了解R1大模型的基本知識點:

為什么DeepSeek的R1這么重要,不僅僅是因為它彎道超車實現了OpenAI 價值每用戶200刀/?訂閱費的O1大模型性能,且速度快5倍,價格便宜30倍;

也不僅僅因為它徹底開源可商用--這意味著任何企業都可以直接拿來做自己的私有化部署-- 甚至還有個人可以在本地部署的R1小型版本 - 對每個科技企業和個人,這都是天大的禮物。

最重要的是,DeepSeek R1革新了自GPT以來,通用大模型訓練的方式

前OpenAI大神,現已經離職去搞AI教育的Andrej Karpathy在快2年前的 2023年微軟大會上講解的OpenAI大模型訓練原理,仍然是至今為止最好的理解大模型訓練基礎機制的講稿:

簡單的說,OpenAI定義了大模型訓練的四個階段:預訓練,監督微調,獎勵建模,強化學習

城主用通俗的語言來解釋一下大模型訓練的這四個步驟。你可以把大模型想象成一個正在學習各種技能的學生。

1. 預訓練 (Pre-training):

目標: 讓模型“讀”大量的文字,學習語言的規律和知識。

過程:把海量的文本數據(比如:互聯網上的網頁、書籍、文章等)喂給模型。模型就像一個好奇的學生,大量閱讀各種書籍,學習語法、詞匯、常識等。模型學習預測句子中的下一個單詞,或者掩蓋掉的單詞。例如,模型看到“The cat sat on the”, 它就會學習預測下一個詞是“mat”。

2. 監督微調 (Supervised Fine-tuning, SFT):

目標:讓模型學習如何完成特定任務,例如:寫文章、做翻譯、回答問題等。

過程:把標注好的“任務數據”喂給模型(比如,文章和對應的摘要,問題和對應的答案)。模型就像學生一樣,學習如何做特定類型的題目,同時對比自己答案和標準答案的差異,從而學習如何更好完成特定任務。模型學習如何根據輸入,生成正確的輸出。例如,模型看到一篇新聞,學習生成簡潔的摘要。

3. 獎勵建模 (Reward Modeling):

目標:建立一個模型,可以評價其他模型生成的文本的好壞。

過程:讓人類對模型生成的文本進行打分,例如:對于同一問題,哪個回答更好、更準確、更符合人類的偏好?然后進一步使用這些人類打分數據,訓練一個新的模型(獎勵模型),使其能夠模仿人類的評分標準。獎勵模型學習如何判斷哪個輸出更好,就像一個評委一樣。

4. 強化學習 (Reinforcement Learning, RL):

目標:讓模型在“獎勵模型”的指導下,不斷生成更好的文本。

強化學習的核心思想就是:在嘗試中學習,通過獎勵來改進。

用獎勵模型給生成的文本打分(獎勵模型認為文本好的,就給高分;認為不好的,就給低分),讓模型知道自己做得好還是不好。模型根據獎勵分數,不斷地調整自己的策略,讓模型學會如何獲得更高的分數。在這個過程中,模型會不斷嘗試不同的生成方式,逐漸找到最優的策略。

自從OpenAI 公布ChatGPT以來,以上這四大訓練步驟基本就是常識,大模型的訓練都大差不差按照這四步訓練法來。

到后來,美國科技大廠都只堆算力,無腦買卡建數據中心給大模型喂數據,相信“大力出奇跡”,數據就是一切; 甚至于到今年,美國那邊曾一度吃香的深度學習博士開始找不到工作了。這大概有一個原因:大公司認為大模型不再需要繼續研究算法了,只需要堆算力堆數據就夠了。

反而言之,如果算力不夠,就可以躺平,直接不做大模型了:非我之過,實無卡也 。

但是,這一次,DeepSeek直接提出了一個全新的優雅訓練思路,簡而言之,就是去除/極端弱化了其中第二個步驟“SFT監督微調”, 直接上強化學習。并且是反復多次的強化學習,逼近最好結果。

這是什么概念呢, “監督微調”就是把人類的正確做題結果(問題+答案)用來調教大模型。這是此前通用大模型優化性能的很重要的一步。

而現在DeepSeek說,我們完全不用人類知識去調教大模型,讓AI自己和自己PK尋找變強的路徑,我們只看結果。

這很像當年下圍棋的AlphaGo,第一版AlphaGo就是用人類棋譜訓練的,我們可以類比常規用SFT監督微調來訓練大模型;而后續版本的AlphaGo Zero,則完全拋棄了人類先驗的圍棋知識,只是規定規則和勝負結果,然后AI互相對弈來實現模型的迭代進化。

一切很順理成章:既然可以這樣這么強化學習訓練出下圍棋的Alpha Zero,那么也應該可以這么訓練出通用大模型。

明顯是向AlphaGo Zero致敬,在DeepSeek的論文中,也出現了R1 Zero這個純AI迭代得到的中間研究模型。(最終產出的R1 是用同一個訓練思路,基于DeepSeek V3多次強化訓練得到)

有意思的是,上面引用演講的大神Andrej Karpathy對OpenAI所發明的RLHF微調技術本身就抱有保留態度。Andrej認為RLHF本質上是對人類偏好的模仿。他更傾向于像AlphaGo那樣的自博弈的強化學習方法,認為沒有人工干預的自我進化才是大模型的未來。大神還是說對了方向。

只是為什么老美沒有第一個做出來呢?

有趣的是, 同一天Kimi團隊也發布了自己號稱媲美O1的大模型,其論文同樣揭露了依靠強化學習實現的思路(這是商量好的嗎) 但Kimi只拿出了論文, 沒有放出可以驗證的模型, 所以嘛。。。

關于這一次DeepSeek R1橫空出世的意義。城主簡單說說一些個人的想法。

在ChatGPT驚天問世2年之后,DeepSeek R1是國產LLM大模型第一次追平世界最強大模型的性能。相關評測已經滿天飛,子彈可以再飛一會,但根據外網一片異口同聲的“已測,牛逼~”反饋,這事情錯的概率很小了。

這個追趕,還是在美國極限打壓之下的追趕。而再考慮到API以極高的性價比遠遠勝出,國產大模型可以說正式完成了對O1的超越。

當然,我們可以說OpenAI還有壓箱底的GPT5沒拿出來,Anthropic或許也有個Claude4.0。

但超越了一次,誰說不會有第二次。從0到1難,還是從1到2難呢?

讓我們直白一點, 給一個論斷吧,DeekSeek R1是硅谷AI霸權和神話的破滅開端

所謂霸權,也就是類似各路硅谷大咖,包括一些硅谷投資人大咖,那些曾經都自帶光環的名字,開口閉口要防止中國學習美國大模型技術;還有硅谷AI新貴公司們在行動上對中國使用者的嚴防死守:OpenAI的API還能翻墻,Claude針對中國地區封號的方式,用過的都知道,要多惡心就多惡心。

沒辦法,捏著鼻子也要用,畢竟對很多技術人來說,希望用最好的。

現在呢,國產大模型不但有可能是最好的之一,而且毫無疑問是性價比最高的,數十倍的便宜。

外網已經有視頻推薦用DeepSeek R1 + Cline來實現最強的AI編程助手。城主這個月的Windsurf訂閱到期后,也不打算繼續花錢了。

如上面視頻的Wes Roth博主在最后所說, 美國人整天提防AI技術不給中國人,到最后反而是中國人開源了最強大模型。無論如何,他預料不到這個結果。

打臉打得很爽。

其實不止老外吧,一些國人也在被打臉;這兩年看了太多這樣的論調,信誓旦旦說中國大模型就是比美國落后好幾年。

在一些AI技術群里,最常見的是“唯硅谷論”,只要是硅谷的一個小技術集會的言論,說什么都是香的;而且分享這些的同學偶爾還有自覺不自覺帶著一股優越感的,那個意思基本是,“你看, 硅谷聚會有這些信息,硅谷才是AI的圣地,我來分享一下,國內能學習跟上就不錯啦”。

不止搞技術的,很多媒體的也習慣性散布悲觀言論,總之就是中國AI落后了,顯卡算力也被限制了,通用大模型能不被拉太遠就可以了。

一些國內大佬也潛意識里選擇躺平,反正算力沒有了,我們的大模型落后一些也是情有可原的。

但DeepSeek團隊的年輕人似乎不信邪。沒有算力,是不是可以從訓練方式上突破呢?為什么OpenAI的訓練方式就一定是金科玉律呢?

在這點上,反而是老美更清醒一點,Google的施密特的表態,從起初“中國可能只落后2年”, 后來是“只落后1年”, 在DeepSeek V3出來后評價“各有千秋”。現在DeepSeek R1出來了,很想知道施密特會怎么說。

還記得一個小插曲,在DeepSeek V3出來后,OpenAI的Sam Altman酸溜溜額發帖說,復制別人是容易的,言下之意是DeepSeek利用了他們家的模型來訓練;某些公知也跟風說,如果美國大模型不讓國人訪問,DeepSeek V3就打造不出來了。

荒謬的言論很多時候可以混淆視聽。但辯解千次,都不如拿出一個絕對的結果有力量。

OK,現在我已經比你厲害了,你說一下我是怎么抄你的呢?

所以要感謝DeepSeek團隊,拿出了這個讓國人揚眉吐氣的結果。從現在起,誰敢再說中國大模型抄襲美國?誰敢再說中國大模型落后美國X年?

從今天開始, 城主認為中國大模型進展已經沒有短板了。AI視頻生成模型這個重要領域, 國產諸君已經是事實上的世界最強;而之前稍遜一籌的通用大模型, 從今天開始,不說超越硅谷,說平起平坐,沒人能反對了吧。

今后,硅谷大咖說的話我們要聽,國產年輕AI團隊說的話一樣值得聽。

更加佩服DeepSeek的是,這么一個世界最頂尖的成果,直接開源了。油管上X上已經很多老外發聲,點贊DeepSeek才是那個真正繼承了OpenAI最初使命和火種的團隊。

這個評價可不是一般的高了。

這個事情是否還有更深的意義,大家可以繼續琢磨一下:如果硅谷的AI霸權已經被稀釋了,不可超越的神話已經破滅了, 那美國芯片還要不要防著中國,防著還有什么意義呢?最大的意義是不是讓中國過兩年憋出光刻機,憋出自己的芯片和算力生態。。。

1月20號從各個方面而言都是一個有趣的日子。很久以后回頭,我們才能更明白這一天的意義。

以此小文致敬所有自強不息的人們。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
46歲陳喬恩針雕14天后狀態反彈,蘋果肌下垂法令紋明顯臉部饅化

46歲陳喬恩針雕14天后狀態反彈,蘋果肌下垂法令紋明顯臉部饅化

南南說娛
2025-06-20 14:34:14
中國女籃迎來新生代!“五虎將”強勢接班,未來可期

中國女籃迎來新生代!“五虎將”強勢接班,未來可期

慢歌輕步謠
2025-06-22 16:44:30
任何侵犯我國領空的外國飛機,直接擊落!中國國防部通報全球

任何侵犯我國領空的外國飛機,直接擊落!中國國防部通報全球

阿芒娛樂說
2025-06-20 04:55:36
這就是學霸嗎?“蘇超”輪空的南通,半夜在分析對手

這就是學霸嗎?“蘇超”輪空的南通,半夜在分析對手

魯中晨報
2025-06-22 11:29:11
中國西安發現新羅質子墓!韓國媒體:體現了中韓文化交融!

中國西安發現新羅質子墓!韓國媒體:體現了中韓文化交融!

奮斗在韓國
2025-06-22 12:09:35
婆婆當街大罵兒媳破鞋,兒媳笑了一下,隨后她一句話讓所有人愣住

婆婆當街大罵兒媳破鞋,兒媳笑了一下,隨后她一句話讓所有人愣住

青青會講故事
2025-06-16 12:37:29
國防科大新突破:蚊子大小無人機問世,偵察攻擊悄無聲息

國防科大新突破:蚊子大小無人機問世,偵察攻擊悄無聲息

通文知史
2025-06-21 19:25:03
沙特記者:梅西登陸沙特聯賽的談判正發生轉折,球隊與經紀人意見趨于一致

沙特記者:梅西登陸沙特聯賽的談判正發生轉折,球隊與經紀人意見趨于一致

雷速體育
2025-06-22 14:00:36
自私!北京男子把地下室改成大魚池養錦鯉,樓上鄰居長期失眠崩潰

自私!北京男子把地下室改成大魚池養錦鯉,樓上鄰居長期失眠崩潰

水晶的視界
2025-06-22 08:19:11
催債令來了!國家下狠手,嚴禁機關國企當"老賴",小老板熬出頭了

催債令來了!國家下狠手,嚴禁機關國企當"老賴",小老板熬出頭了

毒sir財經
2025-06-21 23:21:30
浙江退休大哥1天吃2頓,網友正要心疼,看到實物:沒對比就沒傷害

浙江退休大哥1天吃2頓,網友正要心疼,看到實物:沒對比就沒傷害

阿龍美食記
2025-06-05 11:40:30
B-2轟炸伊朗核設施,美伊沖突是否會繼續升級?

B-2轟炸伊朗核設施,美伊沖突是否會繼續升級?

以辛德之名
2025-06-22 09:36:36
特朗普警告無效,美使館遭襲!美軍駐地遭襲!美防長下令增兵中東

特朗普警告無效,美使館遭襲!美軍駐地遭襲!美防長下令增兵中東

兵說
2025-06-21 01:07:29
罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

張嘴說財經
2025-06-03 14:02:16
23日起 高考開始查分

23日起 高考開始查分

吉林日報
2025-06-21 17:42:06
劉亦菲內衣照被罵上熱搜:她的胸,礙了誰的眼?

劉亦菲內衣照被罵上熱搜:她的胸,礙了誰的眼?

周沖的影像聲色
2025-06-20 15:59:16
終于知道53歲的寧靜為啥不結婚!不是沒人饞她身子,而是太通透

終于知道53歲的寧靜為啥不結婚!不是沒人饞她身子,而是太通透

西樓知趣雜談
2025-06-21 10:20:47
黃曉明穿16厘米高跟鞋,費力調整好狼狽,47歲打扮成27歲,真努力

黃曉明穿16厘米高跟鞋,費力調整好狼狽,47歲打扮成27歲,真努力

萱小蕾o
2025-06-20 11:51:34
丁石孫拒收毛新宇入北大!40年來,令人懷念的6位大學校長

丁石孫拒收毛新宇入北大!40年來,令人懷念的6位大學校長

霹靂炮
2025-06-21 22:59:31
造假18年,收割4萬人,700億灰飛煙滅,受害者沒有一個是窮人!

造假18年,收割4萬人,700億灰飛煙滅,受害者沒有一個是窮人!

北緯的咖啡豆
2025-06-16 08:45:07
2025-06-22 19:40:49
Web3天空之城 incentive-icons
Web3天空之城
美好,有趣的,值得銘記的
186文章數 77關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗外長:特朗普欺騙了選民 他曾承諾不卷入永久戰爭

頭條要聞

伊朗外長:特朗普欺騙了選民 他曾承諾不卷入永久戰爭

體育要聞

這一次搶七,快要10年的回歸

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

數碼
房產
親子
藝術
旅游

數碼要聞

AOC 27英寸 4K 144Hz IPS 雙模顯示屏 U27U3XD 亮相

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

親子要聞

新手媽媽好緊張 兩天沒有睡好覺

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 诸暨市| 留坝县| 永修县| 惠东县| 天全县| 濉溪县| 平果县| 库车县| 盐边县| 贡山| 天峨县| 伊通| 瓦房店市| 临清市| 清涧县| 萨嘎县| 麻阳| 怀柔区| 临江市| 遂昌县| 锡林郭勒盟| 苏尼特右旗| 大连市| 襄城县| 永顺县| 黄石市| 惠来县| 阳江市| 驻马店市| 金秀| 衡南县| 随州市| 芜湖市| 石嘴山市| 贺兰县| 酉阳| 长顺县| 兴仁县| 丰都县| 临沭县| 托克托县|