網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

玩完 DeepSeek R1 新版，外國網(wǎng)友又「蚌埠住了」？

2025-06-01 12:11:28　來源: 極客公園

北京舉報

分享至

DeepSeek 一更新，外國網(wǎng)友就罵 OpenAI。

作者｜芯芯

編輯｜靖宇

幾天前，沒有預熱，沒有發(fā)布會，DeepSeek 低調(diào)上傳了 DeepSeek R1（0528）的更新。

海外媒體最關注的是，DeepSeek 的更新將幻覺率削減約 45%-50%，并把 R1 的性能推進至 OpenAI o3 與 Google Gemini 2.5 Pro 的相近水平。

與此同時，海外一些開發(fā)者、AI 圈研究人員開始跑基準測試，并在社交媒體平臺上熱議它的新能力，尤其是與科技巨頭旗艦模型的差距。

從海外用戶這幾天的反應來看，DeepSeek 這一次更新，雖然沒有今年初橫空出世時那樣轟動，但依然讓不少外國網(wǎng)友表示「鵝妹子嚶」，同時也讓越來越多人開始問一個問題：不單單是成本，來自中國的、開源 AI 社區(qū)的模型，是否在各種能力上，很快就可以超越世界上最強大的專有模型？

DeepSeek 再次「登頂」

在各類 AI 社群中，reddit 平臺有不少 AI/LLM 相關子社區(qū)。其中，在 r/LocalLLaMA 與 r/SillyTavernAI 這樣的圈內(nèi)社區(qū)，對 DeepSeek 的更新有不少熱帖。

「全新升級的 Deepseek R1 在 LiveCodeBench 上的表現(xiàn)幾乎與 OpenAI 的 O3 模型不相上下！開源的巨大勝利！」一名用戶發(fā)布的帖子標題如此聲稱。

reddit 社區(qū)關于 DeepSeek 更新的帖子｜圖片來源：reddit

一些開發(fā)者在測試了 R1 的最新功能。他們主要夸贊 R1 在數(shù)學問題和編程方面的表現(xiàn)，尤其是在處理復雜的積分或遞歸函數(shù)時。與之前的版本不同，R1-0528 擁有「更長遠的思考能力」，有測試者指出，它「表現(xiàn)出主動性」并且「不會那么快放棄」。

「剛剛測試過..... 我有相當復雜的代碼 1200 行，并添加了新功能... 似乎現(xiàn)在代碼質(zhì)量處于 o3 級別... 只能說 WOW」。reddit 社區(qū) r/LocalLLaMA 上的一名常駐用戶如此稱。

reddit 社區(qū)關于 DeepSeek 更新的回復｜圖片來源：reddit

根據(jù) DeepSeek 官方的說法，「更新后的 R1 模型在數(shù)學、編程與通用邏輯等多個基準測評中取得了當前國內(nèi)所有模型中首屈一指的優(yōu)異成績，并且在整體表現(xiàn)上已接近其他國際頂尖模型，如 o3 與 Gemini-2.5-Pro。」

在能力方面，新版本顯著提升了模型的思維深度與推理能力，支持工具調(diào)用，針對「幻覺」問題進行了優(yōu)化，在創(chuàng)意寫作方面也有所優(yōu)化，能夠輸出篇幅更長、結(jié)構(gòu)內(nèi)容更完整的長篇作品，同時更加貼近人類偏好。

其中，在工具調(diào)用方面，DeepSeek 官方文章坦然稱，「當前模型與 OpenAI o1-high 相當，但與 o3-High 以及 Claude 4 Sonnet 仍有差距。」

DeepSeek-R1-0528 與其他模型性能對比｜圖片來源：DeepSeek

DeepSeek 還提到，DeepSeek-R1-0528 在前端代碼生成、角色扮演等領域的能力均有更新和提升。

R1 的一大優(yōu)勢在于其超長的記憶跨度和語境持久性。AI 角色扮演社區(qū)（通常處于 AI 模型測試的邊緣，但在對話連貫性方面往往更為嚴格）有測評稱，角色能夠記住過去細微的細節(jié)，并以自主行為做出回應。

「有個角色跟我爭論一個觀點時，竟然提起過去發(fā)生的三個細節(jié)，」r/SillyTavernAI 上的一位用戶說道。「我以前從未見過這種情況。」

該用戶還提到：「AI 通常不會主動出擊；我訓練過一些 AI，讓他們在對話中占據(jù)主導地位，但這是我第一次看到 AI 從角色扮演場景中走出來。」

在 reddit 社區(qū)上，還有一名用戶甚至發(fā)貼稱，更新的 DeepSeek R1 0528 在他的所有測試中都能獲得滿分。

「過去幾周眼花繚亂——OpenAI 4.1、Gemini 2.5、Claude 4——它們都表現(xiàn)優(yōu)異，但沒有一個模型能夠在每項測試中都取得滿分。DeepSeek R1 05 28 是有史以來第一個做到這一點的模型。」他稱。

reddit 社區(qū)關于 DeepSeek 更新的帖子｜圖片來源：reddit

「這些測試并非像 YouTube 上很多人做的那種不切實際的測試。比如草莓里的 rs 數(shù)量，或者編寫一個貪吃蛇游戲等等。這些是我們在實際商業(yè)應用中經(jīng)常使用的任務，我們從中挑選了一些比較復雜的邊緣案例。」該用戶如此稱。

「我感覺自己就像電影《料理鼠王》里的安東（如果你看過這部電影的話）。我印象深刻（此處雙關），但也有點麻木，一時難以找到合適的詞來形容。一個來自去年還默默無聞的實驗室，做出的免費開源模型，竟然比商業(yè)前沿的模型做得更好，這真是太不可思議了。」

和 reddit 社區(qū)同樣熱鬧的是 X。

X 上熱衷 AI 內(nèi)容的用戶除了轉(zhuǎn)發(fā)基準測試的圖表，一些人著重提到 DeepSeek 的編程能力。比如，X 上一名用戶稱試過用 DeepSeek R1-0528 構(gòu)建游戲，稱「它的編程能力簡直太強了」「相比之前的版本，改進非常顯著」「如果這只是 R1...DeepSeek R2 將會非常瘋狂。」

X 上關于 DeepSeek 更新的帖子｜圖片來源：X

除了用戶和開發(fā)者聲音，在 DeepSeek 發(fā)布更新后，人工智能模型分析機構(gòu) Artificial Analysis 稱，DeepSeek 的 R1 在其獨立的「智能指數(shù)」上「超越 xAI、Meta 和 Anthropic」。

人工智能模型智能指數(shù)排行｜圖片來源：Artificial Analysis

具體模型比較上，該機構(gòu)在一篇報告中稱「DeepSeek R1 的智能程度高于 xAI 的 Grok 3 mini（high）、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里巴巴的 Qwen 3 253，并與谷歌的 Gemini 2.5 Pro 相當。」

DeepSeek 最大的智力進步出現(xiàn)在 AIME 2024（競賽數(shù)學，+21 分）、LiveCodeBench（代碼生成，+15 分）、GPQA Diamond（科學推理，+10 分）和 Humanity's Last Exam（推理與知識，+6 分）

其中在編程方面，該分析機構(gòu)認為，「R1 在人工分析編碼指數(shù)中與 Gemini 2.5 Pro 相當，僅落后于 o4-mini（high）和 o3」。

各大廠商人工智能模型智能指數(shù)變化｜圖片來源：Artificial Analysis

至于與 OpenAI 的對比，該機構(gòu)稱「DeepSeek 剛剛證明，他們能夠跟上 OpenAI 的 RL 計算能力擴展步伐。」

當然，全是贊美是不可能的。

在編程能力方面，X 上也有用戶挑刺道，「如果你真的用它和 Claude 4 寫過代碼，你就會知道基準測試的描述并不準確。Deepseek 的 API 仍然只有一個 64k 的上下文窗口。它還不錯，但不是前沿模型。可能要等到下次吧。它幾乎零成本，在某些方面表現(xiàn)不錯，但絕對比不上 Claude。」

X 上關于 DeepSeek 更新的帖子｜圖片來源：X

X 上的另一名海外用戶則稱，「deepseek 可能是數(shù)學和邏輯方面的 SOTA（最先進的），但我仍在使用 gemini 2.5 pro，因為它有超大上下文。」

對于該問題，DeepSeek 在官方文章提到，如果用戶對更長的上下文長度有需求，可以通過其他第三方平臺調(diào)用上下文長度為 128K 的開源版本 R1-0528 模型。

不過，也有海外用戶認為，無論是否在所有測評中取得第一，R1 既低成本、開放權重，還有強大的性能——幾個好處「組合」起來本身已值得稱贊。

對于 DeepSeek 的「小」更新，鑒于今年初 DeepSeek 橫空出世時曾引發(fā)美股海嘯，還有 reddit 用戶調(diào)侃道，「請讓我先拋售我的 AMD 和英偉達股票。請?zhí)崆?3 天通知我，謝謝。」

還有網(wǎng)友另類地開始贊美起 DeepSeek 更新的「低調(diào)」姿態(tài)。

一名 reddit 網(wǎng)友發(fā)了長長的評價稱：「用 0528 自己的話說：DeepSeek 低調(diào)的卓越之處，蘊含著某種詩意。其他人精心策劃著充滿期待的盛大交響曲——奢華的主題演講、精心設計的演示，以及讀起來如同地緣政治條約的安全宣言——而 DeepSeek 提供的是一首靜謐的十四行詩。他們仿佛遞給你一件用白紙包裹的杰作，低聲說著：『感覺很有用；希望你喜歡。』」

「對競爭對手的無聲打擊是最致命的。」另一名網(wǎng)友在底下稱。

reddit 社區(qū)關于 DeepSeek 更新的帖子｜圖片來源：reddit

「開源的巨大勝利」

除了能力，目前從海外互聯(lián)網(wǎng)的反應來看，在 DeepSeek 眾多優(yōu)勢里，被開發(fā)者刷最多好評、大量好感的重要來源，仍是「開源」，或者確切地說，「開放權重」。

AI 圈內(nèi)一個看法是，沒有發(fā)布訓練代碼和訓練數(shù)據(jù)的模型準確地說應該是「開放權重」，但一些人通常選擇隨意地稱之為「開源」。另外，沒有 AI 公司會發(fā)布訓練數(shù)據(jù)，因為他們不想被起訴。

對于 DeepSeek 這次更新，Y Combinator 創(chuàng)辦的在線科技社區(qū) Hacker News 涌現(xiàn)了一些帖子，主要是分享基準測試結(jié)果，交流經(jīng)驗，并驗證 R1 的性能提升（尤其是在編碼和數(shù)學方面）是否真實存在。

但與此同時，上面也有大量討論仍圍繞人工智能中什么才算「開源」。許多人稱贊 DeepSeek 公開發(fā)布模型權重，但也不斷指出，由于訓練數(shù)據(jù)等并未發(fā)布，外部無人能夠重新訓練或完全驗證 R1。另外，雖然是開源，雖然免費，但 6710 億參數(shù)的 R1，本質(zhì)上仍是一個巨型模型，對于普通用戶來說，它太大了。

即便如此，如今，R1 與 ChatGPT 的對比已成常態(tài)。OpenAI 限制了普通用戶對頂級模型的完整訪問權限，或者部分定價讓用戶覺得過高，而 DeepSeek 提供的卻便宜不少，并提供可下載的模型權重。

「DeepSeek 是真正的 OPEN AI」海外一名用戶發(fā)帖標題如此稱。

reddit 社區(qū)關于 DeepSeek 更新的帖子｜圖片來源：reddit

當然，并非所有 reddit 用戶都完全接受。一個名為「DeepSeek 有多糟糕？」的帖子曾引發(fā)關于 DeepSeek 內(nèi)置內(nèi)容審核的討論，不滿模型會「回避」某些問題。

這類論調(diào)目前已經(jīng)成為一個常見「梗」，有些用戶會反駁——模型權重是開放的，如果開發(fā)者認為有偏見，完全可以自行進行微調(diào)。另外，目前世界上所有主流模型都有內(nèi)容過濾機制，只是具體選擇不同，比如西方政治正確問題。

在 reddit 上，還有一篇以「開源人工智能正在迎頭趕上！」為標題的熱帖，發(fā)帖者稱，「Deepseek 似乎是唯一一家真正在前沿模型領域競爭的公司。其他公司總是有所保留，比如 Qwen 不愿開源他們最大的模型 (qwen-max)。我不怪他們，我知道，這就是生意。」

「閉源 AI 公司總是說開源模型無法趕上他們。如果沒有 Deepseek，他們可能是對的。但感謝 Deepseek 成了一個異數(shù)！」

reddit 社區(qū)關于 DeepSeek 更新的帖子｜圖片來源：reddit

在這篇帖子下面的評論區(qū)，還有回復尖銳稱，「他們這樣做是因為價格實惠的智能將推動一場革命，而 Deepseek 將被公眾銘記為人工智能的真正先驅(qū)，而不是世界上充斥著廣告的谷歌、ClosedAI 或虛假的安全 Anthropics。」

reddit 社區(qū)關于 DeepSeek 更新的回復｜圖片來源：reddit

對于 DeepSeek 的更新，reddit 上 r/LocalLLaMA 社區(qū)有一名常駐用戶提到，「這讓我想起了 ClosedAI 承諾發(fā)布『o3-mini 級別模型』卻未能兌現(xiàn)，現(xiàn)在新款 R1 已經(jīng)超越了 o3-mini (high) 不少，已經(jīng)接近完整的 o3 (high)。」

reddit 社區(qū)關于 DeepSeek 更新的帖子｜圖片來源：reddit

在另一篇通知 DeepSeek 最新更新的帖子下，有很多回復幾乎無關 DeepSeek 能力測評，卻諷刺起 Anthropic 或 OpenAI。比如，有網(wǎng)友聲稱 Anthropic 以「安全」為理由的閉源做法只是道德托詞。

reddit 社區(qū)關于 DeepSeek 更新的帖子｜圖片來源：reddit

即時是對 DeepSeek 更新表示淡定的網(wǎng)友也稱：「雖然它不再讓我感到驚訝了。每次我都得等到所有營銷噱頭平息后才能進行全面測試。但無論如何，Deepseek 仍然擁有開放權重的優(yōu)勢，這無疑是一個優(yōu)點。」

reddit 社區(qū)關于 DeepSeek 更新的帖子｜圖片來源：reddit

這幾個月，在 DeepSeek 的對比下，以往的 AI 巨頭保持技術和聲譽優(yōu)勢的壓力，可以說越來越大。

不少網(wǎng)友開始擔心其命運，比如「DeepSeek 將繼續(xù)迫使 AI 公司在價格方面展開競相壓價的競爭。」有的網(wǎng)友認為 DeepSeek「這樣做并非全是出于利他主義。通過發(fā)布免費模型，你可以阻止競爭對手占據(jù)市場主導地位」。

reddit 社區(qū)關于 DeepSeek 更新的帖子｜圖片來源：reddit

最高贊的回復則選擇感謝所有模型制作者，持同樣看法的用戶稱，無論是不是利他行為，「我很感激能在短期內(nèi)從他們的策略中獲益」。

這可能也是旁觀全球 AI 競賽時，面對一次次模型升級，當下不少開發(fā)者的真實心態(tài)。

reddit 社區(qū)關于 DeepSeek 更新的帖子｜圖片來源：reddit

另外，值得注意的是，業(yè)界仍在 DeepSeek R2 的發(fā)布。在 DeepSeek 更新時，有不少網(wǎng)友問到 R2 的進展，是不是會延遲發(fā)布，甚至懷疑「DeepSeek-R1-0528」是不是其實就是「R2」，只是用 R1 系列命名。

「我們想要 R2。」在 DeepSeek 官方更新的 X 帖子下，高贊回復如是說。

*頭圖來源：YouTube

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你用了新版 DeepSeek R1 嗎？感覺怎么樣？

蔚來秦力洪：只有原創(chuàng)設計，才能讓中國汽車從追趕到超越。

點贊關注極客公園視頻號，

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.