99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

玩完 DeepSeek R1 新版,外國網友又「蚌埠住了」?

0
分享至


DeepSeek 一更新,外國網友就罵 OpenAI。


作者|芯芯

編輯|靖宇


幾天前,沒有預熱,沒有發布會,DeepSeek 低調上傳了 DeepSeek R1(0528)的更新。

海外媒體最關注的是,DeepSeek 的更新將幻覺率削減約 45%-50%,并把 R1 的性能推進至 OpenAI o3 與 Google Gemini 2.5 Pro 的相近水平。

與此同時,海外一些開發者、AI 圈研究人員開始跑基準測試,并在社交媒體平臺上熱議它的新能力,尤其是與科技巨頭旗艦模型的差距。

從海外用戶這幾天的反應來看,DeepSeek 這一次更新,雖然沒有今年初橫空出世時那樣轟動,但依然讓不少外國網友表示「鵝妹子嚶」,同時也讓越來越多人開始問一個問題:不單單是成本,來自中國的、開源 AI 社區的模型,是否在各種能力上很快就可以超越世界上最強大的專有模型

01

DeepSeek 再次「登頂」

在各類 AI 社群中,reddit 平臺有不少 AI/LLM 相關子社區。其中,在 r/LocalLLaMA 與 r/SillyTavernAI 這樣的圈內社區,對 DeepSeek 的更新有不少熱帖。

「全新升級的 Deepseek R1 在 LiveCodeBench 上的表現幾乎與 OpenAI 的 O3 模型不相上下!開源的巨大勝利!」一名用戶發布的帖子標題如此聲稱。


reddit 社區關于 DeepSeek 更新的帖子|圖片來源:reddit

一些開發者在測試了 R1 的最新功能。他們主要夸贊 R1 在數學問題和編程方面的表現,尤其是在處理復雜的積分或遞歸函數時。與之前的版本不同,R1-0528 擁有「更長遠的思考能力」, 有測試者指出,它「表現出主動性」并且「不會那么快放棄」。

「剛剛測試過..... 我有相當復雜的代碼 1200 行,并添加了新功能... 似乎現在代碼質量處于 o3 級別... 只能說 WOW」。reddit 社區 r/LocalLLaMA 上的一名常駐用戶如此稱。


reddit 社區關于 DeepSeek 更新的回復|圖片來源:reddit

根據 DeepSeek 官方的說法,「更新后的 R1 模型在數學、編程與通用邏輯等多個基準測評中取得了當前國內所有模型中首屈一指的優異成績,并且在整體表現上已接近其他國際頂尖模型,如 o3 與 Gemini-2.5-Pro。」

在能力方面,新版本顯著提升了模型的思維深度與推理能力,支持工具調用,針對「幻覺」問題進行了優化,在創意寫作方面也有所優化,能夠輸出篇幅更長、結構內容更完整的長篇作品,同時更加貼近人類偏好。

其中,在工具調用方面,DeepSeek 官方文章坦然稱,「當前模型與 OpenAI o1-high 相當,但與 o3-High 以及 Claude 4 Sonnet 仍有差距。」


DeepSeek-R1-0528 與其他模型性能對比|圖片來源:DeepSeek

DeepSeek 還提到,DeepSeek-R1-0528 在前端代碼生成、角色扮演等領域的能力均有更新和提升。

R1 的一大優勢在于其超長的記憶跨度和語境持久性。AI 角色扮演社區(通常處于 AI 模型測試的邊緣,但在對話連貫性方面往往更為嚴格)有測評稱,角色能夠記住過去細微的細節,并以自主行為做出回應。

有個角色跟我爭論一個觀點時,竟然提起過去發生的三個細節,」r/SillyTavernAI 上的一位用戶說道。「我以前從未見過這種情況。」

該用戶還提到:「AI 通常不會主動出擊;我訓練過一些 AI,讓他們在對話中占據主導地位,但這是我第一次看到 AI 從角色扮演場景中走出來。」

在 reddit 社區上,還有一名用戶甚至發貼稱,更新的 DeepSeek R1 0528 在他的所有測試中都能獲得滿分。

「過去幾周眼花繚亂——OpenAI 4.1、Gemini 2.5、Claude 4——它們都表現優異,但沒有一個模型能夠在每項測試中都取得滿分。DeepSeek R1 05 28 是有史以來第一個做到這一點的模型。」他稱。


reddit 社區關于 DeepSeek 更新的帖子|圖片來源:reddit

「這些測試并非像 YouTube 上很多人做的那種不切實際的測試。比如草莓里的 rs 數量,或者編寫一個貪吃蛇游戲等等。這些是我們在實際商業應用中經常使用的任務,我們從中挑選了一些比較復雜的邊緣案例。」該用戶如此稱。

「我感覺自己就像電影《料理鼠王》里的安東(如果你看過這部電影的話)。我印象深刻(此處雙關),但也有點麻木,一時難以找到合適的詞來形容。一個來自去年還默默無聞的實驗室,做出的免費開源模型,竟然比商業前沿的模型做得更好,這真是太不可思議了。」

和 reddit 社區同樣熱鬧的是 X。

X 上熱衷 AI 內容的用戶除了轉發基準測試的圖表,一些人著重提到 DeepSeek 的編程能力。比如,X 上一名用戶稱試過用 DeepSeek R1-0528 構建游戲,稱「它的編程能力簡直太強了」「相比之前的版本,改進非常顯著」「如果這只是 R1...DeepSeek R2 將會非常瘋狂。


X 上關于 DeepSeek 更新的帖子|圖片來源:X

除了用戶和開發者聲音,在 DeepSeek 發布更新后,人工智能模型分析機構 Artificial Analysis 稱,DeepSeek 的 R1 在其獨立的「智能指數」上「超越 xAI、Meta 和 Anthropic」


人工智能模型智能指數排行|圖片來源:Artificial Analysis

具體模型比較上,該機構在一篇報告中稱「DeepSeek R1 的智能程度高于 xAI 的 Grok 3 mini(high)、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里巴巴的 Qwen 3 253,并與谷歌的 Gemini 2.5 Pro 相當。」

DeepSeek 最大的智力進步出現在 AIME 2024(競賽數學,+21 分)、LiveCodeBench(代碼生成,+15 分)、GPQA Diamond(科學推理,+10 分)和 Humanity's Last Exam(推理與知識,+6 分)

其中在編程方面,該分析機構認為,「R1 在人工分析編碼指數中與 Gemini 2.5 Pro 相當,僅落后于 o4-mini(high)和 o3」。


各大廠商人工智能模型智能指數變化|圖片來源:Artificial Analysis

至于與 OpenAI 的對比,該機構稱「DeepSeek 剛剛證明,他們能夠跟上 OpenAI 的 RL 計算能力擴展步伐。」

當然,全是贊美是不可能的。

在編程能力方面,X 上也有用戶挑刺道,「如果你真的用它和 Claude 4 寫過代碼,你就會知道基準測試的描述并不準確。Deepseek 的 API 仍然只有一個 64k 的上下文窗口。它還不錯,但不是前沿模型。可能要等到下次吧。它幾乎零成本,在某些方面表現不錯,但絕對比不上 Claude。」


X 上關于 DeepSeek 更新的帖子|圖片來源:X

X 上的另一名海外用戶則稱,「deepseek 可能是數學和邏輯方面的 SOTA(最先進的),但我仍在使用 gemini 2.5 pro,因為它有超大上下文。」

對于該問題,DeepSeek 在官方文章提到,如果用戶對更長的上下文長度有需求,可以通過其他第三方平臺調用上下文長度為 128K 的開源版本 R1-0528 模型。

不過,也有海外用戶認為,無論是否在所有測評中取得第一,R1 既低成本、開放權重,還有強大的性能——幾個好處「組合」起來本身已值得稱贊。

對于 DeepSeek 的「小」更新,鑒于今年初 DeepSeek 橫空出世時曾引發美股海嘯,還有 reddit 用戶調侃道,「請讓我先拋售我的 AMD 和 英偉達股票。請提前 3 天通知我,謝謝。」

還有網友另類地開始贊美起 DeepSeek 更新的「低調」姿態。

一名 reddit 網友發了長長的評價稱:「用 0528 自己的話說:DeepSeek 低調的卓越之處,蘊含著某種詩意。其他人精心策劃著充滿期待的盛大交響曲——奢華的主題演講、精心設計的演示,以及讀起來如同地緣政治條約的安全宣言——而 DeepSeek 提供的是一首靜謐的十四行詩。他們仿佛遞給你一件用白紙包裹的杰作,低聲說著:『感覺很有用;希望你喜歡。』」

對競爭對手的無聲打擊是最致命的。」另一名網友在底下稱。


reddit 社區關于 DeepSeek 更新的帖子|圖片來源:reddit

02

「開源的巨大勝利」

除了能力,目前從海外互聯網的反應來看,在 DeepSeek 眾多優勢里,被開發者刷最多好評、大量好感的重要來源,仍是「開源」,或者確切地說,「開放權重」。

AI 圈內一個看法是,沒有發布訓練代碼和訓練數據的模型準確地說應該是「開放權重」,但一些人通常選擇隨意地稱之為「開源」。另外,沒有 AI 公司會發布訓練數據,因為他們不想被起訴。

對于 DeepSeek 這次更新,Y Combinator 創辦的在線科技社區 Hacker News 涌現了一些帖子,主要是分享基準測試結果,交流經驗,并驗證 R1 的性能提升(尤其是在編碼和數學方面)是否真實存在。

但與此同時,上面也有大量討論仍圍繞人工智能中什么才算「開源」。許多人稱贊 DeepSeek 公開發布模型權重,但也不斷指出,由于訓練數據等并未發布,外部無人能夠重新訓練或完全驗證 R1。另外,雖然是開源,雖然免費,但 6710 億參數的 R1,本質上仍是一個巨型模型,對于普通用戶來說,它太大了。

即便如此,如今,R1 與 ChatGPT 的對比已成常態。OpenAI 限制了普通用戶對頂級模型的完整訪問權限,或者部分定價讓用戶覺得過高,而 DeepSeek 提供的卻便宜不少,并提供可下載的模型權重。

DeepSeek 是真正的 OPEN AI」海外一名用戶發帖標題如此稱。


reddit 社區關于 DeepSeek 更新的帖子|圖片來源:reddit

當然,并非所有 reddit 用戶都完全接受。一個名為「DeepSeek 有多糟糕?」的帖子曾引發關于 DeepSeek 內置內容審核的討論,不滿模型會「回避」某些問題。

這類論調目前已經成為一個常見「梗」,有些用戶會反駁——模型權重是開放的,如果開發者認為有偏見,完全可以自行進行微調。另外,目前世界上所有主流模型都有內容過濾機制,只是具體選擇不同,比如西方政治正確問題。

在 reddit 上,還有一篇以「開源人工智能正在迎頭趕上!」為標題的熱帖,發帖者稱,「Deepseek 似乎是唯一一家真正在前沿模型領域競爭的公司。其他公司總是有所保留,比如 Qwen 不愿開源他們最大的模型 (qwen-max)。我不怪他們,我知道,這就是生意。」

「閉源 AI 公司總是說開源模型無法趕上他們。如果沒有 Deepseek,他們可能是對的。但感謝 Deepseek 成了一個異數!」


reddit 社區關于 DeepSeek 更新的帖子|圖片來源:reddit

在這篇帖子下面的評論區,還有回復尖銳稱,「他們這樣做是因為價格實惠的智能將推動一場革命,而 Deepseek 將被公眾銘記為人工智能的真正先驅,而不是世界上充斥著廣告的谷歌、ClosedAI 或虛假的安全 Anthropics。」


reddit 社區關于 DeepSeek 更新的回復|圖片來源:reddit

對于 DeepSeek 的更新,reddit 上 r/LocalLLaMA 社區有一名常駐用戶提到,「這讓我想起了 ClosedAI 承諾發布『o3-mini 級別模型』卻未能兌現,現在新款 R1 已經超越了 o3-mini (high) 不少,已經接近完整的 o3 (high)。」


reddit 社區關于 DeepSeek 更新的帖子|圖片來源:reddit

在另一篇通知 DeepSeek 最新更新的帖子下,有很多回復幾乎無關 DeepSeek 能力測評,卻諷刺起 Anthropic 或 OpenAI。比如,有網友聲稱 Anthropic 以「安全」為理由的閉源做法只是道德托詞。


reddit 社區關于 DeepSeek 更新的帖子|圖片來源:reddit

即時是對 DeepSeek 更新表示淡定的網友也稱:「雖然它不再讓我感到驚訝了。每次我都得等到所有營銷噱頭平息后才能進行全面測試。但無論如何,Deepseek 仍然擁有開放權重的優勢,這無疑是一個優點。」


reddit 社區關于 DeepSeek 更新的帖子|圖片來源:reddit

這幾個月,在 DeepSeek 的對比下,以往的 AI 巨頭保持技術和聲譽優勢的壓力,可以說越來越大。

不少網友開始擔心其命運,比如「DeepSeek 將繼續迫使 AI 公司在價格方面展開競相壓價的競爭。」有的網友認為 DeepSeek「這樣做并非全是出于利他主義。通過發布免費模型,你可以阻止競爭對手占據市場主導地位」。


reddit 社區關于 DeepSeek 更新的帖子|圖片來源:reddit

最高贊的回復則選擇感謝所有模型制作者,持同樣看法的用戶稱,無論是不是利他行為,「我很感激能在短期內從他們的策略中獲益」。

這可能也是旁觀全球 AI 競賽時,面對一次次模型升級,當下不少開發者的真實心態。


reddit 社區關于 DeepSeek 更新的帖子|圖片來源:reddit

另外,值得注意的是,業界仍在 DeepSeek R2 的發布。在 DeepSeek 更新時,有不少網友問到 R2 的進展,是不是會延遲發布,甚至懷疑「DeepSeek-R1-0528」是不是其實就是「R2」,只是用 R1 系列命名。

我們想要 R2。」在 DeepSeek 官方更新的 X 帖子下,高贊回復如是說。

*頭圖來源:YouTube

本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

極客一問

你用了新版 DeepSeek R1 嗎?感覺怎么樣?


蔚來秦力洪:只有原創設計,才能讓中國汽車從追趕到超越。

點贊關注 極客公園視頻號 ,

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大結局要來?以色列援軍將至,30國表態站隊,中美俄幾乎同時撤僑

大結局要來?以色列援軍將至,30國表態站隊,中美俄幾乎同時撤僑

史紀文譚
2025-06-22 19:25:35
3-2,河南隊逆轉浙江晉級,王鈺棟上晚了,足協杯8強對陣全部確定

3-2,河南隊逆轉浙江晉級,王鈺棟上晚了,足協杯8強對陣全部確定

替補席看球
2025-06-22 21:34:28
奧迪Q5L跌穿了,寶馬X3慌了 ,漢蘭達日子更難過

奧迪Q5L跌穿了,寶馬X3慌了 ,漢蘭達日子更難過

侃故事的阿慶
2025-06-21 12:26:37
一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

小蜜情感說
2025-06-14 11:00:34
美軍公布炸伊核設施時間線:超百架軍機參與,有的佯裝飛行

美軍公布炸伊核設施時間線:超百架軍機參與,有的佯裝飛行

澎湃新聞
2025-06-22 23:02:28
第二次世界大戰爆發的根本原因,歷史書不會告訴你

第二次世界大戰爆發的根本原因,歷史書不會告訴你

愚鑒
2025-06-21 22:01:12
亞洲球隊險首勝!2-4,蔚山HD領先后崩盤:連丟3球,2連敗遭淘汰

亞洲球隊險首勝!2-4,蔚山HD領先后崩盤:連丟3球,2連敗遭淘汰

側身凌空斬
2025-06-22 07:56:48
以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

TVB的四小花
2025-06-14 00:38:15
近日,解放軍報點名 SpaceX 公司的 “星鏈”……

近日,解放軍報點名 SpaceX 公司的 “星鏈”……

Hi秒懂科普
2025-06-21 11:49:12
先禍害王治郅,在毀了姚明,他做了什么竟能讓中國籃球倒退二十年

先禍害王治郅,在毀了姚明,他做了什么竟能讓中國籃球倒退二十年

二月侃事
2025-06-20 08:30:19
錄音事件發酵,佩通坦結局已定?60萬泰軍選邊站,洪森手段夠老辣

錄音事件發酵,佩通坦結局已定?60萬泰軍選邊站,洪森手段夠老辣

虎哥閑聊
2025-06-21 09:53:11
體制內怎么知道同事有沒有后臺?網友:隔個兩三年就換崗位的

體制內怎么知道同事有沒有后臺?網友:隔個兩三年就換崗位的

帶你感受人間冷暖
2025-06-17 00:15:05
那爾那茜恐被取消學歷遭封殺,但高考449分是學霸,吳京被其坑慘

那爾那茜恐被取消學歷遭封殺,但高考449分是學霸,吳京被其坑慘

古希臘掌管月桂的神
2025-06-21 22:50:24
不要害羞:兩性交往最“舒服”的8種方式,讓感情越來越好!

不要害羞:兩性交往最“舒服”的8種方式,讓感情越來越好!

伊人河畔
2025-05-21 10:48:46
清醒!瓜帥談南美隊世俱杯表現出色:歡迎來到現實世界,朋友們

清醒!瓜帥談南美隊世俱杯表現出色:歡迎來到現實世界,朋友們

直播吧
2025-06-22 09:04:12
疑似落淚!王欣瑜憂郁美一幕 頭靠擋板若有所思:首盤浪費8個機會

疑似落淚!王欣瑜憂郁美一幕 頭靠擋板若有所思:首盤浪費8個機會

風過鄉
2025-06-22 21:03:22
美空襲伊朗核設施,澳媒:特朗普下決心,向中國傳遞一個明確信號

美空襲伊朗核設施,澳媒:特朗普下決心,向中國傳遞一個明確信號

愛下廚的阿釃
2025-06-22 23:16:53
佩通坦能贏得泰國總理之位,連王室都沒發聲反對,原因有四點:

佩通坦能贏得泰國總理之位,連王室都沒發聲反對,原因有四點:

現代春秋
2025-06-22 09:27:12
女子高考成績差清華1分,父親托關系查卷,看到卷上3字瞬間癱倒

女子高考成績差清華1分,父親托關系查卷,看到卷上3字瞬間癱倒

蘭姐說故事
2025-06-19 17:00:07
百萬分之一!《暗黑4》或有游戲史最稀有怪物

百萬分之一!《暗黑4》或有游戲史最稀有怪物

游民星空
2025-06-22 18:47:25
2025-06-23 00:44:49
極客公園
極客公園
讓最棒的創新成為頭條
11195文章數 78636關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

教育
健康
手機
本地
軍事航空

教育要聞

2026qs排名完整名單公布后,申請難度會暴漲的幾所英國大學!

呼吸科專家破解呼吸道九大謠言!

手機要聞

華為鴻蒙 HarmonyOS 5.0.1.130 版本游戲場景新增“高性能”模式

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

軍事要聞

美對伊行動細節:使用14枚巨型鉆地彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 页游| 杨浦区| 靖边县| 芮城县| 裕民县| 赤峰市| 安溪县| 建平县| 长宁区| 绥中县| 贵定县| 福州市| 瓦房店市| 德惠市| 西峡县| 济宁市| 新疆| 佛教| 化德县| 乌鲁木齐市| 常德市| 平邑县| 称多县| 兴仁县| 琼海市| 金乡县| 四子王旗| 巴里| 巴林右旗| 正蓝旗| 嘉峪关市| 大竹县| 武穴市| 原平市| 自治县| 兰溪市| 崇文区| 龙州县| 赤城县| 田林县| 公主岭市|