99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

重新定義「小版本」!全面實測新版 DeepSeek R1,我們挖出了這些隱藏亮點

0
分享至

DeepSeek 猝不及防地更新了,不是 R2,而是 R1 v2。

官方的通告也很「DeepSeek」,甚至可以說有點佛系,在微信交流群發了一句:

「DeepSeek R1 模型已完成小版本試升級,歡迎前往官方網頁、APP、小程序測試(打開深度思考),API 接口和使用方式保持不變。」

看起來平平無奇,但真一頓實測下來,這個「小版本」恐怕還是過于謙虛了。

全球最大 AI 開源社區 Hugging Face 已經開源了這個新版本,名字也很實在:DeepSeek-R1-0528。不過截至目前,模型卡還沒同步更新。


有需求的開發者可以自己動手部署,附上開源地址:https://huggingface.co/DeepSeek-ai/DeepSeek-R1-0528/tree/main

特點總結:

推理能力大幅提升,代碼水平暴漲

?? 寫作表現更有人味,格式更規范

思考過程不僅快,還有條理、講邏輯

?? 支持長時間思考,一項任務可持續 30 到 60 分鐘

根據編碼基準測試 LiveCodeBench 的最新結果,這一版 R1 的表現已經和 OpenAI o3 High 已經五五開了,而且,它的進步也遠不止于代碼能力。


當然,驗證一款模型是否真正「可用」,還得看它在真實場景下的表現,我們也照例跑了幾個案例。

編程:網頁、游戲、UI,啥都能做

【掃雷游戲】考察編程、邏輯推理

比方說,我們參考網友@ ty_1215 的提示詞,讓新版 R1 設計一個掃雷游戲,結果不但邏輯完整,生成代碼結構工整,直接就能拿來跑。

雖然這個任務比較簡單,但在邏輯推理和編程結構的處理上,也算是超出了我的預期。


【音樂播放器】考察審美、功能規劃

再讓它模仿 QQ 音樂播放器的 UI 設計,給它指個方向,它咔咔就是一通輸出,不僅有播放器主體,還帶歌詞、播放按鈕、封面圖、進度條。

理解任務只是基本操作,但拆解指示設計出符合審美且功能完整的界面就難上加難了,最終交出的成果也給我一種它能做得更好的既視感。

【太陽系模擬】考察圖形渲染和物理模擬

再放飛一點,讓它模擬一個太陽系,包括太陽、八大行星和月球,能展示公轉軌道、自轉動畫,還要求背景得帶上動態的星星。

生成的效果雖然顏色配得土了點,但搭配漫天的星星,整個空間氛圍感直接拉滿,尤其是那個可縮放可旋轉的視角,完全可以作為中小學科普動畫的原型演示。


寫作:喜大普奔,終于不油膩啦

【風格模仿】考察寫作、深度理解

除了寫代碼,新版 R1 寫文章的水準也有大幅度提升。一句話概括,就是更有人味了。

春節期間,我們讓 DeepSeek R1 以《百年孤獨》的風格寫春節面對七大姑八大姨的故事,當時就發現,舊版 R1 文筆最大的毛病太愛堆砌意象,拽大詞,讀著有點油。


這次用 R1 v2 復刻同一個問題,風格明顯收斂不少,語言更自然,意象不突兀,有文學感但不矯情,讀起來更自然了

最近看到一句文言文版的「懂的都懂」,我心想,新版 R1 停留在字面意思就已經實屬不易了,結果出乎意料,它不僅提供字面意思,還深挖了個深層含義,以及甚至從哲學角度開始思考


類似的,我們 3 月份的時候讓 Deepseek R1 對《紅樓夢》脂批中的「情榜」進行解讀,發現它的深度思考過程邏輯性較弱,零散地整合了不同網頁的觀點。

而且,「泛靈論」「理性超越」「異化」等非口語化的詞匯還是頻繁出現,分析內容也較為機械干癟。



這次拿同樣的問題問 R1 v2,觀察它的深度思考過程,發現思考過程的邏輯性更清楚完整,不再是對網頁信息的零散整合,且有關注到「用戶可能沒意識到但值得深挖的點」

最重要的是,它在生成回答時自行「注意避免學術腔」,也添加了生動的場景例證。



思維鏈及推理:依然靠譜,還更清楚

語言能力的進步,不僅對于文本生成很重要,更加是滲透在每個環節——尤其是思維鏈。

思維鏈反映的是模型是怎么想的、為什么得出這個結論,以及它怎么表達自己這一系列經過。

DeepSeek 這次的升級,并不只是「答對題」這么簡單。更重要的是,它在推理路徑上的一些細節變化,開始顯露出新的能力結構

【雞兔同籠】:考察推理理解、解法多樣性


雞兔同籠是非常經典的「必考題」,沒有模型能逃得過。新 R1 的表現展現出很好的穩健性:一開始用設元 + 解方程,體現出結構化建模能力。后面補了一種邏輯回推法——一種典型的奧數思維訓練套路


兩種方法互補,驗算結果,保證正確。在整個思維鏈展開中,每一個變量意義、每一步計算、每一個代入都交代得明明白白。尤其是中間過程的口語化表達非常適合給不那么擅長數學的讀者閱讀。

不過,整個過程里沒有出現自我糾錯?這不應該啊,再上個題試試。

【計算時針角度】考察混合題型、基本幾何知識


這題看下來,可以拍著良心說,CoT 的進步相當明顯

首先有清晰的結構意識,先講「表面方法」,用基本角度計算;再引入「常用公式」進行驗證;最后還能進行反向校正,驗證。


「時針角度」的計算是非常理想的模型測試題,因為除了要計算數值,也要有簡單的幾何概念。新 R1 不僅能完成計算,還體現基本的幾何空間感

整個過程中,多次出現了「我再確認一下」「有時候會有人算錯」「我可能漏掉了什么」這些自查,說明模型現在并不只是一股腦的列數據,而是有「我正在思考」的姿態——雖然只是姿態,但這不就是 CoT 的核心嗎?

【語義陷阱推理】考察分詞能力、嵌套推理拆解


這看似一個腦筋急轉彎,但實際上,所謂的「真話假話」之間互相嵌套,在推理上要真正理解「最少」和「最多」的語義。

這也就意味著不能武斷地分詞,必須考慮每一種情況。因此這道題的思維鏈和解答都是最長的——超過了四千字。


語義理解沒有翻車,這點很不錯。從兩個互斥的假設出發,來一點點完成推理,考慮了盡可能多種場景和可能性。

在「總是說謊」這個條件解釋上,新 R1 沒有過多解釋。實際上,中文里它是會引發歧義的,「總是」二字會誤導模型以為是「過去一直都說謊」而非「當下說謊」。它這次沒踩坑,可能有一定概率是靠「幻覺」躲過去了。

不過,這一題是真實暴露出了問題:無論是思維鏈,還是最后的解答,敘述方式都是典型的「語言模型思維鏈+流水賬排查」,寫得跟個五年級數學作業一樣,洋洋灑灑也啰啰嗦嗦……


如果生成一個鏈條圖、思維導圖,可能會更清楚。

總體講,新 R1「腦子」比以前清楚了,推理一如既往的靠譜在代數推導、假設排除等環節表現穩定。推理路徑整體連貫,基本能準確理解語義陷阱類題目中的邏輯關系。

思維鏈的表現來看,相比于之前的略顯冰冷的「理工腦袋」敘述方式,這一次的 CoT 有點像是把模型的「腦內小劇場」擺了出來。但要更貼近「人類思維風格」的表達,還需在精煉、組織與重點識別上繼續優化。

除了我們的測試,網友們的反饋也進一步驗證了新版 R1 的進步。

以經典的小球測試為例,從網友 @flavioAd 發的測試結果來看,新舊模型差距相當明顯:舊版 R1 的球動作生硬、彈跳粘線,像是被釘死在軌道上;新版 R1 的球運動更自然、重力感更強。

用網友的話來說,「這個新版的球有自我意識,自己決定什么時候彈跳」


另一個測試來自博主 @karminski3,他拿 DeepSeek-R1-0528 和 Claude-4-Sonnet 測試了一個球體撞墻的案例。

同樣的提示詞,Claude 輸出了 542 行代碼,DeepSeek 直接來 728 行,功能更全、細節更細,尤其是控制面板的配色、反射、FPS 表現……有點工業設計作業的即視感。


模型的基礎常識能力在此次更新中有所升級。網友 @Yuchenj_UW 提到, DeepSeek-R1-0528 是目前唯一一個能穩定正確回答 「9.9 - 9.11 等于多少?」的模型。


網友的梗也沒落下。有人調侃 DeepSeek 寫代碼像 freestyle:如果數學天才陶哲軒 DeepSeek 強強聯合,說不定真能出個「專輯」。當然,他所說的專輯不是音樂,而是一份能解決當代數學難題的論文。


知名 X 博主 @slow_developer 也加入了實測陣營,稱贊「DeepSeek 真是王者歸來……」他為 R1 v2 設計了一道中等復雜度的任務:構建一個單詞評分系統。

DeepSeek R1 簡單思考了一下,一次性生成兩個文件,一個是主程序,一個是測試腳本,代碼結構清晰,邏輯閉環,首次運行就順利通過,沒有報錯。


目前據他測試,只有 OpenAI 的 o3 模型曾經能做到這種穩定輸出,DeepSeek R1 v2 是第二個。

網友 @mishig25 的案例則演示了 R1 v2 在 Hugging Face Playground 上完整跑通 Chat Template,實現結構化函數調用的過程。

從解析用戶意圖、觸發具體函數,到最后組合成回答的完整流程,DeepSeek 全程干凈利落,表現出極強的指令理解 + 執行能力。


簡言之,別被 DeepSeek-R1-0528 這個樸實無華的名字忽悠了。

壞消息是,新版 R1 的發布意味著 R2 恐怕還得再等等,好消息是,新版 R1 表面看著是個「小版本」,實則是一次能打的真升級,不管是可用性、穩定性,還是復雜任務的完成度,全都肉眼可見地往上抬了一檔。

如果你還在苦等 R2,不妨先認真看看 R1 v2。用過一次,就真的回不去了。不過 DeepSeek 啊,咱就是說...那「服務器繁忙」的提示,能少點不?

模型是好用,咱也得能用上才行啊!

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美方發現:中國“首次超過美國”

美方發現:中國“首次超過美國”

參考消息
2025-06-05 22:09:36
壓不住了,不到48小時,俄軍導彈密集打擊:152個烏軍無人機工廠

壓不住了,不到48小時,俄軍導彈密集打擊:152個烏軍無人機工廠

明月聊史
2025-06-05 12:01:18
要么加入中國大陸,要么加入臺灣,要么獨立建國

要么加入中國大陸,要么加入臺灣,要么獨立建國

混沌錄
2025-06-05 23:23:21
太慘了,仿佛路邊的野狗被一腳踢死了,無人問津啊!

太慘了,仿佛路邊的野狗被一腳踢死了,無人問津啊!

天擇雜談
2025-06-05 00:10:57
37歲男子湖邊散步時被蛇咬傷,右腳拇指出現兩個小孔,他忍痛給小青蛇拍了照片

37歲男子湖邊散步時被蛇咬傷,右腳拇指出現兩個小孔,他忍痛給小青蛇拍了照片

極目新聞
2025-06-05 11:34:23
聯大選出反華主席,不到2天,安理會生變,中方:公道正義何在?

聯大選出反華主席,不到2天,安理會生變,中方:公道正義何在?

時時有聊
2025-06-05 21:59:23
法網半決賽:高芙直落兩盤橫掃本土球員布瓦松,決賽將戰薩巴倫卡

法網半決賽:高芙直落兩盤橫掃本土球員布瓦松,決賽將戰薩巴倫卡

懂球帝
2025-06-06 01:21:22
俄羅斯可能自己都沒料到,本輪遇襲中抵抗最堅決的,是他的人民

俄羅斯可能自己都沒料到,本輪遇襲中抵抗最堅決的,是他的人民

忠誠TALK
2025-06-04 10:26:47
死亡記錄首次曝光!被蛇咬女游客曾打過抗毒血清!更多細節流出!

死亡記錄首次曝光!被蛇咬女游客曾打過抗毒血清!更多細節流出!

史書無明
2025-06-05 18:12:44
央媽終于大放水!6月6日,深夜的三大重要消息持續發酵!

央媽終于大放水!6月6日,深夜的三大重要消息持續發酵!

風口招財豬
2025-06-06 00:41:07
考辛斯:個人魅力是超巨的重要標準 比如約基奇你就無法推銷他

考辛斯:個人魅力是超巨的重要標準 比如約基奇你就無法推銷他

直播吧
2025-06-05 17:34:16
赫爾松、扎波羅熱雙雙斷電,烏軍新戰術行動瞄準俄羅斯“能源命門”?

赫爾松、扎波羅熱雙雙斷電,烏軍新戰術行動瞄準俄羅斯“能源命門”?

Ck的蜜糖
2025-06-06 00:17:02
吉利桂生悅:華為是值得尊重和重視的對手!有些車企銷量好但是沒有核心!網友:說誰呀?好難猜

吉利桂生悅:華為是值得尊重和重視的對手!有些車企銷量好但是沒有核心!網友:說誰呀?好難猜

大白聊IT
2025-06-05 10:46:12
華為,突然宣布!2.5小時超4萬人預約,搭載原生鴻蒙,Pura 80外觀曝光

華為,突然宣布!2.5小時超4萬人預約,搭載原生鴻蒙,Pura 80外觀曝光

21世紀經濟報道
2025-06-05 16:12:52
一人毀掉整部劇!香腸嘴、死魚眼,她成央視《藏海傳》唯一敗筆

一人毀掉整部劇!香腸嘴、死魚眼,她成央視《藏海傳》唯一敗筆

山河月明史
2025-06-05 17:06:18
解說談國足:建議找起碼把中超研究明白的教練,再備戰2030世界杯

解說談國足:建議找起碼把中超研究明白的教練,再備戰2030世界杯

直播吧
2025-06-06 00:49:34
法網︱終結斯瓦泰克對紅土的統治,薩巴倫卡首進法網決賽

法網︱終結斯瓦泰克對紅土的統治,薩巴倫卡首進法網決賽

文匯報
2025-06-06 01:49:15
新一輪的生育計劃要來了?有著名專家提議:不生就下調養老金!

新一輪的生育計劃要來了?有著名專家提議:不生就下調養老金!

小彭的燦爛筆記1
2025-06-02 15:12:20
國足遭遇4連敗尷尬出局,與印尼一戰揪出兩大罪人,球迷:快滾蛋

國足遭遇4連敗尷尬出局,與印尼一戰揪出兩大罪人,球迷:快滾蛋

球盲百小易
2025-06-06 01:01:57
斯基拉:法布雷加斯與科莫續約,合同期至2029年&年薪500萬歐

斯基拉:法布雷加斯與科莫續約,合同期至2029年&年薪500萬歐

懂球帝
2025-06-06 01:53:29
2025-06-06 03:32:49
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
5362文章數 26570關注度
往期回顧 全部

科技要聞

對話盛景網聯彭志強:跳出SaaS虧損黑洞!從“賣工具”到“賣結果”的AI RaaS轉型法則

頭條要聞

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

頭條要聞

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

陳赫宴請好友,李乃文攜妻子罕見亮相

財經要聞

習近平同美國總統特朗普通電話

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

教育
房產
藝術
公開課
軍事航空

教育要聞

通知!高考期間部分學校周邊部分路段采取交通管控

房產要聞

再奪荔灣銷冠!誰是主城改善標準制定者,終于有了答案!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京明確:沒有人會與“恐怖分子”談判

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 六枝特区| 大邑县| 岑巩县| 长泰县| 郎溪县| 阿瓦提县| 三台县| 克什克腾旗| 顺义区| 芜湖市| 高雄县| 长沙县| 衡水市| 团风县| 伊宁县| 吴江市| 磐安县| 綦江县| 青河县| 皮山县| 呼伦贝尔市| 平和县| 左贡县| 凤山市| 武威市| 康保县| 东至县| 农安县| 清丰县| 邛崃市| 商丘市| 河池市| 盐池县| 吴桥县| 定边县| 无极县| 蒲城县| 石河子市| 利辛县| 桐梓县| 江川县|