超出所有人的期待。
千呼萬喚始出來,DeepSeek 迎來了推理模型更新。
昨晚,DeepSeek 官方宣布其 R1 推理模型升級(jí)到了最新版本(0528),并在今天凌晨公開了模型及權(quán)重。
HuggingFace 鏈接:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
模型文件上傳時(shí)間是凌晨 1 點(diǎn),不知 DeepSeek 工程師們是不是加班到了最后一刻。也有網(wǎng)友表示,這回又在端午節(jié)假期前發(fā)新模型,簡直比放假通知還靠譜。
這次更新的升級(jí)版 R1 參數(shù)量高達(dá) 6850 億,體量巨大,雖然開源了出來,但大多數(shù)人只能圍觀。如果「滿血版」不進(jìn)行蒸餾,是肯定無法在消費(fèi)級(jí)硬件上本地運(yùn)行的。
不過這種不說話直接放鏈接的態(tài)度還是引來了網(wǎng)友們的普遍歡迎。
根據(jù) DeepSeek 的小范圍通知,更新后的 R1 版本采用 MIT 許可證,這意味著它可以用于商業(yè)用途,從版本號(hào)看來這是一個(gè)「小」升級(jí),不過人們大量實(shí)測后發(fā)現(xiàn),新版大模型的性能提升頗為明顯。
我們也能在新版 DeepSeek-R1 模型的配置文件中看到更多但并不出人意料的信息,包括采用了 DeepSeek-V3 作為基礎(chǔ)模型以及 MoE、隱藏層大小、量化等配置。
我們現(xiàn)在已經(jīng)可以在 DeepSeek 的網(wǎng)頁端和 App 上直接用上這個(gè)最新版本的大模型。
有網(wǎng)友總結(jié)表示,新的 DeepSeek-R1-0528 可以進(jìn)行更加深度的推理,輸出的文本更加自然,結(jié)構(gòu)更有層次感,它展現(xiàn)出了獨(dú)特的推理風(fēng)格,不僅速度很快,而且進(jìn)行了充分的思考。與上周發(fā)布的 Claude4 類似,現(xiàn)在的 DeepSeek 也可以進(jìn)行長時(shí)間的思考了,據(jù)說能持續(xù) 30-60 分鐘。
已經(jīng)有一些網(wǎng)友實(shí)測時(shí)遇到了 DeepSeek 的長考,這 deep research 可夠深度的:
基準(zhǔn)評(píng)分,成績大幅提升
DeepSeek R1 發(fā)布以來,大模型領(lǐng)域的格局已經(jīng)發(fā)生了變化。原版 R1 的成績?nèi)缃褚巡辉兕I(lǐng)先,R1-0528 的出現(xiàn)修正了結(jié)果。
R1-0528 模型的第一個(gè) Benchmark 成績是 LiveCodeBench,它超越了 O3-Mini,幾乎與 O3(High)的評(píng)分相當(dāng),在編程任務(wù)上相比上個(gè)版本有了顯著的提升。
要知道 DeepSeek 模型是完全開源的,App 目前為止也完全免費(fèi),這可以說是開源的勝利。
另外,其在 Extended NYT Connections 基準(zhǔn)上的成績也已經(jīng)出爐,相比于前一代 DeepSeek-R1,最新的 0528 版本的提升非常明顯,從 38.6 增至了 49.8,接近 Claude Opus 4 Thinking 16k;不過在該基準(zhǔn)上,DeepSeek-R1-0528 仍舊沒有擠進(jìn) OpenAI o 系列模型占據(jù)的第一梯隊(duì)。
目前,ChatBot Arena 上也已經(jīng)更新了新版本的 DeepSeek R1,讓我們看看大家充分測試過后它的排名能爬到多高。
網(wǎng)友實(shí)測:代碼能力大幅提升
雖然 DeepSeek-R1-0528 才剛出來不久,但已經(jīng)有不少網(wǎng)友分享了自己的實(shí)測結(jié)果。
比如開發(fā)者 Haider 就通過一個(gè)編程挑戰(zhàn)賽(構(gòu)建一個(gè)詞評(píng)分系統(tǒng))挑戰(zhàn)了當(dāng)前主流的前沿模型,結(jié)果發(fā)現(xiàn),目前只有 o3 和新版 DeepSeek-R1 能夠完成這個(gè)挑戰(zhàn)。這不禁讓他感嘆:DeepSeek is so back...
也有網(wǎng)友通過一個(gè)小球撞墻實(shí)驗(yàn)直觀地對(duì)比了 Claude-4-Sonnet 與 DeepSeek-R1-0528 的實(shí)際表現(xiàn)。可以看到,DeepSeek-R1 生成的代碼在模擬物理碰撞方面表現(xiàn)會(huì)更好一些。
Hyperbolic Labs CTO 和聯(lián)創(chuàng) Yuchen Jin 也進(jìn)行了簡單測試,發(fā)現(xiàn) R1-0528 是目前唯一一個(gè)始終能正確回答「what is 9.9 - 9.11?」的模型。
下面是他錄制的演示視頻:
機(jī)器之心也做了一次簡單的嘗試,讓其用 Python 編寫了一個(gè)可以將 Word 文檔中的圖片提取到固定路徑的小程序。
可以看到,DeepSeek-R1 用一分多鐘完成了任務(wù),那實(shí)際效果如何呢?很遺憾,出現(xiàn)了一個(gè)報(bào)錯(cuò):
這是一個(gè)簡單的句法錯(cuò)誤,下面我們直接將其反饋給 R1-0528。結(jié)果出現(xiàn)了一個(gè)有趣的現(xiàn)象,對(duì)于這個(gè)簡單報(bào)錯(cuò),R1 模型思考的時(shí)間(212 秒)遠(yuǎn)遠(yuǎn)超過了之前寫出整個(gè)程序的時(shí)間。
查看其思考過程可知,新版本的 R1 與之前的版本一樣存在過度思考的問題,即反復(fù)思考和驗(yàn)證原本很簡單的問題。
不過好在,修改后的程序成功完成了指定任務(wù),就是這 UI 字體有點(diǎn)不協(xié)調(diào):
我們還進(jìn)行了另一些簡單測試。整體來說,我們感覺新版 DeepSeek-R1 相比前一版本確實(shí)提升不小,完成一個(gè)任務(wù)所需的對(duì)話輪次也少了許多。
最后,盡管 R1 這次提升很大,網(wǎng)友們還是期待 DeepSeek 盡快放出 R2。
一個(gè)小版本更新就如此驚艷,DeepSeek R2 會(huì)是什么樣子?這一次,我們是不是要等到國慶節(jié)?
文中視頻鏈接:https://mp.weixin.qq.com/s/14YOsEZ_Kr6MD-7qvm3Hgg
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.