網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

野生DeepSeek火了，速度碾壓官方版，權(quán)重開源

2025-07-04 17:18:25　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：杜偉、澤南

沒等來(lái) DeepSeek 官方的 R2，卻迎來(lái)了一個(gè)速度更快、性能不弱于 R1 的「野生」變體！

這兩天，一個(gè)名為「DeepSeek R1T2」的模型火了！

這個(gè)模型的速度比 R1-0528 快 200%，比 R1 快 20%。除了速度上的顯著優(yōu)勢(shì)，它在 GPQA Diamond（專家級(jí)推理能力問答基準(zhǔn)）和 AIME 24（數(shù)學(xué)推理基準(zhǔn)）上的表現(xiàn)均優(yōu)于 R1，但未達(dá)到 R1-0528 的水平。

在技術(shù)層面，采用了專家組合（Assembly of Experts，AoE）技術(shù)開發(fā)，并融合了 DeepSeek 官方的 V3、R1 和 R1-0528 三大模型。

當(dāng)然，這個(gè)模型也是開源的，遵循 MIT 協(xié)議，并在 Hugging Face 上開放了權(quán)重。

Hugging Face 地址：https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

經(jīng)過進(jìn)一步了解，我們發(fā)現(xiàn)：DeepSeek R1T2 是德國(guó)一家 AI 咨詢公司「TNG」推出的，模型全稱為「DeepSeek-TNG R1T2 Chimera」（以下簡(jiǎn)稱 R1T2）。

該模型除了前文提到的在智力水平和輸出效率之間實(shí)現(xiàn)完美平衡之外，相較于這家公司的初代模型「R1T Chimera」，智力大幅躍升，并實(shí)現(xiàn)了突破性的 think-token 一致性。

不僅如此，即使在沒有任何系統(tǒng)提示的情況下，該模型也能表現(xiàn)穩(wěn)定，提供自然的對(duì)話交互體驗(yàn)。

在評(píng)論區(qū)，有人誤以為這個(gè)模型出自 DeepSeek 官方，并且認(rèn)為他們是不是也在走相同的路線：給模型起各種名稱，就是不用主系列下一代版本號(hào)？

更多的人認(rèn)可該模型「找到了智能與輸出 token 長(zhǎng)度之間的最佳平衡點(diǎn)，并且提升了速度」，并對(duì)該模型在現(xiàn)實(shí)世界的表現(xiàn)充滿了期待。

模型細(xì)節(jié)概覽

從 Hugging Face 主頁(yè)來(lái)看，R1T2 是一個(gè)基于 DeepSeek R1-0528、R1 以及 V3-0324 模型構(gòu)建的 AoE Chimera 模型。

該模型是一個(gè)采用 DeepSeek-MoE Transformer 架構(gòu)的大語(yǔ)言模型，參數(shù)規(guī)模為 671B。

R1T2 是該公司 4 月 26 日發(fā)布的初代模型「R1T Chimera」的首個(gè)迭代版本。相較于利用雙基模型（V3-0324 + R1）的初代架構(gòu)，本次升級(jí)到了三心智（Tri-Mind）融合架構(gòu)，新增基模型 R1-0528。

該模型采用 AoE 技術(shù)構(gòu)建，過程中利用較高精度的直接腦區(qū)編輯（direct brain edits）實(shí)現(xiàn)。這種精密融合不僅帶來(lái)全方位提升，更徹底解決了初代 R1T 的

token 一致性缺陷。

團(tuán)隊(duì)表示，R1T2 對(duì)比其他模型具備如下優(yōu)劣：

與 DeepSeek R1 對(duì)比：R1T2 有望成為 R1 的理想替代品，兩者幾乎可以通用，并且 R1T2 性能更佳，可直接替換。
與 R1-0528 對(duì)比：如果不需要達(dá)到 0528 級(jí)別的最高智能，R1T2 相比之下更加經(jīng)濟(jì)。
與 R1T 對(duì)比：通常更建議使用 R1T2，除非 R1T 的特定人格是最佳選擇、思考 token 問題不重要，或者極度需求速度。
與 DeepSeek V3-0324 對(duì)比：V3 速度更快，如果不太關(guān)注智能可以選擇 V3；但是，如果需要推理能力，R1T2 是首選。

此外，R1T2 的幾點(diǎn)局限性表現(xiàn)在：

R1-0528 雖推理耗時(shí)更長(zhǎng)，但在高難度基準(zhǔn)測(cè)試中仍優(yōu)于 R1T2；
經(jīng) SpeechMap.ai（由 xlr8harder 提供）測(cè)評(píng)，R1T2 應(yīng)答克制度（reserved）顯著高于 R1T，但低于 R1-0528；
暫不支持函數(shù)調(diào)用：受 R1 基模型影響，現(xiàn)階段不推薦函數(shù)調(diào)用密集型場(chǎng)景（后續(xù)版本可能修復(fù)）；
基準(zhǔn)測(cè)試變更說(shuō)明：開發(fā)版由 AIME24+MT-Bench 變更為 AIME24/25+GPQA-Diamond 測(cè)評(píng)體系，新體系下 R1 與初代 R1T 的分差較早期公布數(shù)據(jù)更大。

最后，關(guān)于 R1T2 中重要的 AoE 技術(shù)，可以參考以下論文。

論文標(biāo)題：Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors
論文地址：https://arxiv.org/pdf/2506.14794

參考鏈接：https://x.com/tngtech/status/1940531045432283412

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.