網易首頁 > 網易號 > 正文申請入駐

德國團隊基于DeepSeek打造R1T2模型，速度比R1-0528快200%

2025-07-04 18:58:58　來源: DeepTech深科技

北京舉報

分享至

DeepSeek-R2 姍姍來遲，業內人士似乎等不及了？這不，德國 TNG Technology Consulting GmbH 公司（下稱 TNG）基于 DeepSeek R1-0528 新版本，推出了一款速度提升 200% 的 DeepSeek-TNG R1T2 Chimera 模型（下稱 R1T2）。R1T2 是一款擁有 6710 億參數的開源混合模型，也是 TNG 團隊 Chimera 大模型系列中的最新型號。DeepSeek-R1-0528 因其擴展的思維鏈推理而傾向于給出長篇大論的詳細回答，而本次 R1T2 的設計更加簡潔，它在使用明顯更少的詞匯的同時，也能給出同樣智能的回答。另外，R1T2 再次使用了由 TNG 團隊提出的集合專家（AoE，Assembly-of-Experts）方法。

（來源：arXiv）

值得注意的是，TNG 的聯合創始人亨利克·克萊格斯（Henrik Klagges）是相關論文的第一作者，領英頁面顯示他聯合創辦 TNG 已有 24 年之久。

圖 | 相關論文（來源：arXiv）

1994 年，克萊格斯從英國牛津大學畢業后，于 2001 年創辦了 TNG。目前，該公司擁有 917 名員工，99.9% 的員工為學術人員，并且超過 50% 的員工擁有數學、物理和計算機科學的博士學位。也就是說，作為一個基于 DeepSeek 做變體模型的團隊，TNG 并不是一個無名小卒。

（來源：領英）

此前，在相關實驗結果以及混合專家（MoE，Mixture of Experts）模塊化結構的啟發之下，TNG 團隊將 DeepSeek-V3-0324 和 DeepSeek-R1 的路由專家張量進行合并，由此打造了 DeepSeek-R1T-Chimera 模型（下稱 R1T）。而本次推出的 R1T2 在保留 DeepSeek-R1 推理性能的同時，在效率和速度方面實現了顯著提升。在不損失或幾乎不損失智能的情況下顯著降低了冗余度，這意味著它能產生更短的響應，從而能夠直接轉化為更快的推理速度和更低的計算成本。

作為 R1T 的后續版本，R1T2 還引入了一種新的“Tri-Mind”配置，該配置集成了三個父模型：DeepSeek-R1-0528、DeepSeek-R1 和 DeepSeek-V3-0324。

據介紹，R1T2 是在沒有進一步微調或重新訓練的情況下構建的，它繼承了 DeepSeek-R1-0528 的推理能力、DeepSeek-R1 的結構化思維模式以及 DeepSeek-V3-0324 的簡潔指令導向的行為特性，因此是一個更高效、更強大的模型。

AI 開發者社區對此反應也比較積極，Hugging Face 的高級領導 Vaibhav（VB）Srivastav 在 X 上寫道：“太棒了！DeepSeek R1T2——比 R1-0528 快 200%，比 R1 快 20%。在 GPQA 和 AIME 24 數據集上的表現明顯優于 R1，并采用 DS V3、R1 和 R1-0528 組合打造了集合專家架構，而且它使用 MIT 許可協議，目前已在 Hugging Face 上開放。”

（來源：X）

TNG 團隊提供的基準比較結果顯示，在 AIME-24、AIME-25 和 GPQA-Diamond 測試集的評估下，R1T2 的推理性能達到了其最智能父模型 DeepSeek-R1-0528 的 90% 至 92%。

與此同時，TNG 團隊并不側重于原始處理時間或每秒處理的 token 數量，而是以每個答案的輸出 token 數量來衡量“速度”，他們將這視為一種能夠同時反映成本和延遲的實用指標。R1T2 生成響應所需的 token 量大約為 DeepSeek-R1-0528 的 40%，這意味著輸出長度減少了 60%，從而能夠直接減少推理時間和計算負載，進而能使響應速度提高 200%。與原始的 DeepSeek-R1 相比，R1T2 的平均簡潔度也提高了約 20%，這為高通量或成本敏感的部署帶來了顯著的效率提升。并且，這種高效性并未以犧牲智能為代價。正如 TNG 團隊的基準圖表所展示的，R1T2 在“智能 vs. 輸出成本”曲線上處于一個理想區域。它在保持推理質量的同時能夠大幅減少冗余輸出，這一特性對于那些對推理速度、吞吐率和成本都有嚴格要求的企業級應用至關重要。

（來源：arXiv）

集合專家與混合專家有何不同？

如前所述，TNG 團隊曾提出了集合專家（AoE，Assembly-of-Experts）方法，這是一種通過有選擇地合并多個預訓練模型的權重張量（內部參數）來構建大模型的技術。

很多人對于混合專家（MoE，Mixture-of-Experts）并不陌生，MoE 是一種架構設計，其中不同的組件或“專家”會根據輸入有條件地被激活。對于典型的 MoE 大模型比如 DeepSeek-V3 和 Mixtral來說，在任何給定 token 的前向傳遞過程中，只有模型專家層的一個子集處于活動狀態（例如，256 個中的 8 個）。這使得超大規模模型在實現更高參數量和更強專業化的同時，仍能保持可控的推理成本，因為每個 token 只需激活網絡中的一小部分子模塊。

在預訓練期間，大模型計算一個 8 位權重需要 10^13 至 10^15 次浮點運算（FLOPs，Floating-Point Operations），不僅成本極高而且效率低下。正是為了更好地利用對預訓練模型的大量投資，TNG 團隊開發了 AoE。AoE 是一種模型融合技術，而非一種架構。它通過有選擇地插值多個預訓練的 MoE 模型的權重張量，以用于從這些模型中創建一個新模型。

該方法能夠在線性時間內創建現有 MoE 父模型的高效子模型變體。模型權重張量會被單獨進行插值處理，從而能夠增強或抑制父模型的語義特征。通過改變從父模型中提取的權重比例，TNG 團隊觀察到 AoE 子模型的一些特性會逐漸變化，而其他行為特征則會發生急劇轉變。

另據悉，AoE 中的“專家”指的是正在合并的模型組件，通常是 MoE 層中路由的專家張量，而非在運行時動態激活的專家。TNG 團隊對于 AoE 的實現主要側重于合并路由專家張量，這是模型中負責專門推理的部分，同時通常會保留來自 DeepSeek-V3-0324 等更快模型中更高效的共享層和注意力層。這種方法使得 TNG 團隊生成的 R1T 和 R1T2 這一系列 Chimera 模型能夠繼承推理能力，同時避免了最強父模型的冗長性或延遲問題。

（來源：arXiv）

歐洲企業或面臨使用受限

對于 CTO、AI 平臺所有者、工程主管和 IT 采購團隊而言，R1T2 帶來了切實的益處和戰略選擇：

其一，推理成本更低：由于每項任務的輸出 token 更少，R1T2 減少了 GPU 時間和能耗，直接節省了基礎設施成本，這在高吞吐量或實時環境中尤為重要。

其二，高推理質量無冗余：R1T2 保留了 DeepSeek-R1-0528 等頂級模型的大部分推理能力，但沒有它們冗長的缺點。這非常適合數學、編程、邏輯等結構化任務，在這些任務中，簡潔的答案更受歡迎。

其三，開源且可修改：MIT 許可證允許完全的部署控制和定制，支持在受監管環境或隔離環境中進行私有托管、模型對齊或進一步訓練。

其四，新興的模塊化：AoE 方法預示著一個模型將以模塊化方式構建的未來。在這種未來場景中，企業無需從頭開始重新訓練，而是可以通過重組現有模型的優勢來組裝出專門的變體。

需要注意的是，R1T2 依賴函數調用、工具使用或高級代理編排的企業應注意當前的局限性，盡管未來的 Chimera 更新可能會彌補這些不足。

目前，TNG 團隊已通過 OpenRouter 和 Chutes 等平臺提供了早期的 Chimera 變體，這些平臺每天處理數十億個 token。而 R1T2 的發布標志著這一公開可用性工作的進一步發展。

TNG 團隊指出，盡管該模型非常適合通用推理任務，但由于繼承自 DeepSeek-R1 系列的限制，目前不建議將其用于需要函數調用或工具使用的場景。

作為一家歐洲公司，TNG 團隊還建議歐洲用戶評估其是否符合將于 2025 年 8 月 2 日生效的《歐盟 AI 法案》的規定。在歐盟運營的企業應審查相關規定，若無法滿足要求，則應考慮在該日期后停止使用該模型。

然而，在美國國內運營并為美國用戶或其他國家用戶提供服務的美國公司，不受《歐盟 AI 法案》條款的約束，這將使其在使用和部署這一免費、快速的開源推理模型時擁有相當大的靈活性。但是，如果他們為歐盟用戶提供服務，則《歐盟 AI 法案》中的一些條款仍然適用。

總的來說，之前是國內開發者基于國外模型做變體研究，現在逐漸開始反過來，這也映照了中國科技從跟跑到并肩跑，再到逐漸能起到一定引領作用的大趨勢。

參考資料：

相關論文：https://arxiv.org/pdf/2506.14794

Hugging Face：https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

https://x.com/reach_vb/status/1940536684061643239

https://www.linkedin.com/in/vaibhavs10/

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.