2025 年 4 月 27 日,TNG Technology Consulting GmbH(以下簡稱 TNG Tech)通過其官方 X 賬號發布了一則重磅消息:全新開源模型 DeepSeek-R1T-Chimera 正式發布。
這一模型通過創新的構建方法,將 DeepSeek AI 的 R1 模型的推理能力與 V3-0324 模型的高效性能相結合,展現了令人矚目的表現。發布帖子迅速引發了技術社區的廣泛關注和熱烈討論。
大家都在等 DeepSeek-R2, 有沒有想過把 DeepSeek-V3-0324 變成推理模型?
來看這個新模型 DeepSeek-R1T-Chimera,它基于 DeepSeek-R1 構建,并使用 DeepSeek-V3-0324 數據進行微調。
模型作者的測試結果是水平與 DeepSeek-R1 一樣好,但是思考時間顯著變短了,可以當作 DeepSeek-R1 加強版使用。
DeepSeek R1 和 V3-0324 兩個模型“混合產物”,通過一種新穎的構建方法(而非傳統的微調或知識蒸餾)構造。Chimera 模型利用了 V3-0324 的共享專家層,并結合了 R1 和 V3-0324 的路由專家層的定制融合,形成了獨特的混合架構。
在性能測試中,DeepSeek-R1T-Chimera 展現了與 R1 相當的智能水平,但推理速度更快,輸出所需的 token 數量減少了 40%。TNG Tech 在帖子中分享了一張對比圖,清晰展示了 Chimera 在智能分數(AIME & MT-Bench)和推理成本(以 R1 輸出 token 的百分比為基準)上的表現。圖表中,Chimera 位于 R1 和 V3-0324 之間,沿“更智能”和“更快”的方向顯著優于兩者,顯示出其在智能與效率之間的平衡優勢。
值得注意的是,TNG Tech 提到,他們未在這一混合模型中發現明顯的缺陷。相比 R1 模型有時冗長且發散的推理過程,Chimera 的推理和思維過程更加緊湊和有序。這種改進讓技術社區對模型的潛力充滿期待。
模型的權重已在 Hugging Face 平臺上開源(盡管因故未能趕上 ICLR 2025 的提交期限)。 https://huggingface.co/tngtech/DeepSeek-R1T-Chimera
V3-0324 模型自 2025 年 3 月發布以來,因其在高性能消費硬件上的出色表現而備受關注。而 R1 模型則以其強大的推理能力著稱。TNG Tech 通過創新的構建方法,將兩者的優勢結合,創造了一個在智能和效率上均表現優異的新模型。這種“模塊化”構建方式(直接從兩個父模型的神經網絡組件中構造)為未來的模型開發提供了新的思路。
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.