DeepSeek-R1+V3左腳踩右腳=又快又好的DeepSeek-R1T-Chimera

2025-05-04 12:00:28　來源: 機器學習與Python社區(qū)

北京舉報

分享至

2025 年 4 月 27 日，TNG Technology Consulting GmbH（以下簡稱 TNG Tech）通過其官方 X 賬號發(fā)布了一則重磅消息：全新開源模型 DeepSeek-R1T-Chimera 正式發(fā)布。

這一模型通過創(chuàng)新的構(gòu)建方法，將 DeepSeek AI 的 R1 模型的推理能力與 V3-0324 模型的高效性能相結(jié)合，展現(xiàn)了令人矚目的表現(xiàn)。發(fā)布帖子迅速引發(fā)了技術社區(qū)的廣泛關注和熱烈討論。

大家都在等 DeepSeek-R2, 有沒有想過把 DeepSeek-V3-0324 變成推理模型？

來看這個新模型 DeepSeek-R1T-Chimera，它基于 DeepSeek-R1 構(gòu)建，并使用 DeepSeek-V3-0324 數(shù)據(jù)進行微調(diào)。

模型作者的測試結(jié)果是水平與 DeepSeek-R1 一樣好，但是思考時間顯著變短了，可以當作 DeepSeek-R1 加強版使用。

DeepSeek R1 和 V3-0324 兩個模型“混合產(chǎn)物”，通過一種新穎的構(gòu)建方法（而非傳統(tǒng)的微調(diào)或知識蒸餾）構(gòu)造。Chimera 模型利用了 V3-0324 的共享專家層，并結(jié)合了 R1 和 V3-0324 的路由專家層的定制融合，形成了獨特的混合架構(gòu)。

在性能測試中，DeepSeek-R1T-Chimera 展現(xiàn)了與 R1 相當?shù)闹悄芩剑评硭俣雀欤敵鏊璧?token 數(shù)量減少了 40%。TNG Tech 在帖子中分享了一張對比圖，清晰展示了 Chimera 在智能分數(shù)（AIME & MT-Bench）和推理成本（以 R1 輸出 token 的百分比為基準）上的表現(xiàn)。圖表中，Chimera 位于 R1 和 V3-0324 之間，沿“更智能”和“更快”的方向顯著優(yōu)于兩者，顯示出其在智能與效率之間的平衡優(yōu)勢。

值得注意的是，TNG Tech 提到，他們未在這一混合模型中發(fā)現(xiàn)明顯的缺陷。相比 R1 模型有時冗長且發(fā)散的推理過程，Chimera 的推理和思維過程更加緊湊和有序。這種改進讓技術社區(qū)對模型的潛力充滿期待。

模型的權(quán)重已在 Hugging Face 平臺上開源（盡管因故未能趕上 ICLR 2025 的提交期限）。 https://huggingface.co/tngtech/DeepSeek-R1T-Chimera

V3-0324 模型自 2025 年 3 月發(fā)布以來，因其在高性能消費硬件上的出色表現(xiàn)而備受關注。而 R1 模型則以其強大的推理能力著稱。TNG Tech 通過創(chuàng)新的構(gòu)建方法，將兩者的優(yōu)勢結(jié)合，創(chuàng)造了一個在智能和效率上均表現(xiàn)優(yōu)異的新模型。這種“模塊化”構(gòu)建方式（直接從兩個父模型的神經(jīng)網(wǎng)絡組件中構(gòu)造）為未來的模型開發(fā)提供了新的思路。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.