2025 年 4 月 27 日,TNG Technology Consulting GmbH(以下簡稱 TNG Tech)通過其官方 X 賬號發(fā)布了一則重磅消息:全新開源模型 DeepSeek-R1T-Chimera 正式發(fā)布。
這一模型通過創(chuàng)新的構(gòu)建方法,將 DeepSeek AI 的 R1 模型的推理能力與 V3-0324 模型的高效性能相結(jié)合,展現(xiàn)了令人矚目的表現(xiàn)。發(fā)布帖子迅速引發(fā)了技術社區(qū)的廣泛關注和熱烈討論。
大家都在等 DeepSeek-R2, 有沒有想過把 DeepSeek-V3-0324 變成推理模型?
來看這個新模型 DeepSeek-R1T-Chimera,它基于 DeepSeek-R1 構(gòu)建,并使用 DeepSeek-V3-0324 數(shù)據(jù)進行微調(diào)。
模型作者的測試結(jié)果是水平與 DeepSeek-R1 一樣好,但是思考時間顯著變短了,可以當作 DeepSeek-R1 加強版使用。
DeepSeek R1 和 V3-0324 兩個模型“混合產(chǎn)物”,通過一種新穎的構(gòu)建方法(而非傳統(tǒng)的微調(diào)或知識蒸餾)構(gòu)造。Chimera 模型利用了 V3-0324 的共享專家層,并結(jié)合了 R1 和 V3-0324 的路由專家層的定制融合,形成了獨特的混合架構(gòu)。
在性能測試中,DeepSeek-R1T-Chimera 展現(xiàn)了與 R1 相當?shù)闹悄芩剑评硭俣雀欤敵鏊璧?token 數(shù)量減少了 40%。TNG Tech 在帖子中分享了一張對比圖,清晰展示了 Chimera 在智能分數(shù)(AIME & MT-Bench)和推理成本(以 R1 輸出 token 的百分比為基準)上的表現(xiàn)。圖表中,Chimera 位于 R1 和 V3-0324 之間,沿“更智能”和“更快”的方向顯著優(yōu)于兩者,顯示出其在智能與效率之間的平衡優(yōu)勢。
值得注意的是,TNG Tech 提到,他們未在這一混合模型中發(fā)現(xiàn)明顯的缺陷。相比 R1 模型有時冗長且發(fā)散的推理過程,Chimera 的推理和思維過程更加緊湊和有序。這種改進讓技術社區(qū)對模型的潛力充滿期待。
模型的權(quán)重已在 Hugging Face 平臺上開源(盡管因故未能趕上 ICLR 2025 的提交期限)。 https://huggingface.co/tngtech/DeepSeek-R1T-Chimera
V3-0324 模型自 2025 年 3 月發(fā)布以來,因其在高性能消費硬件上的出色表現(xiàn)而備受關注。而 R1 模型則以其強大的推理能力著稱。TNG Tech 通過創(chuàng)新的構(gòu)建方法,將兩者的優(yōu)勢結(jié)合,創(chuàng)造了一個在智能和效率上均表現(xiàn)優(yōu)異的新模型。這種“模塊化”構(gòu)建方式(直接從兩個父模型的神經(jīng)網(wǎng)絡組件中構(gòu)造)為未來的模型開發(fā)提供了新的思路。
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.