99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

德國(guó)團(tuán)隊(duì)基于DeepSeek打造R1T2模型,速度比R1-0528快200%

0
分享至

DeepSeek-R2 姍姍來(lái)遲,業(yè)內(nèi)人士似乎等不及了?這不,德國(guó) TNG Technology Consulting GmbH 公司(下稱 TNG)基于 DeepSeek R1-0528 新版本,推出了一款速度提升 200% 的 DeepSeek-TNG R1T2 Chimera 模型(下稱 R1T2)。R1T2 是一款擁有 6710 億參數(shù)的開(kāi)源混合模型,也是 TNG 團(tuán)隊(duì) Chimera 大模型系列中的最新型號(hào)。DeepSeek-R1-0528 因其擴(kuò)展的思維鏈推理而傾向于給出長(zhǎng)篇大論的詳細(xì)回答,而本次 R1T2 的設(shè)計(jì)更加簡(jiǎn)潔,它在使用明顯更少的詞匯的同時(shí),也能給出同樣智能的回答。另外,R1T2 再次使用了由 TNG 團(tuán)隊(duì)提出的集合專家(AoE,Assembly-of-Experts)方法。


(來(lái)源:arXiv)

值得注意的是,TNG 的聯(lián)合創(chuàng)始人亨利克·克萊格斯(Henrik Klagges)是相關(guān)論文的第一作者,領(lǐng)英頁(yè)面顯示他聯(lián)合創(chuàng)辦 TNG 已有 24 年之久。


圖 | 相關(guān)論文(來(lái)源:arXiv)

1994 年,克萊格斯從英國(guó)牛津大學(xué)畢業(yè)后,于 2001 年創(chuàng)辦了 TNG。目前,該公司擁有 917 名員工,99.9% 的員工為學(xué)術(shù)人員,并且超過(guò) 50% 的員工擁有數(shù)學(xué)、物理和計(jì)算機(jī)科學(xué)的博士學(xué)位。也就是說(shuō),作為一個(gè)基于 DeepSeek 做變體模型的團(tuán)隊(duì),TNG 并不是一個(gè)無(wú)名小卒。


(來(lái)源:領(lǐng)英)

此前,在相關(guān)實(shí)驗(yàn)結(jié)果以及混合專家(MoE,Mixture of Experts)模塊化結(jié)構(gòu)的啟發(fā)之下,TNG 團(tuán)隊(duì)將 DeepSeek-V3-0324 和 DeepSeek-R1 的路由專家張量進(jìn)行合并,由此打造了 DeepSeek-R1T-Chimera 模型(下稱 R1T)。而本次推出的 R1T2 在保留 DeepSeek-R1 推理性能的同時(shí),在效率和速度方面實(shí)現(xiàn)了顯著提升。在不損失或幾乎不損失智能的情況下顯著降低了冗余度,這意味著它能產(chǎn)生更短的響應(yīng),從而能夠直接轉(zhuǎn)化為更快的推理速度和更低的計(jì)算成本。

作為 R1T 的后續(xù)版本,R1T2 還引入了一種新的“Tri-Mind”配置,該配置集成了三個(gè)父模型:DeepSeek-R1-0528、DeepSeek-R1 和 DeepSeek-V3-0324。

據(jù)介紹,R1T2 是在沒(méi)有進(jìn)一步微調(diào)或重新訓(xùn)練的情況下構(gòu)建的,它繼承了 DeepSeek-R1-0528 的推理能力、DeepSeek-R1 的結(jié)構(gòu)化思維模式以及 DeepSeek-V3-0324 的簡(jiǎn)潔指令導(dǎo)向的行為特性,因此是一個(gè)更高效、更強(qiáng)大的模型。

AI 開(kāi)發(fā)者社區(qū)對(duì)此反應(yīng)也比較積極,Hugging Face 的高級(jí)領(lǐng)導(dǎo) Vaibhav(VB)Srivastav 在 X 上寫道:“太棒了!DeepSeek R1T2——比 R1-0528 快 200%,比 R1 快 20%。在 GPQA 和 AIME 24 數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于 R1,并采用 DS V3、R1 和 R1-0528 組合打造了集合專家架構(gòu),而且它使用 MIT 許可協(xié)議,目前已在 Hugging Face 上開(kāi)放。”


(來(lái)源:X)

TNG 團(tuán)隊(duì)提供的基準(zhǔn)比較結(jié)果顯示,在 AIME-24、AIME-25 和 GPQA-Diamond 測(cè)試集的評(píng)估下,R1T2 的推理性能達(dá)到了其最智能父模型 DeepSeek-R1-0528 的 90% 至 92%。

與此同時(shí),TNG 團(tuán)隊(duì)并不側(cè)重于原始處理時(shí)間或每秒處理的 token 數(shù)量,而是以每個(gè)答案的輸出 token 數(shù)量來(lái)衡量“速度”,他們將這視為一種能夠同時(shí)反映成本和延遲的實(shí)用指標(biāo)。R1T2 生成響應(yīng)所需的 token 量大約為 DeepSeek-R1-0528 的 40%,這意味著輸出長(zhǎng)度減少了 60%,從而能夠直接減少推理時(shí)間和計(jì)算負(fù)載,進(jìn)而能使響應(yīng)速度提高 200%。與原始的 DeepSeek-R1 相比,R1T2 的平均簡(jiǎn)潔度也提高了約 20%,這為高通量或成本敏感的部署帶來(lái)了顯著的效率提升。并且,這種高效性并未以犧牲智能為代價(jià)。正如 TNG 團(tuán)隊(duì)的基準(zhǔn)圖表所展示的,R1T2 在“智能 vs. 輸出成本”曲線上處于一個(gè)理想?yún)^(qū)域。它在保持推理質(zhì)量的同時(shí)能夠大幅減少冗余輸出,這一特性對(duì)于那些對(duì)推理速度、吞吐率和成本都有嚴(yán)格要求的企業(yè)級(jí)應(yīng)用至關(guān)重要。


(來(lái)源:arXiv)



集合專家與混合專家有何不同?

如前所述,TNG 團(tuán)隊(duì)曾提出了集合專家(AoE,Assembly-of-Experts)方法,這是一種通過(guò)有選擇地合并多個(gè)預(yù)訓(xùn)練模型的權(quán)重張量(內(nèi)部參數(shù))來(lái)構(gòu)建大模型的技術(shù)。

很多人對(duì)于混合專家(MoE,Mixture-of-Experts)并不陌生,MoE 是一種架構(gòu)設(shè)計(jì),其中不同的組件或“專家”會(huì)根據(jù)輸入有條件地被激活。對(duì)于典型的 MoE 大模型比如 DeepSeek-V3 和 Mixtral來(lái)說(shuō),在任何給定 token 的前向傳遞過(guò)程中,只有模型專家層的一個(gè)子集處于活動(dòng)狀態(tài)(例如,256 個(gè)中的 8 個(gè))。這使得超大規(guī)模模型在實(shí)現(xiàn)更高參數(shù)量和更強(qiáng)專業(yè)化的同時(shí),仍能保持可控的推理成本,因?yàn)槊總€(gè) token 只需激活網(wǎng)絡(luò)中的一小部分子模塊。

在預(yù)訓(xùn)練期間,大模型計(jì)算一個(gè) 8 位權(quán)重需要 10^13 至 10^15 次浮點(diǎn)運(yùn)算(FLOPs,F(xiàn)loating-Point Operations),不僅成本極高而且效率低下。正是為了更好地利用對(duì)預(yù)訓(xùn)練模型的大量投資,TNG 團(tuán)隊(duì)開(kāi)發(fā)了 AoE。AoE 是一種模型融合技術(shù),而非一種架構(gòu)。它通過(guò)有選擇地插值多個(gè)預(yù)訓(xùn)練的 MoE 模型的權(quán)重張量,以用于從這些模型中創(chuàng)建一個(gè)新模型。

該方法能夠在線性時(shí)間內(nèi)創(chuàng)建現(xiàn)有 MoE 父模型的高效子模型變體。模型權(quán)重張量會(huì)被單獨(dú)進(jìn)行插值處理,從而能夠增強(qiáng)或抑制父模型的語(yǔ)義特征。通過(guò)改變從父模型中提取的權(quán)重比例,TNG 團(tuán)隊(duì)觀察到 AoE 子模型的一些特性會(huì)逐漸變化,而其他行為特征則會(huì)發(fā)生急劇轉(zhuǎn)變。

另?yè)?jù)悉,AoE 中的“專家”指的是正在合并的模型組件,通常是 MoE 層中路由的專家張量,而非在運(yùn)行時(shí)動(dòng)態(tài)激活的專家。TNG 團(tuán)隊(duì)對(duì)于 AoE 的實(shí)現(xiàn)主要側(cè)重于合并路由專家張量,這是模型中負(fù)責(zé)專門推理的部分,同時(shí)通常會(huì)保留來(lái)自 DeepSeek-V3-0324 等更快模型中更高效的共享層和注意力層。這種方法使得 TNG 團(tuán)隊(duì)生成的 R1T 和 R1T2 這一系列 Chimera 模型能夠繼承推理能力,同時(shí)避免了最強(qiáng)父模型的冗長(zhǎng)性或延遲問(wèn)題。


(來(lái)源:arXiv)



歐洲企業(yè)或面臨使用受限

對(duì)于 CTO、AI 平臺(tái)所有者、工程主管和 IT 采購(gòu)團(tuán)隊(duì)而言,R1T2 帶來(lái)了切實(shí)的益處和戰(zhàn)略選擇:

其一,推理成本更低:由于每項(xiàng)任務(wù)的輸出 token 更少,R1T2 減少了 GPU 時(shí)間和能耗,直接節(jié)省了基礎(chǔ)設(shè)施成本,這在高吞吐量或?qū)崟r(shí)環(huán)境中尤為重要。

其二,高推理質(zhì)量無(wú)冗余:R1T2 保留了 DeepSeek-R1-0528 等頂級(jí)模型的大部分推理能力,但沒(méi)有它們?nèi)唛L(zhǎng)的缺點(diǎn)。這非常適合數(shù)學(xué)、編程、邏輯等結(jié)構(gòu)化任務(wù),在這些任務(wù)中,簡(jiǎn)潔的答案更受歡迎。

其三,開(kāi)源且可修改:MIT 許可證允許完全的部署控制和定制,支持在受監(jiān)管環(huán)境或隔離環(huán)境中進(jìn)行私有托管、模型對(duì)齊或進(jìn)一步訓(xùn)練。

其四,新興的模塊化:AoE 方法預(yù)示著一個(gè)模型將以模塊化方式構(gòu)建的未來(lái)。在這種未來(lái)場(chǎng)景中,企業(yè)無(wú)需從頭開(kāi)始重新訓(xùn)練,而是可以通過(guò)重組現(xiàn)有模型的優(yōu)勢(shì)來(lái)組裝出專門的變體。

需要注意的是,R1T2 依賴函數(shù)調(diào)用、工具使用或高級(jí)代理編排的企業(yè)應(yīng)注意當(dāng)前的局限性,盡管未來(lái)的 Chimera 更新可能會(huì)彌補(bǔ)這些不足。

目前,TNG 團(tuán)隊(duì)已通過(guò) OpenRouter 和 Chutes 等平臺(tái)提供了早期的 Chimera 變體,這些平臺(tái)每天處理數(shù)十億個(gè) token。而 R1T2 的發(fā)布標(biāo)志著這一公開(kāi)可用性工作的進(jìn)一步發(fā)展。

TNG 團(tuán)隊(duì)指出,盡管該模型非常適合通用推理任務(wù),但由于繼承自 DeepSeek-R1 系列的限制,目前不建議將其用于需要函數(shù)調(diào)用或工具使用的場(chǎng)景。

作為一家歐洲公司,TNG 團(tuán)隊(duì)還建議歐洲用戶評(píng)估其是否符合將于 2025 年 8 月 2 日生效的《歐盟 AI 法案》的規(guī)定。在歐盟運(yùn)營(yíng)的企業(yè)應(yīng)審查相關(guān)規(guī)定,若無(wú)法滿足要求,則應(yīng)考慮在該日期后停止使用該模型。

然而,在美國(guó)國(guó)內(nèi)運(yùn)營(yíng)并為美國(guó)用戶或其他國(guó)家用戶提供服務(wù)的美國(guó)公司,不受《歐盟 AI 法案》條款的約束,這將使其在使用和部署這一免費(fèi)、快速的開(kāi)源推理模型時(shí)擁有相當(dāng)大的靈活性。但是,如果他們?yōu)闅W盟用戶提供服務(wù),則《歐盟 AI 法案》中的一些條款仍然適用。

總的來(lái)說(shuō),之前是國(guó)內(nèi)開(kāi)發(fā)者基于國(guó)外模型做變體研究,現(xiàn)在逐漸開(kāi)始反過(guò)來(lái),這也映照了中國(guó)科技從跟跑到并肩跑,再到逐漸能起到一定引領(lǐng)作用的大趨勢(shì)。

參考資料:

相關(guān)論文:https://arxiv.org/pdf/2506.14794

Hugging Face:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

https://x.com/reach_vb/status/1940536684061643239

https://www.linkedin.com/in/vaibhavs10/

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美媒攤牌:2025年至關(guān)重要,一旦制裁無(wú)效,美國(guó)有可能和中國(guó)動(dòng)手

美媒攤牌:2025年至關(guān)重要,一旦制裁無(wú)效,美國(guó)有可能和中國(guó)動(dòng)手

潮鹿逐夢(mèng)
2025-07-05 10:14:46
詹皇心腹叛變!靈魂拷問(wèn)勒布朗為何不降5000萬(wàn),難怪湖人不慣著他

詹皇心腹叛變!靈魂拷問(wèn)勒布朗為何不降5000萬(wàn),難怪湖人不慣著他

嘴炮體壇
2025-07-04 19:17:07
“上菜就像端地雷”,河南一暑假工走紅,飯店老板:舍不得兇他,都是孩子過(guò)來(lái)的

“上菜就像端地雷”,河南一暑假工走紅,飯店老板:舍不得兇他,都是孩子過(guò)來(lái)的

瀟湘晨報(bào)
2025-07-04 17:18:08
DeepSeek流量暴跌?AI大模型全球霸主離奇遇冷,外媒曝出真相

DeepSeek流量暴跌?AI大模型全球霸主離奇遇冷,外媒曝出真相

新智元
2025-07-04 18:58:26
湖人撿到寶!火箭有望史密斯互換惠特莫爾,優(yōu)質(zhì)鋒線終于等到

湖人撿到寶!火箭有望史密斯互換惠特莫爾,優(yōu)質(zhì)鋒線終于等到

湖人侃球師
2025-07-04 09:47:25
越南騙了中國(guó),犧牲中越合作,換美減稅26%,商務(wù)部著手評(píng)估

越南騙了中國(guó),犧牲中越合作,換美減稅26%,商務(wù)部著手評(píng)估

近史博覽
2025-07-04 16:08:36
生姜立大功?浙大研究發(fā)現(xiàn):生姜可在36小時(shí)清除70%老化細(xì)胞?

生姜立大功?浙大研究發(fā)現(xiàn):生姜可在36小時(shí)清除70%老化細(xì)胞?

醫(yī)學(xué)原創(chuàng)故事會(huì)
2025-07-04 23:20:09
一覺(jué)醒來(lái),張凱麗天都塌了!27歲女兒上了一檔綜藝,老臉卻丟盡了

一覺(jué)醒來(lái),張凱麗天都塌了!27歲女兒上了一檔綜藝,老臉卻丟盡了

心靜物娛
2025-07-05 10:20:53
裁員2萬(wàn),日虧1億,“車圈恒大”真的出現(xiàn)了!

裁員2萬(wàn),日虧1億,“車圈恒大”真的出現(xiàn)了!

花朵財(cái)經(jīng)
2025-07-04 18:21:45
9.3閱兵邀請(qǐng)嘉賓名單有變!李在明要來(lái),特朗普不來(lái),日本很在意

9.3閱兵邀請(qǐng)嘉賓名單有變!李在明要來(lái),特朗普不來(lái),日本很在意

掌青說(shuō)歷史
2025-07-02 18:19:58
為什么很多中年女人會(huì)出軌成癮?

為什么很多中年女人會(huì)出軌成癮?

英軍眼
2025-07-05 10:32:31
太離譜!“小區(qū)內(nèi)竟要修路114公里”,5000多戶的超級(jí)大盤,近1200萬(wàn)元維修金成了某些人的“提款機(jī)”!業(yè)委會(huì)原主任被抓

太離譜!“小區(qū)內(nèi)竟要修路114公里”,5000多戶的超級(jí)大盤,近1200萬(wàn)元維修金成了某些人的“提款機(jī)”!業(yè)委會(huì)原主任被抓

每日經(jīng)濟(jì)新聞
2025-07-03 23:17:14
馬云現(xiàn)身法國(guó),乘坐豪華游艇出海游玩,戴白色草帽和墨鏡超有范

馬云現(xiàn)身法國(guó),乘坐豪華游艇出海游玩,戴白色草帽和墨鏡超有范

涵豆說(shuō)娛
2025-07-05 10:32:18
刀郎忍無(wú)可忍!和云朵“新仇舊恨”一起算,徹底撕碎了云朵的體面

刀郎忍無(wú)可忍!和云朵“新仇舊恨”一起算,徹底撕碎了云朵的體面

大笑江湖史
2025-07-04 07:58:12
為什么《征服》全員抽煙,《狂飆》沒(méi)人抽煙

為什么《征服》全員抽煙,《狂飆》沒(méi)人抽煙

草莓解說(shuō)體育
2025-07-04 16:19:55
《歌手》第8期皆大歡喜!米奇第一,李佳薇太驚艷,兩組歌手出局

《歌手》第8期皆大歡喜!米奇第一,李佳薇太驚艷,兩組歌手出局

水中燒烤的娛
2025-07-04 22:27:27
女孩挺5月孕肚結(jié)婚還傻笑,父母臉都黑了,網(wǎng)友:真不省心!

女孩挺5月孕肚結(jié)婚還傻笑,父母臉都黑了,網(wǎng)友:真不省心!

農(nóng)村情感故事
2025-07-04 12:18:26
女子不愿浪費(fèi)基因,13年生9娃,丈夫身份曝光后,網(wǎng)友:原來(lái)如此

女子不愿浪費(fèi)基因,13年生9娃,丈夫身份曝光后,網(wǎng)友:原來(lái)如此

諾言卿史錄
2025-07-04 09:15:54
遼寧后天暴雨來(lái)襲!11地高溫悶煮后迎200毫米降水

遼寧后天暴雨來(lái)襲!11地高溫悶煮后迎200毫米降水

妤你望春山
2025-07-05 08:35:08
細(xì)思極恐,巴薩如果答應(yīng)尼科的要求,可能會(huì)人財(cái)兩空

細(xì)思極恐,巴薩如果答應(yīng)尼科的要求,可能會(huì)人財(cái)兩空

老樂(lè)說(shuō)球
2025-07-05 10:01:51
2025-07-05 11:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15372文章數(shù) 513850關(guān)注度
往期回顧 全部

科技要聞

馬斯克吹上天的Cybertruck 為何"徹底失敗"

頭條要聞

牛彈琴:人類的大麻煩來(lái)了 地球向人類發(fā)出"警告"

頭條要聞

牛彈琴:人類的大麻煩來(lái)了 地球向人類發(fā)出"警告"

體育要聞

史上最真實(shí)的F1電影,是怎么拍出來(lái)的?

娛樂(lè)要聞

汪小菲反擊!曝向具俊曄提出財(cái)產(chǎn)追回

財(cái)經(jīng)要聞

特朗普簽署 美國(guó)萬(wàn)億減稅支出法來(lái)了

汽車要聞

比亞迪海豹06GT智駕版新車商品性評(píng)價(jià)

態(tài)度原創(chuàng)

藝術(shù)
家居
親子
房產(chǎn)
健康

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

合理布局 三口之家的溫馨空間

親子要聞

天殺的!天水幼兒園鉛中毒家長(zhǎng)發(fā)聲,2娃昏迷,園長(zhǎng)經(jīng)營(yíng)4所幼兒園

房產(chǎn)要聞

重磅發(fā)布!海南樓市2025上半年Top10榜單出爐!

呼吸科專家破解呼吸道九大謠言!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 千阳县| 盐津县| 论坛| 高陵县| 宁乡县| 青岛市| 峨边| 新民市| 浮梁县| 陵川县| 宝应县| 福海县| 沐川县| 金坛市| 湖口县| 东港市| 米林县| 黔南| 宁津县| 抚顺市| 临泉县| 东山县| 宁都县| 邢台市| 布尔津县| 昭苏县| 云南省| 兴化市| 酉阳| 哈密市| 泸定县| 监利县| 丹阳市| 甘肃省| 郴州市| 会昌县| 陈巴尔虎旗| 新蔡县| 肃北| 广安市| 富锦市|