99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

阿里大模型Qwen 3.0炸場,多項(xiàng)測試擊敗DeepSeek R1

0
分享至

4月29日,阿里巴巴發(fā)布Qwen 3系列模型,這是Qwen系列大型語言模型的最新成員。此次發(fā)布的模型陣容豐富,包括:2個(gè)稀疏混合專家(MoE)模型:Qwen3-235B-A22B和Qwen3-30B-A3B1,以及6個(gè)密集模型,參數(shù)規(guī)模涵蓋32B至0.6B,均采用Apache許可證。


值得一提的是,Qwen3 系列模型首次支持 119 多種語言,全球開發(fā)者、研究機(jī)構(gòu)和企業(yè)均可免費(fèi)在魔搭社區(qū)、HuggingFace 等平臺(tái)下載模型并商用,也可以通過阿里云百煉調(diào)用 Qwen3 的 API 服務(wù)。個(gè)人用戶可通過通義 APP 直接體驗(yàn) Qwen3,夸克也即將全線接入 Qwen3。

其實(shí)早在Qwen真正發(fā)布之前,社交媒體已經(jīng)先“炸開了鍋”。人們都在期待阿里這次放出個(gè)大招,碾壓OpenAI、谷歌等國外巨頭在AI領(lǐng)域的囂張氣焰。阿里這次也的確做到了。

作為國產(chǎn)開源大模型的扛把子,Qwen系列現(xiàn)在已經(jīng)是全球最火的開源模型,沒有之一——200多個(gè)開源模型、3億次下載、10萬個(gè)衍生模型,直接把Meta的Llama拉下神壇。

Meta最小的Llama 4模型參數(shù)仍達(dá)109B,而Qwen 3的32B版本在開放模型用戶中廣受歡迎。


和“特種部隊(duì)”式的DeepSeek不同,Qwen更像正規(guī)軍:布局早、生態(tài)強(qiáng)、覆蓋面廣。特別是對開發(fā)者特別友好,各種尺寸的模型應(yīng)有盡有,不用自己費(fèi)勁裁剪就能直接用。比如Qwen 13B這個(gè)“爆款”,現(xiàn)在已經(jīng)是AI應(yīng)用開發(fā)者的首選工具之一。

反觀DeepSeek R1雖然技術(shù)實(shí)力無可厚非,但671B參數(shù)的“滿血版”光硬件就要上百萬,普通企業(yè)根本玩不起。這恰恰凸顯了Qwen的實(shí)用價(jià)值——不是一味追求參數(shù)爆炸,而是讓AI真正能用、好用。

具體細(xì)扒模型之前,先看看官方給出的新模型亮點(diǎn):

  • “探索智能上限”再突破:通過擴(kuò)大預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的規(guī)模,實(shí)現(xiàn)了更高層次的智能;
  • 國內(nèi)首個(gè)“混合推理模型”:無縫集成了思考模式與非思考模式,為用戶提供了靈活控制思考預(yù)算的能力;
  • 增強(qiáng)了 Agent 能力:正從專注于訓(xùn)練模型的時(shí)代過渡到以訓(xùn)練 Agent 為中心的時(shí)代。

回歸到模型本身,這系列模型在各項(xiàng)基準(zhǔn)測試中表現(xiàn)如何?

旗艦?zāi)P蚎wen3-235B-A22B在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中,與DeepSeek-R1、OpenAI的(o1、o3-mini)、馬斯克的Grok-3和谷歌公司Gemini-2.5-Pro等頂級(jí)模型相比,表現(xiàn)出極具競爭力的結(jié)果。


此外,小型MoE模型Qwen3-30B-A3B的激活參數(shù)數(shù)量是QwQ-32B的10%,表現(xiàn)更勝一籌,甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。

尤其值得注意的是,性能大幅提升的同時(shí),Qwen3 的部署成本還大幅下降。至于成本低到什么程度呢?答案是 4 張 H20 即可部署滿血版Qwen3,顯存占用僅為性能相近模型的三分之一。


Qwen 團(tuán)隊(duì)包含的基礎(chǔ)模型評(píng)估表明,領(lǐng)先的基礎(chǔ)模型 Llama 4、DeepSeek V3 以及現(xiàn)在的 Qwen 之間的得分非常相似:


目前不同模型之間的關(guān)鍵差異主要體現(xiàn)在訓(xùn)練后的推理功能支持上,特別是在推理時(shí)間計(jì)算方面的優(yōu)化能力,這種優(yōu)化可以將模型的評(píng)估分?jǐn)?shù)從40%顯著提升到80%。

然而,當(dāng)前業(yè)界對"基礎(chǔ)模型"的定義和使用仍存在很大混亂,因?yàn)檫@些模型在實(shí)際應(yīng)用中往往需要經(jīng)歷大量的中期訓(xùn)練過程。在這個(gè)關(guān)鍵的中期訓(xùn)練階段,模型會(huì)接收專門的指令數(shù)據(jù)和推理數(shù)據(jù),這些訓(xùn)練本質(zhì)上都是在為后續(xù)的正式訓(xùn)練后階段做準(zhǔn)備。

但事實(shí)情況是,現(xiàn)在沒有任何主要研究實(shí)驗(yàn)室公開發(fā)表過關(guān)于什么樣的基礎(chǔ)模型才能真正有效支持下游訓(xùn)練后任務(wù)的研究成果。

這一現(xiàn)狀讓我們不得不做出一個(gè)合理推測:所有這些實(shí)驗(yàn)室實(shí)際上都在調(diào)整他們的預(yù)訓(xùn)練策略,主要是為了滿足各自在訓(xùn)練后階段的具體需求,而不是專門針對開放社區(qū)的需求進(jìn)行優(yōu)化——當(dāng)然,開放社區(qū)最終也會(huì)從這些調(diào)整中間接受益。

可以預(yù)見的是,當(dāng)Llama 4不可避免地發(fā)布其推理優(yōu)化模型時(shí)(筆者推測這個(gè)發(fā)布可能近在咫尺),這些模型會(huì)立即重新成為行業(yè)關(guān)注的焦點(diǎn)。

這種推理模型與非推理模型之間存在的顯著性能差距,給跟蹤和評(píng)估各類模型發(fā)布帶來了相當(dāng)大的挑戰(zhàn)。但相信這一挑戰(zhàn)會(huì)隨著更多高性能大模型的發(fā)布而有所改善。

Qwen3是如何訓(xùn)練的?

那說回模型,除了性能和參數(shù)等這些最重要的基本信息外,外界還會(huì)關(guān)注Qwen3系列模型是怎么訓(xùn)練的?

對此,Qwen團(tuán)隊(duì)表示,Qwen3在預(yù)訓(xùn)練數(shù)據(jù)規(guī)模和質(zhì)量上實(shí)現(xiàn)了全面突破。相比前代Qwen2.5的18萬億token訓(xùn)練數(shù)據(jù),Qwen3的訓(xùn)練數(shù)據(jù)量大幅提升至約36萬億token,覆蓋語言種類達(dá)119種,包含多種方言。

更新后的Qwen3的token量幾乎是此前的兩倍,這么大的數(shù)據(jù)集是怎么來的呢?

為構(gòu)建這一超大規(guī)模數(shù)據(jù)集,團(tuán)隊(duì)采用了多維度數(shù)據(jù)采集策略。首先是擴(kuò)展數(shù)據(jù)來源:除常規(guī)網(wǎng)頁數(shù)據(jù)外,首次系統(tǒng)化整合PDF等文檔內(nèi)容,通過Qwen2.5-VL模型進(jìn)行文本提取,并利用Qwen2.5模型對提取內(nèi)容進(jìn)行質(zhì)量優(yōu)化。

其次是提高專業(yè)領(lǐng)域的數(shù)據(jù)比例,針對數(shù)學(xué)與代碼能力短板,創(chuàng)新性使用Qwen2.5-Math和Qwen2.5-Coder生成合成數(shù)據(jù),補(bǔ)充教科書級(jí)內(nèi)容、結(jié)構(gòu)化問答對及高質(zhì)量代碼片段。


此外,團(tuán)隊(duì)設(shè)計(jì)了分階段的訓(xùn)練方案以平衡效率與效果。

首先是基礎(chǔ)能力塑造(S1)階段,模型在30萬億+token數(shù)據(jù)(4K上下文長度)上完成初始訓(xùn)練,建立基礎(chǔ)語言理解與常識(shí)認(rèn)知能力;然后進(jìn)入到專業(yè)能力強(qiáng)化(S2)階段,精選5萬億token高質(zhì)量數(shù)據(jù),顯著提升STEM、編程及邏輯推理等知識(shí)密集型內(nèi)容占比;在最后一個(gè)階段,使用高質(zhì)量的長上下文數(shù)據(jù),將模型的上下文長度擴(kuò)展到了 32K token,使模型具備處理復(fù)雜長文本的實(shí)戰(zhàn)能力。

得益于模型架構(gòu)的持續(xù)優(yōu)化、訓(xùn)練數(shù)據(jù)規(guī)模的成倍擴(kuò)充以及訓(xùn)練方法的效率提升,Qwen3系列稠密基礎(chǔ)模型在整體性能上實(shí)現(xiàn)了質(zhì)的飛躍。

讓人驚喜的是,盡管參數(shù)量明顯減少,Qwen3各尺寸模型卻展現(xiàn)出了與上一代更大規(guī)模模型相當(dāng)甚至更優(yōu)的表現(xiàn)——具體而言,Qwen3-1.7B/4B/8B/14B/32B-Base分別達(dá)到了Qwen2.5-3B/7B/14B/32B/72B-Base的性能水準(zhǔn)。特別是在STEM學(xué)科、編程能力和邏輯推理等關(guān)鍵領(lǐng)域,Qwen3稠密模型更是實(shí)現(xiàn)了對前代更大規(guī)模模型的全面超越,展現(xiàn)出算法優(yōu)化帶來的顯著效益。

簡單來說,Qwen3雖然體型更小,但“本事”更大了。比如Qwen3的1.7B小模型,表現(xiàn)已經(jīng)能趕上之前3B的大模型,而且數(shù)理編程能力還更強(qiáng)。

更值得關(guān)注的是Qwen3系列中的MoE基礎(chǔ)模型,這些模型通過創(chuàng)新的稀疏激活機(jī)制,僅需調(diào)用10%的激活參數(shù)就能實(shí)現(xiàn)與Qwen2.5稠密基礎(chǔ)模型相媲美的性能表現(xiàn),就像是開啟了“省電模式”,平時(shí)只用10%的“腦力”,但效果照樣能媲美老版本的全功率模型。

這種技術(shù)進(jìn)步讓AI模型變得更實(shí)用、更經(jīng)濟(jì)。

說完預(yù)訓(xùn)練,接下來是模型的后訓(xùn)練過程。


為了開發(fā)能夠兼顧逐步推理與快速響應(yīng)的混合模型,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)四階段的后訓(xùn)練流程:第一階段(長鏈?zhǔn)剿季S冷啟動(dòng))使用多樣化的CoT數(shù)據(jù)(涵蓋數(shù)學(xué)、編程、邏輯推理、STEM等任務(wù))對模型進(jìn)行微調(diào),以建立基礎(chǔ)推理能力;第二階段(基于推理的強(qiáng)化學(xué)習(xí))通過擴(kuò)大RL算力規(guī)模并采用基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制,提升模型的探索與利用能力;第三階段(思維模式融合)將CoT數(shù)據(jù)與常規(guī)指令微調(diào)數(shù)據(jù)(由第二階段增強(qiáng)后的模型生成)結(jié)合,使模型融合推理與快速響應(yīng)能力;第四階段(通用強(qiáng)化學(xué)習(xí))在20多個(gè)通用任務(wù)(如指令跟隨、格式遵循、Agent能力等)上進(jìn)一步優(yōu)化模型,增強(qiáng)通用性并修正不良行為。

這一流程逐步提升模型的推理與響應(yīng)能力,最終實(shí)現(xiàn)高效混合表現(xiàn)。

目前,后訓(xùn)練模型(例如 Qwen3-30B-A3B)及其預(yù)訓(xùn)練模型(例如 Qwen3-30B-A3B-Base)都已經(jīng)在 Hugging Face、ModelScope 和 Kaggle 等平臺(tái)上發(fā)布。對于部署,Qwen團(tuán)隊(duì)建議使用 SGLang 和 vLLM 等框架。對于本地使用,他們強(qiáng)烈推薦使用 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等工具。這些選項(xiàng)確保用戶可以輕松地將 Qwen3 集成到他們的工作流程中,無論是在研究、開發(fā)還是生產(chǎn)環(huán)境中。

此外,技術(shù)團(tuán)隊(duì)還表示他們已經(jīng)優(yōu)化了 Qwen3 模型的編碼和代理能力,并增強(qiáng)了對 MCP 的支持。

阿里最新發(fā)布的Qwen3堪稱開源領(lǐng)域的重磅突破,不僅標(biāo)志著中國AI模型的崛起,更在全球范圍內(nèi)樹立了新的標(biāo)桿。目前阿里已累計(jì)開源200多款模型,其千問系列衍生模型數(shù)量突破10萬,規(guī)模超越Meta的Llama系列,成為全球最大的開源模型生態(tài)。

這種突破性在多個(gè)維度得到了體現(xiàn):技術(shù)架構(gòu)層面,其專家混合模型(MoE)設(shè)計(jì)極具能效優(yōu)勢,僅需20-30B規(guī)模的顯存成本即可實(shí)現(xiàn)接近GPT-4的推理能力;部署靈活性層面,提供0.6B到32B全系列密集模型,支持從筆記本測試到多卡集群的無縫擴(kuò)展,且提示詞保持兼容;商業(yè)應(yīng)用層面,據(jù)Venturebeat報(bào)道,企業(yè)可在數(shù)小時(shí)內(nèi)完成從OpenAI到Qwen3的接口切換,大幅降低遷移成本。

Qwen 3發(fā)布后的市場反響甚至突破了之前DeepSeek R1發(fā)布時(shí)給行業(yè)帶來的震撼。在GitHub上發(fā)布后,僅僅不到一天時(shí)間迅速斬獲17.9k星和1.2k分支,用戶口碑與行業(yè)影響力持續(xù)攀升。

如今,大模型競爭已經(jīng)進(jìn)入深水區(qū),光會(huì)刷榜做題已經(jīng)不夠看了。Qwen 3的發(fā)布,就是檢驗(yàn)中國AI實(shí)力的一塊試金石。阿里這次能不能繼續(xù)領(lǐng)跑開源賽道,就看這一仗了!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
阿爾瓦雷斯:一切取決于我們自己,馬競想晉級(jí)必須打進(jìn)3球&不丟球

阿爾瓦雷斯:一切取決于我們自己,馬競想晉級(jí)必須打進(jìn)3球&不丟球

直播吧
2025-06-23 07:49:09
小沈陽女兒接受韓媒采訪,搖頭晃腦韓味十足,普通話都說不利索

小沈陽女兒接受韓媒采訪,搖頭晃腦韓味十足,普通話都說不利索

趣文說娛
2025-06-21 18:13:28
王石再預(yù)測中國未來房地產(chǎn)走向:若無意外,大概率又是對的!

王石再預(yù)測中國未來房地產(chǎn)走向:若無意外,大概率又是對的!

巢客HOME
2025-03-21 09:10:03
43歲農(nóng)民父親陪兒子高考,自己考680分,清華:23年前找過他

43歲農(nóng)民父親陪兒子高考,自己考680分,清華:23年前找過他

磊子講史
2025-06-19 11:22:51
大學(xué)退役!管子煜30+7率北大奪冠 將加盟廣州打CBA曾獲星銳賽MVP

大學(xué)退役!管子煜30+7率北大奪冠 將加盟廣州打CBA曾獲星銳賽MVP

醉臥浮生
2025-06-22 21:45:58
人民日報(bào)官宣!物業(yè)費(fèi)迎來大幅下降,業(yè)內(nèi)預(yù)測:有可能降至0元

人民日報(bào)官宣!物業(yè)費(fèi)迎來大幅下降,業(yè)內(nèi)預(yù)測:有可能降至0元

溫讀史
2025-06-21 17:17:06
國內(nèi)最大的腫瘤醫(yī)療集團(tuán),市值僅剩89億港元

國內(nèi)最大的腫瘤醫(yī)療集團(tuán),市值僅剩89億港元

侃見財(cái)經(jīng)
2025-06-23 07:31:08
佩杜拉:米蘭單筆轉(zhuǎn)會(huì)費(fèi)最高3000萬&薪資300萬,DV9、魔笛可特批

佩杜拉:米蘭單筆轉(zhuǎn)會(huì)費(fèi)最高3000萬&薪資300萬,DV9、魔笛可特批

直播吧
2025-06-23 00:08:12
辛巴首播單場狂賣超40億元 但抖音、快手卻在這個(gè)“618”轉(zhuǎn)向了店播、商城

辛巴首播單場狂賣超40億元 但抖音、快手卻在這個(gè)“618”轉(zhuǎn)向了店播、商城

每日經(jīng)濟(jì)新聞
2025-06-20 21:35:29
拜仁主教練孔帕尼:跟我同齡的梅西還非常猛!且看且珍惜!

拜仁主教練孔帕尼:跟我同齡的梅西還非常猛!且看且珍惜!

氧氣是個(gè)地鐵
2025-06-22 18:46:18
穆里尼奧出馬!8000 萬前鋒租借費(fèi)內(nèi)巴切,能馴服這匹烈馬嗎?

穆里尼奧出馬!8000 萬前鋒租借費(fèi)內(nèi)巴切,能馴服這匹烈馬嗎?

隱于山海
2025-06-23 06:52:41
美媒:小史密斯預(yù)計(jì)將重返首發(fā)陣容,阿門頂替格林位置

美媒:小史密斯預(yù)計(jì)將重返首發(fā)陣容,阿門頂替格林位置

雷速體育
2025-06-23 06:37:15
廣東“心水哥”別墅被拆,看似虧的眼坦坦,實(shí)則獲網(wǎng)友一邊倒支持

廣東“心水哥”別墅被拆,看似虧的眼坦坦,實(shí)則獲網(wǎng)友一邊倒支持

小鬼頭體育
2025-06-22 23:41:55
淚目!伊以沖突之際,上海一支11名伊朗人的旅行團(tuán),上了熱搜

淚目!伊以沖突之際,上海一支11名伊朗人的旅行團(tuán),上了熱搜

消失的電波
2025-06-18 17:39:27
中國女排0-3意大利 球員評(píng)價(jià):3人優(yōu)秀,2人及格,4人低迷

中國女排0-3意大利 球員評(píng)價(jià):3人優(yōu)秀,2人及格,4人低迷

籃球資訊達(dá)人
2025-06-22 22:28:39
再見了章子怡,再見了趙麗穎,中國已告別“影后扛票房”的時(shí)代!

再見了章子怡,再見了趙麗穎,中國已告別“影后扛票房”的時(shí)代!

查爾菲的筆記
2025-06-20 15:41:56
中俄同時(shí)發(fā)聲,王毅劃下紅線:美軍敢炸核設(shè)施,后果自負(fù)

中俄同時(shí)發(fā)聲,王毅劃下紅線:美軍敢炸核設(shè)施,后果自負(fù)

顧蔡衛(wèi)
2025-06-20 15:17:31
中方再次喊話敘利亞,必須鏟除“東突”武裝,朱拉尼別誤判局勢

中方再次喊話敘利亞,必須鏟除“東突”武裝,朱拉尼別誤判局勢

第一軍情
2025-06-22 17:00:03
比恒大還慘!中國第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

比恒大還慘!中國第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

影史侃談
2025-03-16 22:40:07
富婆女主持女兒被騙很慘的瓜

富婆女主持女兒被騙很慘的瓜

熱鬧吃瓜大姐
2025-06-22 21:34:08
2025-06-23 09:00:49
電科技網(wǎng)
電科技網(wǎng)
創(chuàng)新未來,與你同行。
8178文章數(shù) 39893關(guān)注度
往期回顧 全部

科技要聞

特斯拉自駕出租車終于來了!4.2美元一口價(jià)

頭條要聞

萬斯:特朗普在投彈前幾分鐘下達(dá)最終命令

頭條要聞

萬斯:特朗普在投彈前幾分鐘下達(dá)最終命令

體育要聞

中國女排0-3意大利 香港站3勝1負(fù)收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財(cái)經(jīng)要聞

關(guān)稅重磅!美國宣布,今起加征

汽車要聞

首搭華為雙王牌/6月24日預(yù)售 嵐圖FREE+正式下線

態(tài)度原創(chuàng)

教育
藝術(shù)
時(shí)尚
房產(chǎn)
軍事航空

教育要聞

高考填志愿要當(dāng)心,中國軍校不招復(fù)讀生?真相其實(shí)沒那么復(fù)雜

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

就問誰能拒絕得了朱珠?

房產(chǎn)要聞

坑慘2000多人!恒大財(cái)富海南高管被曝非吸12.6億元!

軍事要聞

伊朗:即便核設(shè)施被毀 游戲也遠(yuǎn)未結(jié)束

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 吉首市| 巢湖市| 工布江达县| 陇川县| 津南区| 随州市| 汉源县| 鞍山市| 台东市| 济源市| 梅河口市| 九龙县| 涡阳县| 夏津县| 营山县| 江城| 平舆县| 枣庄市| 璧山县| 化隆| 东辽县| 稻城县| 平邑县| 阿勒泰市| 荆州市| 改则县| 兴文县| 马鞍山市| 苍南县| 成安县| 商南县| 新田县| 涟水县| 信阳市| 行唐县| 陆良县| 婺源县| 垣曲县| 沐川县| 松桃| 高唐县|