99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Qwen3 發布,第一時間詳解:性能、突破、訓練方法、版本迭代...

0
分享至

今天凌晨,Qwen3發布


圖片來源:我畫的

介于 DeepSeek 和 OpenAI 暫無動靜,Qwen 算是把頭條保住了,恭喜~

本文量大管飽、一次滿足:發布內容實際體驗訓練細節,和Qwen 發展回顧

發布內容

本次發布,包含 MoE 和 Dense 兩種架構:
MoE:有 30B(3B激活)和 235B(22B激活)兩種。
Dense:包含 0.6B、1.7B、4B、8B、14B 和 32B 這六款

本次發布的旗艦模型是 Qwen3-235B-A22B,后綴 235B 指的是模型大小 235B,A22B 指的是激活參數 22B。

在代碼、數學、通用能力等基準測試中,這個235B 的 Qwen3,水平超過 671B 的 DeepSeek R1


Qwen3 vs DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro。 對于小一點的 MoE 模型:Qwen3-30B-A3B,其激活量只有 QwQ-32B 的 10%,其表現超過 DeepSeek V3/GPT-4o
Qwen3-4B 這樣的小模型,也能匹敵 Qwen2.5-72B-Instruct 「思考模式」的無縫切換

在我看來,在功能層面,Qwen3 最顯著的更新,是引入了「思考模式/非思考模式」的無縫切換。

思考模式的輸出方式,類似 DeepSeek R1,模型會逐步推理,經過深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復雜問題。

非思考模式則更類似 DeepSeek V3,提供快速的即時響應,適用于那些簡單問題。

通過這種方式,用戶能夠根據具體需求,來控制模型的“思考”的程度,做到效果、成本、時間上的平衡。


在不同思考深度下,模型的得分情況 掌握多種語言

Qwen2 支持 29 種語言


中英文 + 27 種其他語言

Qwen3 支持了 119 個語種和方言


Qwen3 支持的語種和方言 更強的 Agent 能力

本次 Qwen3 的更新,還體現在了 Agent 和 代碼能力,同時也加強了對 MCP 的支持。

值得一提的是,Qwen 有一個配套的 Qwen-Agent 項目,可以方便地使用 API 進行工具調用,或結合現有的工具鏈進行擴展

Qwen3,對 MCP 有了更好的支持 實際體驗

接下來用兩個個例子,直觀的展示本次 Qwen3 的能力變化

當然了,你也可以訪問 Qwen 的網站,來直接體驗
https://chat.qwen.ai/

長/短思考
對于是否思考,你可以開啟/關閉,以及設定的長度也可以讓他講講人生道理 代碼能力

所謂原湯化原食,讓他給本文做個可視化,美感還是在線的


讓英雄查英雄,讓 Qwen3 畫 Qwen3 訓練細節

接下來,讓我們看看這個模型是怎么訓出來的,過程上包括預訓練后訓練

預訓練

先做一個基礎的了解:

Qwen2.5 的訓練數據,是在 18 萬億 token Qwen3 的訓練數據翻倍:約 36 萬億個 token,涵蓋了 119 種語言和方言。

這些數據,一方面是來自于互聯網信息的收集,一方面則是通過 Qwen2.5-VL 來從各 PDF 中來提取內容,再通過 Qwen2.5 改進質量。為了補充數學和編程領域的訓練數據,Qwen2.5-Math 和 Qwen2.5-Coder 被用來生成合成數據

在預訓練中,有三個階段:

第一階段,模型在30萬億tokens的數據上預訓練,使用4K的上下文長度,這一階段主要是幫助模型建立基本的語言技能和常識理解。

第二階段,增強了STEM領域(科學、技術、工程、數學)和編程任務的訓練,增加了5萬億tokens的數據量,進一步提升模型的推理能力。

第三階段,通過加入高質量的長文本數據,擴展了上下文長度到32K,讓Qwen3能夠處理更長的輸入,例如長篇文章或復雜的對話。


訓練出來,大概就是這么個效果

通過這些步驟,Qwen3的Dense基礎模型在性能上達到了Qwen2.5更大模型的水平。例如,Qwen3-1.7B、4B、8B、14B、32B等版本的表現,和Qwen2.5的3B、7B、14B、32B、72B相當。而Qwen3的MoE模型,則只用了10%的激活參數,便能提供同樣的推理能力,極大地節省了計算資源。

后訓練

Qwen3的后訓練是讓模型實現“逐步推理”和“快速響應”的關鍵。團隊通過四個階段的優化,使得Qwen3不僅在復雜任務中有出色表現,在簡單任務中也能快速給出答案。

第一階段:長鏈推理冷啟動:這一步通過微調多樣化的推理數據,讓模型具備了處理復雜任務的基本能力,包括數學、編程和邏輯推理等任務。

第二階段:強化學習(RL):第二階段利用強化學習進一步提升模型的推理能力,讓模型能夠在面對復雜任務時更加高效地尋找最佳答案。

第三階段:思考模式和非思考模式融合:這一創新允許模型在面對不同任務時,靈活切換“思考模式”和“非思考模式”。思考模式下,模型逐步推理,適合復雜問題;而非思考模式下,模型則能快速作出反應,適合日常對話和簡單問題。

第四階段:通用任務強化學習:最后階段,通過對20多個常見任務的強化學習微調,確保了Qwen3能夠在不同應用場景下靈活應對,包括指令跟隨、格式化輸出和智能代理能力等。


流程化成圖,大概是這樣

通過這一系列后訓練,使得 Qwen3 掌握了思考模式,以及更好的工具調用能力。

Qwen 發展歷史回顧

阿里最早推出的AI,叫做通義千問,最早出現在2023年4月


在那時,叫做「通義千問大模型」

那時,它還是阿里云的閉源模型,定位類似 ChatGPT,為企業客戶提供服務,并不開放源碼。

2023年8月初,Qwen 開源首個開源的 Qwen 模型

23年8月,阿里開源了兩個新模型,Qwen-7BQwen-7B-Chat,在 ModelScope 和 Hugging Face 同時上線,以 Apache 2.0 的方式開源,Tech Report 也一并放出。

這一次,也是“Qwen”這一名稱首次被啟用,主要面向開源社區,追求開源可用性、輕量部署、廣泛適配;

2023年9月底,Qwen-14B 發布


緊接著,Qwen-14B 開源

相比 Qwen-7B,Qwen-14B 訓練量更大,中文能力、代碼生成、長文本推理都有明顯提升

同期,阿里開源了 qwen.cpp、Qwen-Agent,工具鏈和應用框架開始成型。

那段時間,Qwen-7B 的訓練也做了補強,tokens 從 2.2T 加到了 2.4T,上下文長度擴展到了 8K。

2023年11月底,Qwen-72B 上線

這是一版旗艦規模的模型,參數量拉到 720億,預訓練數據達到了 3萬億 tokens。

這個版本的 Qwen,原生支持 32K 上下文,在中文推理、復雜數學、多輪對話上的表現明顯更穩了。

小型號也同步補了:Qwen-1.8B,面對邊緣側和輕量場景進行適配。

一波下來,Qwen把從1B到72B的參數區間基本打通了。

2024年春節期間,Qwen1.5


去年春節的時候,Qwen1.5 亮相

大過年的,Qwen1.5 發布,在基礎上做了深度優化,主要是底層結構調整、訓練對齊增強。

同一階段,還放出了第一版 MoE 架構的 Qwen1.5-MoE-A2.7B,推理成本壓下來了,但推理鏈條拉得更長。

24年6月初,Qwen2Qwen2,一個頗具影響力的版本

Qwen2 算是換了新的底盤: 預訓練數據量大幅擴張,推理能力、代碼生成、長文本處理全部提升。

首批放出了 7B、32B、72B 三個尺寸,全覆蓋了中大型場景。

2024年9月中,Qwen2.5 接棒


這里是一些描述

新加了3B、14B、32B三個尺寸,適配更多硬件資源。

同步發了 MoE版,優化了推理稀疏度,同時放出了Qwen2.5-Omni,一個能統一文本、圖像、音頻、視頻處理的多模態模型。

那時候,Qwen2.5-7B 和 Omni-7B 在 Hugging Face 開源榜單上連續多周霸榜。

2025年4月底,Qwen3 到來


今天,Qwen3 開源

這一次,Qwen3 系列從 Dense 和 MoE 兩條線同步推進,從 0.6B 覆蓋到了 235B。

訓練過程中,第一次引入了漸進式長文本預訓練長文本后訓練,超長文本處理做了系統級的優化。

推理任務上,模型內部支持了思考模式 / 非思考模式的無縫切換,單個模型內可以根據復雜度自動適配推理鏈路。

同時的,這個版本的模型,對外部工具的調用能力得到加強,為接下來的 Agent 大戰做足準備。

最后

從2023年4月,通義千問首次亮相,到2025年4月,Qwen3全面發布,短短兩年,三代更新,阿里一步步把自己的大模型打磨到了世界頂級水準

從最初的閉源探索,到如今 Dense、MoE 雙線并進、思考模式無縫切換、超長文本系統優化……每個節點,都是硬仗

不多煽情,但還想說一聲:這一路,真的不容易

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
林彪去世40周年后,他的墓前出現了七個人,來看都是誰?

林彪去世40周年后,他的墓前出現了七個人,來看都是誰?

歷史1949
2025-01-19 22:21:37
好萊塢大片上映,日票房擊敗《哪吒2》,奪下第二!

好萊塢大片上映,日票房擊敗《哪吒2》,奪下第二!

熱薦電影
2025-04-30 23:36:46
受關稅沖擊影響,美科技巨頭發出悲觀聲音

受關稅沖擊影響,美科技巨頭發出悲觀聲音

參考消息
2025-05-03 17:17:08
美媒:馬斯克不再在白宮辦公后,特朗普最新演講出人意料“挖苦”他

美媒:馬斯克不再在白宮辦公后,特朗普最新演講出人意料“挖苦”他

環球網資訊
2025-05-02 15:54:48
現在手握大量現金的人,要偷笑了,原因有這兩點

現在手握大量現金的人,要偷笑了,原因有這兩點

娛樂八卦木木子
2025-04-30 01:50:43
日媒:日本隊不會主場放水印尼做掉中國隊 因為那樣太丟人

日媒:日本隊不會主場放水印尼做掉中國隊 因為那樣太丟人

kio魚
2025-05-03 09:22:36
特朗普愿意和解?中國商務部爆出內幕!中美關稅戰或迎變局?

特朗普愿意和解?中國商務部爆出內幕!中美關稅戰或迎變局?

不凍港來了
2025-05-02 21:40:58
朱珠在北京家中設宴,老公親自下廚,吃西餐喝紅酒,看起來好高雅

朱珠在北京家中設宴,老公親自下廚,吃西餐喝紅酒,看起來好高雅

顧蔡衛
2025-05-02 14:58:57
妻子瞞著丈夫和男同事旅游,7天后回家,丈夫:他有艾滋你知道嗎

妻子瞞著丈夫和男同事旅游,7天后回家,丈夫:他有艾滋你知道嗎

蘭姐說故事
2025-05-03 15:00:11
川普原地掉頭,通過波蘭轉運F16

川普原地掉頭,通過波蘭轉運F16

難得君
2025-05-03 15:45:36
奧沙利文:趙心童配得上勝利,我的狀態已經糟糕一段時間了

奧沙利文:趙心童配得上勝利,我的狀態已經糟糕一段時間了

懂球帝
2025-05-03 05:04:32
32個選秀權+新雷霆三少!普雷斯蒂封神:7年內全聯盟都得看他臉色

32個選秀權+新雷霆三少!普雷斯蒂封神:7年內全聯盟都得看他臉色

籃球小布丁
2025-05-03 09:51:21
烈火英雄!廣東干部掰車門救人,縣委書記登門慰問,央視專門報道

烈火英雄!廣東干部掰車門救人,縣委書記登門慰問,央視專門報道

特特農村生活
2025-05-03 08:49:06
香港知名歌手緊急入住ICU,高燒多日不退,醫生稱已無藥可救

香港知名歌手緊急入住ICU,高燒多日不退,醫生稱已無藥可救

東方不敗然多多
2025-05-02 12:51:15
被班主任誣陷作弊,從此我天天考0分,高考結束后卻被清北錄取

被班主任誣陷作弊,從此我天天考0分,高考結束后卻被清北錄取

黃家湖的憂傷
2025-04-30 17:09:56
謝浩男缺席家庭聚會,小妹一句話曝光大妹的現狀,進退兩難

謝浩男缺席家庭聚會,小妹一句話曝光大妹的現狀,進退兩難

娛貝勒
2025-05-03 16:21:22
當服務員、擺地攤!前TVB女星在東莞打工求生:我是一個要贍養父母、交房租的普通人

當服務員、擺地攤!前TVB女星在東莞打工求生:我是一個要贍養父母、交房租的普通人

魯中晨報
2025-05-03 07:24:04
劉源夫人魏珍的罕見留影,五官端正長相大氣,不輸年輕時的王光美

劉源夫人魏珍的罕見留影,五官端正長相大氣,不輸年輕時的王光美

萬物知識圈
2025-05-02 08:35:11
《妻子的浪漫旅行2025》加更,餐桌文化差異大,購物習慣大不同

《妻子的浪漫旅行2025》加更,餐桌文化差異大,購物習慣大不同

娛娛魚
2025-05-03 15:49:08
Shams:76歲波波維奇將不再擔任馬刺隊主教練,將全職擔任籃球運營總裁

Shams:76歲波波維奇將不再擔任馬刺隊主教練,將全職擔任籃球運營總裁

雷速體育
2025-05-03 00:02:34
2025-05-03 17:55:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
34文章數 4關注度
往期回顧 全部

科技要聞

特朗普下手,英偉達對華“特供版”要改

頭條要聞

五一黃金"跳水"引爆搶購潮 有游客拖箱到水貝市場掃貨

頭條要聞

五一黃金"跳水"引爆搶購潮 有游客拖箱到水貝市場掃貨

體育要聞

北京請神馬布里?許利民真有“玄學”!

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

巴菲特年度盛會,六大看點前曕!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態度原創

游戲
旅游
時尚
本地
數碼

"PS10"與PS5對比太吸睛!玩家花式曬搞笑對比圖

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

解鎖夏季“白開水穿搭”新玩法,時尚達人都在藏的秘訣

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

數碼要聞

洛圖科技:2025 年 Q1 中國電子紙平板銷量達 41.7 萬臺

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临湘市| 微博| 黔西县| 曲水县| 深水埗区| 耿马| 湾仔区| 随州市| 吴忠市| 永吉县| 长春市| 东丰县| 河池市| 吉隆县| 吉木乃县| 博湖县| 通榆县| 屏南县| 兴文县| 迁安市| 墨脱县| 海丰县| 宜黄县| 南投县| 金沙县| 鲁甸县| 威信县| 罗山县| 夏津县| 萍乡市| 赞皇县| 澜沧| 凉山| 海晏县| 陇川县| 隆安县| 吉林省| 绿春县| 乃东县| 牙克石市| 嘉义市|