99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Qwen3 發布,第一時間詳解:性能、突破、訓練方法、版本迭代...

0
分享至

今天凌晨,Qwen3發布


圖片來源:我畫的

介于 DeepSeek 和 OpenAI 暫無動靜,Qwen 算是把頭條保住了,恭喜~

本文量大管飽、一次滿足:發布內容實際體驗訓練細節,和Qwen 發展回顧

發布內容

本次發布,包含 MoE 和 Dense 兩種架構:
MoE:有 30B(3B激活)和 235B(22B激活)兩種。
Dense:包含 0.6B、1.7B、4B、8B、14B 和 32B 這六款

本次發布的旗艦模型是 Qwen3-235B-A22B,后綴 235B 指的是模型大小 235B,A22B 指的是激活參數 22B。

在代碼、數學、通用能力等基準測試中,這個235B 的 Qwen3,水平超過 671B 的 DeepSeek R1


Qwen3 vs DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro。 對于小一點的 MoE 模型:Qwen3-30B-A3B,其激活量只有 QwQ-32B 的 10%,其表現超過 DeepSeek V3/GPT-4o
Qwen3-4B 這樣的小模型,也能匹敵 Qwen2.5-72B-Instruct 「思考模式」的無縫切換

在我看來,在功能層面,Qwen3 最顯著的更新,是引入了「思考模式/非思考模式」的無縫切換。

思考模式的輸出方式,類似 DeepSeek R1,模型會逐步推理,經過深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復雜問題。

非思考模式則更類似 DeepSeek V3,提供快速的即時響應,適用于那些簡單問題。

通過這種方式,用戶能夠根據具體需求,來控制模型的“思考”的程度,做到效果、成本、時間上的平衡。


在不同思考深度下,模型的得分情況 掌握多種語言

Qwen2 支持 29 種語言


中英文 + 27 種其他語言

Qwen3 支持了 119 個語種和方言


Qwen3 支持的語種和方言 更強的 Agent 能力

本次 Qwen3 的更新,還體現在了 Agent 和 代碼能力,同時也加強了對 MCP 的支持。

值得一提的是,Qwen 有一個配套的 Qwen-Agent 項目,可以方便地使用 API 進行工具調用,或結合現有的工具鏈進行擴展

Qwen3,對 MCP 有了更好的支持 實際體驗

接下來用兩個個例子,直觀的展示本次 Qwen3 的能力變化

當然了,你也可以訪問 Qwen 的網站,來直接體驗
https://chat.qwen.ai/

長/短思考
對于是否思考,你可以開啟/關閉,以及設定的長度也可以讓他講講人生道理 代碼能力

所謂原湯化原食,讓他給本文做個可視化,美感還是在線的


讓英雄查英雄,讓 Qwen3 畫 Qwen3 訓練細節

接下來,讓我們看看這個模型是怎么訓出來的,過程上包括預訓練后訓練

預訓練

先做一個基礎的了解:

Qwen2.5 的訓練數據,是在 18 萬億 token Qwen3 的訓練數據翻倍:約 36 萬億個 token,涵蓋了 119 種語言和方言。

這些數據,一方面是來自于互聯網信息的收集,一方面則是通過 Qwen2.5-VL 來從各 PDF 中來提取內容,再通過 Qwen2.5 改進質量。為了補充數學和編程領域的訓練數據,Qwen2.5-Math 和 Qwen2.5-Coder 被用來生成合成數據

在預訓練中,有三個階段:

第一階段,模型在30萬億tokens的數據上預訓練,使用4K的上下文長度,這一階段主要是幫助模型建立基本的語言技能和常識理解。

第二階段,增強了STEM領域(科學、技術、工程、數學)和編程任務的訓練,增加了5萬億tokens的數據量,進一步提升模型的推理能力。

第三階段,通過加入高質量的長文本數據,擴展了上下文長度到32K,讓Qwen3能夠處理更長的輸入,例如長篇文章或復雜的對話。


訓練出來,大概就是這么個效果

通過這些步驟,Qwen3的Dense基礎模型在性能上達到了Qwen2.5更大模型的水平。例如,Qwen3-1.7B、4B、8B、14B、32B等版本的表現,和Qwen2.5的3B、7B、14B、32B、72B相當。而Qwen3的MoE模型,則只用了10%的激活參數,便能提供同樣的推理能力,極大地節省了計算資源。

后訓練

Qwen3的后訓練是讓模型實現“逐步推理”和“快速響應”的關鍵。團隊通過四個階段的優化,使得Qwen3不僅在復雜任務中有出色表現,在簡單任務中也能快速給出答案。

第一階段:長鏈推理冷啟動:這一步通過微調多樣化的推理數據,讓模型具備了處理復雜任務的基本能力,包括數學、編程和邏輯推理等任務。

第二階段:強化學習(RL):第二階段利用強化學習進一步提升模型的推理能力,讓模型能夠在面對復雜任務時更加高效地尋找最佳答案。

第三階段:思考模式和非思考模式融合:這一創新允許模型在面對不同任務時,靈活切換“思考模式”和“非思考模式”。思考模式下,模型逐步推理,適合復雜問題;而非思考模式下,模型則能快速作出反應,適合日常對話和簡單問題。

第四階段:通用任務強化學習:最后階段,通過對20多個常見任務的強化學習微調,確保了Qwen3能夠在不同應用場景下靈活應對,包括指令跟隨、格式化輸出和智能代理能力等。


流程化成圖,大概是這樣

通過這一系列后訓練,使得 Qwen3 掌握了思考模式,以及更好的工具調用能力。

Qwen 發展歷史回顧

阿里最早推出的AI,叫做通義千問,最早出現在2023年4月


在那時,叫做「通義千問大模型」

那時,它還是阿里云的閉源模型,定位類似 ChatGPT,為企業客戶提供服務,并不開放源碼。

2023年8月初,Qwen 開源首個開源的 Qwen 模型

23年8月,阿里開源了兩個新模型,Qwen-7BQwen-7B-Chat,在 ModelScope 和 Hugging Face 同時上線,以 Apache 2.0 的方式開源,Tech Report 也一并放出。

這一次,也是“Qwen”這一名稱首次被啟用,主要面向開源社區,追求開源可用性、輕量部署、廣泛適配;

2023年9月底,Qwen-14B 發布


緊接著,Qwen-14B 開源

相比 Qwen-7B,Qwen-14B 訓練量更大,中文能力、代碼生成、長文本推理都有明顯提升

同期,阿里開源了 qwen.cpp、Qwen-Agent,工具鏈和應用框架開始成型。

那段時間,Qwen-7B 的訓練也做了補強,tokens 從 2.2T 加到了 2.4T,上下文長度擴展到了 8K。

2023年11月底,Qwen-72B 上線

這是一版旗艦規模的模型,參數量拉到 720億,預訓練數據達到了 3萬億 tokens。

這個版本的 Qwen,原生支持 32K 上下文,在中文推理、復雜數學、多輪對話上的表現明顯更穩了。

小型號也同步補了:Qwen-1.8B,面對邊緣側和輕量場景進行適配。

一波下來,Qwen把從1B到72B的參數區間基本打通了。

2024年春節期間,Qwen1.5


去年春節的時候,Qwen1.5 亮相

大過年的,Qwen1.5 發布,在基礎上做了深度優化,主要是底層結構調整、訓練對齊增強。

同一階段,還放出了第一版 MoE 架構的 Qwen1.5-MoE-A2.7B,推理成本壓下來了,但推理鏈條拉得更長。

24年6月初,Qwen2Qwen2,一個頗具影響力的版本

Qwen2 算是換了新的底盤: 預訓練數據量大幅擴張,推理能力、代碼生成、長文本處理全部提升。

首批放出了 7B、32B、72B 三個尺寸,全覆蓋了中大型場景。

2024年9月中,Qwen2.5 接棒


這里是一些描述

新加了3B、14B、32B三個尺寸,適配更多硬件資源。

同步發了 MoE版,優化了推理稀疏度,同時放出了Qwen2.5-Omni,一個能統一文本、圖像、音頻、視頻處理的多模態模型。

那時候,Qwen2.5-7B 和 Omni-7B 在 Hugging Face 開源榜單上連續多周霸榜。

2025年4月底,Qwen3 到來


今天,Qwen3 開源

這一次,Qwen3 系列從 Dense 和 MoE 兩條線同步推進,從 0.6B 覆蓋到了 235B。

訓練過程中,第一次引入了漸進式長文本預訓練長文本后訓練,超長文本處理做了系統級的優化。

推理任務上,模型內部支持了思考模式 / 非思考模式的無縫切換,單個模型內可以根據復雜度自動適配推理鏈路。

同時的,這個版本的模型,對外部工具的調用能力得到加強,為接下來的 Agent 大戰做足準備。

最后

從2023年4月,通義千問首次亮相,到2025年4月,Qwen3全面發布,短短兩年,三代更新,阿里一步步把自己的大模型打磨到了世界頂級水準

從最初的閉源探索,到如今 Dense、MoE 雙線并進、思考模式無縫切換、超長文本系統優化……每個節點,都是硬仗

不多煽情,但還想說一聲:這一路,真的不容易

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
宗慶后被曝有7子,看了宗馥莉為他立的墓碑,才知道她早就布局了

宗慶后被曝有7子,看了宗馥莉為他立的墓碑,才知道她早就布局了

麥大人
2025-07-18 12:05:16
老杜預感到什么,承諾3年后親自為女兒撐腰,打造第二個杜特爾特

老杜預感到什么,承諾3年后親自為女兒撐腰,打造第二個杜特爾特

起喜電影
2025-07-23 18:07:53
暴發戶舅舅93年買下京城5套四合院后坐牢,出獄去那一看,當場跪下

暴發戶舅舅93年買下京城5套四合院后坐牢,出獄去那一看,當場跪下

紅豆講堂
2025-07-21 16:30:58
德布勞內社媒:很高興今天上演首秀,比賽有助于恢復狀態

德布勞內社媒:很高興今天上演首秀,比賽有助于恢復狀態

直播吧
2025-07-23 05:48:04
林彪和九大開國元帥關系如何?

林彪和九大開國元帥關系如何?

河山歷史
2025-07-19 11:52:52
這次印度訪華全是反效果,幫中國徹底下決心,在西藏開工重大工程

這次印度訪華全是反效果,幫中國徹底下決心,在西藏開工重大工程

荷蘭豆愛健康
2025-07-22 11:45:09
和大衣哥兒子離婚4年后,陳亞男開始相親,揚言要找個條件更好的

和大衣哥兒子離婚4年后,陳亞男開始相親,揚言要找個條件更好的

手工制作阿殲
2025-07-23 14:33:31
剛剛!武商集團官宣!

剛剛!武商集團官宣!

越喬
2025-07-23 16:56:39
中美下輪貿易談判生變?美國制造兩個新麻煩,要中國配合制裁俄伊

中美下輪貿易談判生變?美國制造兩個新麻煩,要中國配合制裁俄伊

探史
2025-07-22 10:44:21
A股,今天最高漲至3613點,明天會漲還是準備下跌?提前分析!

A股,今天最高漲至3613點,明天會漲還是準備下跌?提前分析!

阿傖說事
2025-07-23 15:19:46
中國十大“網紅城市”排行榜,北方2個,南方8個,都是不錯的城市

中國十大“網紅城市”排行榜,北方2個,南方8個,都是不錯的城市

阿龍美食記
2025-07-23 18:57:56
不到24小時!雅魯藏布江工程剛動工,印主持人:派飛機炸中國工地

不到24小時!雅魯藏布江工程剛動工,印主持人:派飛機炸中國工地

南宗歷史
2025-07-23 16:59:28
當全紅嬋備賽畫面曝光,才明白陳芋汐有多狠,郭晶晶的話說對了

當全紅嬋備賽畫面曝光,才明白陳芋汐有多狠,郭晶晶的話說對了

查爾菲的筆記
2025-07-22 12:14:29
底褲被扒光!兩只杜賓犬女主人認慫了,登門道歉,網友們不買賬

底褲被扒光!兩只杜賓犬女主人認慫了,登門道歉,網友們不買賬

奇思妙想草葉君
2025-07-23 17:16:30
你們是不是對“下一盤大棋”有什么誤會?

你們是不是對“下一盤大棋”有什么誤會?

邏輯與常識
2025-07-18 06:58:00
女生男相!李湘母女在日本逛奢侈品店,王詩齡正面滿臉胡子好嚇人

女生男相!李湘母女在日本逛奢侈品店,王詩齡正面滿臉胡子好嚇人

娛樂小丸子
2025-07-22 20:50:25
大S死活不讓孩子回北京的原因,竟然是因為這個,倆孩子真可憐!

大S死活不讓孩子回北京的原因,竟然是因為這個,倆孩子真可憐!

大笑江湖史
2025-07-23 09:18:22
上海首批“大齡剩女”已住進養老院,如今的生活全被費翔說中了

上海首批“大齡剩女”已住進養老院,如今的生活全被費翔說中了

健身狂人
2025-07-22 15:21:36
國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

阿傖說事
2025-07-19 07:50:26
公安部交管局局長王強:現有“智駕”非“自駕”,脫手脫眼駕駛面臨三重法律風險!

公安部交管局局長王強:現有“智駕”非“自駕”,脫手脫眼駕駛面臨三重法律風險!

時代汽車網
2025-07-23 17:06:09
2025-07-23 20:00:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
64文章數 6關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

教育
旅游
時尚
親子
數碼

教育要聞

2025年天津高考提前批投檔線分析:中國民航大學訂單班受熱捧

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

看來看去還是這些穿搭適合普通人!配色不艷、衣服不花,好得體

親子要聞

新年吃什么爸爸說交給孩子們自己決定,又是有趣的一餐

數碼要聞

全漢帶來 VIC GD 系列電源:僅擁有 3 年質保的金牌非模組 ATX

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 苍溪县| 邵阳市| 安庆市| 齐齐哈尔市| 渑池县| 敦化市| 视频| 公主岭市| 射洪县| 张家界市| 多伦县| 昌邑市| 体育| 准格尔旗| 黔西| 海门市| 铜梁县| 仪陇县| 弥渡县| 哈巴河县| 襄汾县| 崇明县| 长兴县| 抚宁县| 葵青区| 宁河县| 舟曲县| 山阳县| 新龙县| 梅州市| 阜南县| 新巴尔虎左旗| 安西县| 平远县| 闻喜县| 玛沁县| 寿宁县| 城市| 寿光市| 习水县| 昂仁县|