99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

阿里Qwen3系列開源:混合推理模式、性能超越DeepSeek R1

0
分享至

今天凌晨,Qwen3 發布。

本次共開源 8 款模型,包括 2 款 MoE 模型、6 款 Dense 模型。Qwen3 系列在代碼、數學、通用能力等方面能力表現優異,其中235B 版本,在基準測試上的水平超過了 671B 的 DeepSeek R1

同時,Qwen3 引入了「思考模式/非思考模式」無縫切換的功能。思考模式下,模型逐步推理,經過深思熟慮后給出最終答案。非思考模式下,能夠 提供快速的即時響應,適用于簡單問題的回答。混合推理的模式平衡了算力和輸出效果。

此外,Qwen3 系列提高了 Agent 能力,同時也加強了對 MCP 的支持。Qwen 配套了一個 Qwen-Agent 項目,可以使用 API 進行工具調用,或結合現有的工具鏈進行擴展。


Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~

進群之后,你有機會得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發交流;

  • 資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;

  • 好用、有趣的產品/案例,Founder Park 會主動做宣傳。

01

發布內容

本次發布,包含 MoE 和 Dense 兩種架構:

  • MoE:有 30B(3B激活)和 235B(22B激活)兩種;

  • Dense:包含 0.6B、1.7B、4B、8B、14B 和 32B 六款;

本次發布的旗艦模型是 Qwen3-235B-A22B,后綴 235B 指的是模型大小 235B,A22B 指的是激活參數 22B。

在代碼、數學、通用能力等基準測試中,這個235B 的 Qwen3,水平超過 671B 的 DeepSeek R1


Qwen3 vs DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro

對于小一點的 MoE 模型:Qwen3-30B-A3B,其激活量只有 QwQ-32B 的 10%,其表現超過 DeepSeek V3/GPT-4o。


Qwen3-4B 這樣的小模型,也能匹敵 Qwen2.5-72B-Instruct
「思考模式」的無縫切換

在我看來,在功能層面,Qwen3 最顯著的更新,是引入了「思考模式/非思考模式」的無縫切換。

思考模式的輸出方式,類似 DeepSeek R1,模型會逐步推理,經過深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復雜問題。

非思考模式則更類似 DeepSeek V3,提供快速的即時響應,適用于那些簡單問題。

通過這種方式,用戶能夠根據具體需求,來控制模型的“思考”的程度,做到效果、成本、時間上的平衡。


在不同思考深度下,模型的得分情況
掌握多種語言

Qwen2 支持 29 種語言。


中英文 + 27 種其他語言

Qwen3 支持了 119 個語種和方言。


Qwen3 支持的語種和方言
更強的 Agent 能力

本次 Qwen3 的更新,還體現在了 Agent 和 代碼能力,同時也加強了對 MCP 的支持。

值得一提的是,Qwen 有一個配套的 Qwen-Agent 項目,可以方便地使用 API 進行工具調用,或結合現有的工具鏈進行擴展。

Qwen3,對 MCP 有了更好的支持

02

實際體驗

接下來用兩個例子,直觀的展示本次 Qwen3 的能力變化。當然了,你也可以訪問 Qwen 的網站(https://chat.qwen.ai/),來直接體驗。

長/短思考

對于是否思考,你可以開啟/關閉,以及設定的長度


也可以讓他講講人生道理 代碼能力

所謂原湯化原食,讓他給本文做個可視化,美感還是在線的。


讓英雄查英雄,讓 Qwen3 畫 Qwen3

03

訓練細節

接下來,讓我們看看這個模型是怎么訓出來的,過程上包括預訓練后訓練

預訓練

先做一個基礎的了解:

  • Qwen2.5 的訓練數據,是在 18 萬億 token

  • Qwen3 的訓練數據翻倍:約 36 萬億個 token,涵蓋了 119 種語言和方言。

這些數據,一方面是來自于互聯網信息的收集,一方面則是通過 Qwen2.5-VL 來從各 PDF 中來提取內容,再通過 Qwen2.5 改進質量。為了補充數學和編程領域的訓練數據,Qwen2.5-Math 和 Qwen2.5-Coder 被用來生成合成數據

在預訓練中,有三個階段:

第一階段,模型在30萬億tokens的數據上預訓練,使用4K的上下文長度,這一階段主要是幫助模型建立基本的語言技能和常識理解。

第二階段,增強了STEM領域(科學、技術、工程、數學)和編程任務的訓練,增加了5萬億tokens的數據量,進一步提升模型的推理能力。

第三階段,通過加入高質量的長文本數據,擴展了上下文長度到32K,讓Qwen3能夠處理更長的輸入,例如長篇文章或復雜的對話。


訓練出來,大概就是這么個效果

通過這些步驟,Qwen3的Dense基礎模型在性能上達到了Qwen2.5更大模型的水平。例如,Qwen3-1.7B、4B、8B、14B、32B等版本的表現,和Qwen2.5的3B、7B、14B、32B、72B相當。而Qwen3的MoE模型,則只用了10%的激活參數,便能提供同樣的推理能力,極大地節省了計算資源。
后訓練

Qwen3的后訓練是讓模型實現“逐步推理”和“快速響應”的關鍵。團隊通過四個階段的優化,使得Qwen3不僅在復雜任務中有出色表現,在簡單任務中也能快速給出答案。

第一階段:長鏈推理冷啟動這一步通過微調多樣化的推理數據,讓模型具備了處理復雜任務的基本能力,包括數學、編程和邏輯推理等任務。

第二階段:強化學習(RL)第二階段利用強化學習進一步提升模型的推理能力,讓模型能夠在面對復雜任務時更加高效地尋找最佳答案。

第三階段:思考模式和非思考模式融合這一創新允許模型在面對不同任務時,靈活切換“思考模式”和“非思考模式”。思考模式下,模型逐步推理,適合復雜問題;而非思考模式下,模型則能快速作出反應,適合日常對話和簡單問題。

第四階段:通用任務強化學習:最后階段,通過對20多個常見任務的強化學習微調,確保了Qwen3能夠在不同應用場景下靈活應對,包括指令跟隨、格式化輸出和智能代理能力等。


流程化成圖,大概是這樣

通過這一系列后訓練,使得 Qwen3 掌握了思考模式,以及更好的工具調用能力。

04

Qwen 發展歷史回顧

阿里最早推出的AI,叫做通義千問,最早出現在2023年4月


在那時,叫做「通義千問大模型」

那時,它還是阿里云的閉源模型,定位類似 ChatGPT,為企業客戶提供服務,并不開放源碼。

2023年8月初,Qwen 開源

首個開源的 Qwen 模型

23年8月,阿里開源了兩個新模型,Qwen-7BQwen-7B-Chat,在 ModelScope 和 Hugging Face 同時上線,以 Apache 2.0 的方式開源,Tech Report 也一并放出。

這一次,也是“Qwen”這一名稱首次被啟用,主要面向開源社區,追求開源可用性、輕量部署、廣泛適配;

2023年9月底,Qwen-14B 發布


緊接著,Qwen-14B 開源

相比 Qwen-7B,Qwen-14B 訓練量更大,中文能力、代碼生成、長文本推理都有明顯提升。

同期,阿里開源了 qwen.cpp、Qwen-Agent,工具鏈和應用框架開始成型。

那段時間,Qwen-7B 的訓練也做了補強,tokens 從 2.2T 加到了 2.4T,上下文長度擴展到了 8K。

2023年11月底,Qwen-72B 上線

這是一版旗艦規模的模型,參數量拉到 720億,預訓練數據達到了 3萬億 tokens。

這個版本的 Qwen,原生支持 32K 上下文,在中文推理、復雜數學、多輪對話上的表現明顯更穩了。

小型號也同步補了:Qwen-1.8B,面對邊緣側和輕量場景進行適配。

一波下來,Qwen把從1B到72B的參數區間基本打通了。

2024年春節期間,Qwen1.5


去年春節的時候,Qwen1.5 亮相

大過年的,Qwen1.5 發布,在基礎上做了深度優化,主要是底層結構調整、訓練對齊增強。

同一階段,還放出了第一版 MoE 架構的 Qwen1.5-MoE-A2.7B,推理成本壓下來了,但推理鏈條拉得更長。

24年6月初,Qwen2

Qwen2,一個頗具影響力的版本

Qwen2 算是換了新的底盤: 預訓練數據量大幅擴張,推理能力、代碼生成、長文本處理全部提升。

首批放出了 7B、32B、72B 三個尺寸,全覆蓋了中大型場景。

2024年9月中,Qwen2.5 接棒


新加了3B、14B、32B三個尺寸,適配更多硬件資源。

同步發了 MoE版,優化了推理稀疏度,同時放出了Qwen2.5-Omni,一個能統一文本、圖像、音頻、視頻處理的多模態模型。

那時候,Qwen2.5-7B 和 Omni-7B 在 Hugging Face 開源榜單上連續多周霸榜。

2025年4月底,Qwen3 到來


今天,Qwen3 開源

這一次,Qwen3 系列從 Dense 和 MoE 兩條線同步推進,從 0.6B 覆蓋到了 235B。

訓練過程中,第一次引入了漸進式長文本預訓練長文本后訓練,超長文本處理做了系統級的優化。

推理任務上,模型內部支持了思考模式 / 非思考模式的無縫切換,單個模型內可以根據復雜度自動適配推理鏈路。

同時的,這個版本的模型,對外部工具的調用能力得到加強,為接下來的 Agent 大戰做足準備。


轉載原創文章請添加微信:founderparker

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
200人施工隊下班救一命!山東爆炸幸存者怒吼:我們是用命換飯碗

200人施工隊下班救一命!山東爆炸幸存者怒吼:我們是用命換飯碗

行者聊官
2025-05-28 12:47:13
老公華為年薪100多萬,讓我全職。媽媽認為他掙得多就要“舔”著

老公華為年薪100多萬,讓我全職。媽媽認為他掙得多就要“舔”著

螞蟻大喇叭
2025-05-29 18:40:52
官方:本澤馬獲得2024-25賽季沙特聯最有價值球員

官方:本澤馬獲得2024-25賽季沙特聯最有價值球員

懂球帝
2025-05-29 05:59:01
楊穎又整容了?網友:挑眉、撇嘴是對自己美貌的絕對自信!

楊穎又整容了?網友:挑眉、撇嘴是對自己美貌的絕對自信!

情感大頭說說
2025-05-28 02:58:21
中山美穗去世留巨額遺產!兒子斷聯十年無意繼承

中山美穗去世留巨額遺產!兒子斷聯十年無意繼承

葫蘆哥愛吐槽
2025-05-29 14:19:28
醫生調查發現:男性若長期不飲酒,用不了多久,身體或有4大變化

醫生調查發現:男性若長期不飲酒,用不了多久,身體或有4大變化

小俎娛樂
2025-03-22 16:17:17
李宗盛,戳穿了林志炫被淘汰的真正原因,也給華語樂壇敲響了警鐘

李宗盛,戳穿了林志炫被淘汰的真正原因,也給華語樂壇敲響了警鐘

簡讀視覺
2025-05-27 22:20:02
四川挖出一具遺骸,腳帶7公斤鐵鏈,腳踝釘著4顆鉚釘,經考證,他是失蹤40多年的……

四川挖出一具遺骸,腳帶7公斤鐵鏈,腳踝釘著4顆鉚釘,經考證,他是失蹤40多年的……

財經三分鐘pro
2024-12-19 22:21:42
中國主導的國際調解院,罕見缺少了3個國家,為何俄羅斯沒參加?

中國主導的國際調解院,罕見缺少了3個國家,為何俄羅斯沒參加?

一頁史書
2025-05-29 16:58:18
神射手回歸CBA,廣東北京將激烈爭奪,誰能勝出?

神射手回歸CBA,廣東北京將激烈爭奪,誰能勝出?

體育籃球弟
2025-05-29 01:50:03
電腦沒關,上司和我的貓聊了一晚上? 哈哈哈哈哈好精彩的對話!

電腦沒關,上司和我的貓聊了一晚上? 哈哈哈哈哈好精彩的對話!

滑稽斑馬呀
2025-05-23 11:44:04
雙腿突然有3個異常表現,大概率是肺部已經癌變,愿你一個也沒有

雙腿突然有3個異常表現,大概率是肺部已經癌變,愿你一個也沒有

DrX說
2025-05-27 12:41:12
研究發現:若晚餐經常吃太早,不超半年,胰腺或迎來6種不良變化

研究發現:若晚餐經常吃太早,不超半年,胰腺或迎來6種不良變化

除夕煙火燦爛
2025-04-20 15:02:22
保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開

保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開

瀚霖學史
2025-05-29 07:15:02
隆戈:那不勒斯為阿萊格里開600萬歐年薪,米蘭開350萬+獎金

隆戈:那不勒斯為阿萊格里開600萬歐年薪,米蘭開350萬+獎金

直播吧
2025-05-29 05:35:08
一覺醒來,黃一鳴沉默了!王健林每次賣萬達,黃一鳴恐怕心都會痛

一覺醒來,黃一鳴沉默了!王健林每次賣萬達,黃一鳴恐怕心都會痛

小咪侃娛圈
2025-05-28 10:53:34
美國對中國斷供 EDA:包括新思科技、Cadence、西門子EDA

美國對中國斷供 EDA:包括新思科技、Cadence、西門子EDA

云頭條
2025-05-29 09:59:18
4-2,37歲梅西飆世界波+驚艷挑射+無敵擺脫妙傳,率隊終結4輪不勝

4-2,37歲梅西飆世界波+驚艷挑射+無敵擺脫妙傳,率隊終結4輪不勝

側身凌空斬
2025-05-29 09:39:14
俄媒警告:如果德國援烏武器打擊莫斯科,俄“唯一選擇將是打擊柏林”,甚至摧毀德國境內導彈生產工廠

俄媒警告:如果德國援烏武器打擊莫斯科,俄“唯一選擇將是打擊柏林”,甚至摧毀德國境內導彈生產工廠

魯中晨報
2025-05-29 14:45:11
火爆現場!安東尼與恩佐激烈沖突,桑喬連忙護住安東尼,太刺激了

火爆現場!安東尼與恩佐激烈沖突,桑喬連忙護住安東尼,太刺激了

側身凌空斬
2025-05-29 10:59:57
2025-05-29 22:11:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
762文章數 133關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

換上高爾夫GTI同款2.0T動力 新凌渡L GTS實車曝光

態度原創

藝術
本地
游戲
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

Switch2游戲現已開放購買!付費升級包也能預購

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

以軍承認使用激光武器攔截無人機

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 健康| 泸水县| 胶南市| 安溪县| 福州市| 怀来县| 昌乐县| 莫力| 娄底市| 花莲市| 来安县| 岳阳县| 古浪县| 兴业县| 牟定县| 永宁县| 古交市| 襄垣县| 偏关县| 柳林县| 栾城县| 饶河县| 丽水市| 舒城县| 东至县| 根河市| 定边县| 阆中市| 冀州市| 台湾省| 区。| 株洲县| 儋州市| 琼海市| 嘉鱼县| 南溪县| 郑州市| 高唐县| 嫩江县| 清河县| 宁陵县|