99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

性能超越DeepSeek R1,Qwen3正式登場!阿里一口氣放出8款大模型,登頂開源王座!

0
分享至


整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

今天凌晨,大模型領(lǐng)域最受關(guān)注的重磅消息來自阿里 Qwen 團隊——他們正式發(fā)布了備受期待的全新 Qwen3 系列大模型。


不同于以往,這次其一次性開源了多達 8 款混合推理模型,在性能上全面逼近 OpenAI、Google 等閉源大模型,以及超越了開源大模型 DeepSeek R1,堪稱當(dāng)前最強的開源模型之一,也難怪昨晚 Qwen 團隊一直在加班。


8 大模型齊發(fā)!

這 8 款混合推理模型中,包括了 2 個 MOE 模型:Qwen3-235B-A22BQwen3-30B-A3B

其中,Qwen3-235B-A22B 是本次發(fā)布中規(guī)模最大的旗艦?zāi)P停瑩碛?2350 億個參數(shù),激活參數(shù)超過 220 億。

在代碼、數(shù)學(xué)和通用能力等多個基準(zhǔn)測試中,它的表現(xiàn)不僅超過了 DeepSeek 的 R1 開源模型,還優(yōu)于 OpenAI 的閉源模型 o1。尤其在軟件工程和數(shù)學(xué)領(lǐng)域的 ArenaHard 測試(共 500 道題)中,成績甚至接近了 Google 最新發(fā)布的 Gemini 2.5-Pro,可見其實力不容小覷。


另一個 MOE 模型Qwen3-30B-A3B擁有 300 億總參數(shù),激活參數(shù)僅為 QwQ-32B 的 10%,約 30 億,但實際表現(xiàn)卻更勝一籌。甚至像 Qwen3-4B 這樣的小模型,也能達到 Qwen2.5-72B-Instruct 的水平。


除了上述兩款 MOE 模型,此次還發(fā)布了6 款 Dense 模型,分別是:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。這些模型在規(guī)模和結(jié)構(gòu)上各不相同,方便用戶根據(jù)具體需求和計算資源進行選擇。

以上所有模型均在 Apache 2.0 許可協(xié)議下開源,對開發(fā)者和研究者開放。


國內(nèi)首個混合推理模型來了

從能力上來看,Qwen3 系列模型經(jīng)過特別訓(xùn)練,支持兩種“思考模式”:快思考和慢思考,用官方的話就是“思考模式”和“非思考模式”。

  • 思考模式:在這種模式下,模型會逐步推理,經(jīng)過深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復(fù)雜問題。

  • 非思考模式:在此模式中,模型提供快速、近乎即時的響應(yīng),適用于那些對速度要求高于深度的簡單問題。

正因此,Qwen3 是國內(nèi)首個混合推理模型。

簡單來說,就是 Qwen3 可以根據(jù)問題的難度,選擇是快速給出答案,還是花更多時間進行更深層次的分析和推理。比如遇到一些復(fù)雜的數(shù)學(xué)、科學(xué)或工程類問題時,你可以切換到“深度思考模式”,讓模型用更強的推理能力來處理問題。

Qwen 團隊在技術(shù)報告中解釋道,“Qwen3 展現(xiàn)出可擴展且平滑的性能提升,這與分配的計算推理預(yù)算直接相關(guān)。這樣的設(shè)計讓用戶能夠更輕松地為不同任務(wù)配置特定的預(yù)算,在成本效益和推理質(zhì)量之間實現(xiàn)更優(yōu)的平衡。”


使用方法也很簡單:在Qwen Chat 網(wǎng)站上,有一個專門的按鈕可以切換“思考模式”;如果你是在本地部署或者通過 API 使用模型,也可以通過輸入指令,比如 /think 或 /no_think,自由切換不同模式,讓模型根據(jù)任務(wù)難度靈活應(yīng)對。


另外,Qwen3 的多語言能力也有了很大提升,目前已經(jīng)能支持多達119 種語言和方言,基本覆蓋了全球主要的語言體系。


還有一點也很值得關(guān)注,Qwen3 在智能體(Agent)能力和編程(代碼)方面也變得更強了,同時也更好地支持了MCP 技術(shù)。下面這個視頻展示 Qwen3 是如何思考并與環(huán)境進行交互的:

目前,經(jīng)過后訓(xùn)練優(yōu)化的 Qwen3 系列模型已經(jīng)可以在多個平臺上訪問和部署,例如 Qwen3-30B-A3B,以及對應(yīng)的預(yù)訓(xùn)練基座模型(如 Qwen3-30B-A3B-Base),已在 Hugging Face、ModelScope 和 Kaggle 等平臺上線,面向公眾開放使用。

普通用戶也可以直接在Qwen Chat 網(wǎng)頁手機 App上使用。

快速體驗 Qwen3 系列:

  • Qwen Chat 網(wǎng)頁版:https://chat.qwen.ai/

  • GitHub:https://github.com/QwenLM/Qwen3

  • Hugging Face:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

  • 魔搭社區(qū):https://modelscope.cn/collections/Qwen3-9743180bdc6b48

在部署方面,官方推薦使用 SGLang 和 vLLM 等推理框架,以獲得更好的性能和易用性。對于本地部署場景,Ollama、LMStudio、MLX、llama.cpp 以及 KTransformers 等工具也提供了便捷的支持。


Qwen3 強大的背后,離不開多階段的預(yù)訓(xùn)練和后訓(xùn)練

在模型預(yù)訓(xùn)練方面,Qwen3 相比之前的 Qwen2.5 有了大幅提升。此前 Qwen2.5 是在 18 萬億個 token 上進行預(yù)訓(xùn)練的,而 Qwen3 預(yù)訓(xùn)練使用的數(shù)據(jù)量幾乎是其兩倍,達到大約 36 萬億個 token,涵蓋了 119 種語言和方言。

這些數(shù)據(jù)來源包括網(wǎng)頁抓取內(nèi)容、PDF 文檔提取,還有用早期 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個數(shù)學(xué)和代碼領(lǐng)域的專家模型合成數(shù)據(jù),合成了包括教科書、問答對以及代碼片段等多種形式的數(shù)據(jù)。

預(yù)訓(xùn)練

據(jù)官方技術(shù)報告介紹,Qwen3 的預(yù)訓(xùn)練流程分為三個階段:

在第一階段(S1),模型在超過 30 萬億個 token 的海量數(shù)據(jù)上進行了初步訓(xùn)練,處理的文本長度是 4K token,主要目的是打下基本的語言理解和通用知識基礎(chǔ)。

到了第二階段(S2),訓(xùn)練重點有所調(diào)整,加入了更多像 STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))、編程和推理相關(guān)的專業(yè)數(shù)據(jù),同時又在額外 5 萬億個 token 上進行了強化訓(xùn)練,進一步提升模型的專業(yè)能力。

最后,在第三階段,Qwen 團隊用高質(zhì)量的長文本數(shù)據(jù),把模型的上下文長度擴展到了 32K token,讓它能更好地處理超長輸入,適應(yīng)更復(fù)雜的應(yīng)用場景。


得益于模型架構(gòu)的優(yōu)化、訓(xùn)練數(shù)據(jù)量的增加,以及更高效的訓(xùn)練方法,Qwen3 的 Dense(密集)基礎(chǔ)模型整體表現(xiàn)已經(jīng)追上了體積更大的 Qwen2.5 版本。比如,Qwen3 的 1.7B、4B、8B、14B 和 32B 基礎(chǔ)模型,整體能力分別能對標(biāo) Qwen2.5 的 3B、7B、14B、32B 和 72B 模型。

尤其在 STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))、編程和推理這類專業(yè)領(lǐng)域,Qwen3 的表現(xiàn)甚至比 Qwen2.5 的大模型還要更好。

而對于 Qwen3 的 MoE(混合專家)基礎(chǔ)模型來說,它們每次推理時只激活大約 10% 的參數(shù),但依然能做到接近 Qwen2.5 Dense 基礎(chǔ)模型的效果。這意味著,在保持高性能的同時,訓(xùn)練和推理的成本大大降低了。

后訓(xùn)練

為了打造既能深度推理又能快速響應(yīng)的混合型大模型,Qwen3 團隊設(shè)計并執(zhí)行了一套四階段的后訓(xùn)練流程。具體包括:(1)長鏈推理冷啟動、(2)長鏈推理強化學(xué)習(xí)、(3)思考與非思考模式融合、以及(4)通用能力強化學(xué)習(xí)。

在第一階段,該團隊通過大量涵蓋數(shù)學(xué)、編程、邏輯推理和 STEM 等領(lǐng)域的長鏈推理數(shù)據(jù),對模型進行了微調(diào),打下了基本的推理能力基礎(chǔ)。

第二階段則引入了大規(guī)模的強化學(xué)習(xí),通過設(shè)定規(guī)則獎勵,引導(dǎo)模型在復(fù)雜問題中探索得更深入、更細(xì)致。

到了第三階段,訓(xùn)練目標(biāo)轉(zhuǎn)向融合思考模式與快速響應(yīng)模式。 Qwen 團隊用一套混合了長鏈推理和常規(guī)指令微調(diào)的數(shù)據(jù),對模型進行了再次微調(diào),讓它既能深度思考,又能根據(jù)任務(wù)需求快速作答,實現(xiàn)兩種能力的平滑切換。

最后,在第四階段,模型接受了更廣泛領(lǐng)域的強化訓(xùn)練,覆蓋指令遵循、格式規(guī)范、Agent 能力等二十多個方向,進一步提升了模型的通用性,同時修正了在早期訓(xùn)練中可能出現(xiàn)的不良行為。



登頂開源寶座

這次阿里發(fā)布 Qwen3,毫無疑問是一次重磅操作。據(jù)了解,阿里至今已向全球開源 200 多款模型,千問衍生模型數(shù)量已突破 10萬,超越美國 Meta 的 Llama 系列,成為全球最大的開源模型族群。可以說,Qwen3 的發(fā)布不是一次普通的升級,而是真正的“登頂”。

外媒 Venturebeat 也對此做出了高度評價,稱對于企業(yè)來說,接入 Qwen3 非常高效,幾小時內(nèi)就能將現(xiàn)有的 OpenAI 接口系統(tǒng)切換到新模型,根本不用幾周。Qwen3 的專家混合模型(MoE),在顯存使用上相當(dāng)節(jié)省,20-30B 規(guī)模模型的顯存成本就能實現(xiàn)接近 GPT-4 的推理能力。

更有意思的是,Qwen3 提供了從 0.6B 到 32B 不同規(guī)模的密集模型版本,用戶可以從筆記本小規(guī)模測試,一路擴展到多卡大集群,過程中幾乎不用調(diào)整提示詞。

Qwen3 發(fā)布后,在用戶層也受到了廣泛好評。其 GitHub 頁面迅速獲得了 17.9k 個 Star 和 1.2k 的 Fork,熱度可見一斑。


在社交媒體上,不少網(wǎng)友們分享自己的一手體驗感受。

有用戶表示:“我剛試用了 @Alibaba_Qwen 的 Qwen3。

在需要快速響應(yīng)時,它非常迅速;面對復(fù)雜問題時,它會花時間思考。它不是隨便給個答案,而是經(jīng)過深思熟慮,給出準(zhǔn)確的結(jié)果。

在編程方面,它表現(xiàn)出色;在數(shù)學(xué)問題上,它依然冷靜應(yīng)對。

在語言處理上,它聽起來很自然,不像其他模型那樣怪異。令我驚訝的是,它甚至支持多達 119 種語言。

很久沒見過這么優(yōu)秀的開源模型了。”


也有網(wǎng)友 Jafar Najafov 感嘆道:“這真是令人震驚。我將 Qwen3 和同規(guī)模的 Llama 進行對比,Qwen3 的推理更深入,處理長上下文和解決復(fù)雜問題的速度都更快。它完全開源,原生支持混合推理,采用 Apache 2.0 許可證。這不僅僅是更好,簡直是全新的升級!”


甚至蘋果工程師 Awni Hannun 也在第一時間用 M2 蘋果設(shè)備跑了 Qwen3 模型,隨即發(fā)聲道:“Qwen3 235B MoE(22B 激活參數(shù))在 M2 Ultra 上通過 mlx-lm 運行得非常快。4 位模型大約用 132GB 內(nèi)存,生成 580 個 token 的速度約為每秒 28 個!”


整體看來,Qwen3 的上線,AI 圈的反響都不錯。

對此,Qwen 團隊開源負(fù)責(zé)人林俊旸在 X 平臺上表示,Qwen3 的開發(fā)過程中,團隊解決了很多重要但容易被忽視的問題,比如:穩(wěn)定的訓(xùn)練來擴展強化學(xué)習(xí)(RL)、平衡多領(lǐng)域數(shù)據(jù),以及在提升多語言能力的同時不犧牲質(zhì)量。

他還透露,未來團隊將把重點轉(zhuǎn)向訓(xùn)練能夠進行長周期推理、執(zhí)行真實世界任務(wù)的智能體。


那么,你體驗上了 Qwen3 了嗎?感覺怎么樣?歡迎留言分享你的看法。

https://qwenlm.github.io/zh/blog/qwen3/

https://venturebeat.com/ai/alibaba-launches-open-source-qwen3-model-that-surpasses-openai-o1-and-deepseek-r1/

https://github.com/QwenLM/Qwen3


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國內(nèi)787機長分析印度墜機原因:不排除飛行員重大操作失誤的可能

國內(nèi)787機長分析印度墜機原因:不排除飛行員重大操作失誤的可能

可達鴨面面觀
2025-06-13 18:05:27
美媒:以色列對伊朗發(fā)動襲擊前,五角大樓附近披薩店訂單激增

美媒:以色列對伊朗發(fā)動襲擊前,五角大樓附近披薩店訂單激增

環(huán)球網(wǎng)資訊
2025-06-14 12:22:15
新華社快訊:德黑蘭上空傳出巨大爆炸聲

新華社快訊:德黑蘭上空傳出巨大爆炸聲

新華社
2025-06-14 01:03:03
以色列暴擊伊朗,南宋路線再次破產(chǎn)

以色列暴擊伊朗,南宋路線再次破產(chǎn)

暢明談宏觀坤
2025-06-13 14:06:27
黃仁勛回應(yīng)任正非最新講話

黃仁勛回應(yīng)任正非最新講話

第一財經(jīng)資訊
2025-06-13 22:47:36
社評:拆掉華為基站讓巴拿馬更安全了嗎

社評:拆掉華為基站讓巴拿馬更安全了嗎

環(huán)球網(wǎng)資訊
2025-06-14 00:16:25
鄭欽文:我不是故意要摔倒兩次的,只是我還不懂怎么在草地上奔跑

鄭欽文:我不是故意要摔倒兩次的,只是我還不懂怎么在草地上奔跑

懂球帝
2025-06-14 07:19:09
梁朝偉劉嘉玲在上海,兩人手牽手好恩愛,劉嘉玲臉變了撞臉蔡明

梁朝偉劉嘉玲在上海,兩人手牽手好恩愛,劉嘉玲臉變了撞臉蔡明

界史
2025-06-14 10:07:54
原重慶市市長黃奇帆:如果現(xiàn)在還有人認(rèn)為房地產(chǎn)會反彈上漲,那他對經(jīng)濟肯定是沒什么認(rèn)知的

原重慶市市長黃奇帆:如果現(xiàn)在還有人認(rèn)為房地產(chǎn)會反彈上漲,那他對經(jīng)濟肯定是沒什么認(rèn)知的

互聯(lián)網(wǎng)思維
2025-06-13 23:33:51
伊朗稱若再受到襲擊將會封鎖霍爾木茲海峽 外交部回應(yīng)

伊朗稱若再受到襲擊將會封鎖霍爾木茲海峽 外交部回應(yīng)

新京報
2025-06-13 16:30:27
中紀(jì)委怒批公務(wù)員也是人!正常生活不應(yīng)問責(zé)處!

中紀(jì)委怒批公務(wù)員也是人!正常生活不應(yīng)問責(zé)處!

霹靂炮
2025-06-13 23:49:27
一場丑陋的總決賽!雷霆扳成2-2,裁判嚴(yán)重?fù)寫颍瑏啔v山大轟35分

一場丑陋的總決賽!雷霆扳成2-2,裁判嚴(yán)重?fù)寫颍瑏啔v山大轟35分

老梁體育漫談
2025-06-14 11:31:53
開香檳?步行者名宿末節(jié)笑嘻嘻合照 最終卻被翻盤……

開香檳?步行者名宿末節(jié)笑嘻嘻合照 最終卻被翻盤……

直播吧
2025-06-14 11:40:20
以色列否認(rèn)F-35戰(zhàn)機被伊朗擊落

以色列否認(rèn)F-35戰(zhàn)機被伊朗擊落

財聯(lián)社
2025-06-14 12:37:12
中共中央批準(zhǔn):陳杰同志任上海市委常委

中共中央批準(zhǔn):陳杰同志任上海市委常委

新民晚報
2025-06-13 22:22:54
唏噓!71歲伊萬遭解雇后深夜乘機離開中國,無球迷送行+眼神落寞

唏噓!71歲伊萬遭解雇后深夜乘機離開中國,無球迷送行+眼神落寞

我愛英超
2025-06-14 00:38:32
上海航空突發(fā)!機艙內(nèi)冒出濃煙!有人涉嫌違規(guī)…乘客礦泉水接力撲救,“劫后余生的感覺”

上海航空突發(fā)!機艙內(nèi)冒出濃煙!有人涉嫌違規(guī)…乘客礦泉水接力撲救,“劫后余生的感覺”

上觀新聞
2025-06-14 11:57:34
伊萬凌晨離開中國飛往卡塔爾,足協(xié)已終止和他的合作

伊萬凌晨離開中國飛往卡塔爾,足協(xié)已終止和他的合作

魯中晨報
2025-06-14 07:54:08
南航“美女經(jīng)理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經(jīng)理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
孫繼海接受《足球之夜》專訪,談到世預(yù)賽失利,就是實力不濟!

孫繼海接受《足球之夜》專訪,談到世預(yù)賽失利,就是實力不濟!

田先生籃球
2025-06-13 11:58:33
2025-06-14 13:12:49
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術(shù)的創(chuàng)造者和使用者
2526文章數(shù) 7599關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

牛彈琴:中東大戰(zhàn)開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰(zhàn)開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

數(shù)碼
家居
藝術(shù)
時尚
教育

數(shù)碼要聞

REDMI即將發(fā)布首款旗艦小平板 全面超越iPad mini

家居要聞

森林幾何 極簡灰調(diào)原木風(fēng)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

在時尚中國之夜,共赴榮耀東方時刻

教育要聞

老師表面喜歡,實則“內(nèi)心反感”的4種學(xué)生,地位還不如倒數(shù)差生

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 汉中市| 介休市| 宜黄县| 门头沟区| 石阡县| 定襄县| 沙洋县| 江达县| 晋城| 临沧市| 霸州市| 东山县| 革吉县| 昌江| 宁化县| 会同县| 老河口市| 成都市| 江川县| 涿州市| 怀来县| 正镶白旗| 赣榆县| 彭泽县| 桐庐县| 长沙县| 章丘市| 铅山县| 顺义区| 乌鲁木齐市| 江永县| 常熟市| 吉林市| 靖江市| 泸州市| 尤溪县| 汽车| 保康县| 元氏县| 垫江县| 南安市|