99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Qwen3深夜炸場!阿里一口氣放出8款大模型,性能超越DeepSeek R1,登頂開源王座

0
分享至


整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

今天凌晨,大模型領域最受關注的重磅消息來自阿里 Qwen 團隊——他們正式發布了備受期待的全新 Qwen3 系列大模型。


不同于以往,這次其一次性開源了多達 8 款混合推理模型,在性能上全面逼近 OpenAI、Google 等閉源大模型,以及超越了開源大模型 DeepSeek R1,堪稱當前最強的開源模型之一,也難怪昨晚 Qwen 團隊一直在加班。



8 大模型齊發!

這 8 款混合推理模型中,包括了 2 個 MOE 模型:Qwen3-235B-A22BQwen3-30B-A3B

其中,Qwen3-235B-A22B 是本次發布中規模最大的旗艦模型,擁有 2350 億個參數,激活參數超過 220 億。

在代碼、數學和通用能力等多個基準測試中,它的表現不僅超過了 DeepSeek 的 R1 開源模型,還優于 OpenAI 的閉源模型 o1。尤其在軟件工程和數學領域的 ArenaHard 測試(共 500 道題)中,成績甚至接近了 Google 最新發布的 Gemini 2.5-Pro,可見其實力不容小覷。


另一個 MOE 模型Qwen3-30B-A3B擁有 300 億總參數,激活參數僅為 QwQ-32B 的 10%,約 30 億,但實際表現卻更勝一籌。甚至像 Qwen3-4B 這樣的小模型,也能達到 Qwen2.5-72B-Instruct 的水平。


除了上述兩款 MOE 模型,此次還發布了6 款 Dense 模型,分別是:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。這些模型在規模和結構上各不相同,方便用戶根據具體需求和計算資源進行選擇。

以上所有模型均在 Apache 2.0 許可協議下開源,對開發者和研究者開放。


國內首個混合推理模型來了

從能力上來看,Qwen3 系列模型經過特別訓練,支持兩種“思考模式”:快思考和慢思考,用官方的話就是“思考模式”和“非思考模式”。

  • 思考模式:在這種模式下,模型會逐步推理,經過深思熟慮后給出最終答案。這種方法非常適合需要深入思考的復雜問題。

  • 非思考模式:在此模式中,模型提供快速、近乎即時的響應,適用于那些對速度要求高于深度的簡單問題。

正因此,Qwen3 是國內首個混合推理模型。

簡單來說,就是 Qwen3 可以根據問題的難度,選擇是快速給出答案,還是花更多時間進行更深層次的分析和推理。比如遇到一些復雜的數學、科學或工程類問題時,你可以切換到“深度思考模式”,讓模型用更強的推理能力來處理問題。

Qwen 團隊在技術報告中解釋道,“Qwen3 展現出可擴展且平滑的性能提升,這與分配的計算推理預算直接相關。這樣的設計讓用戶能夠更輕松地為不同任務配置特定的預算,在成本效益和推理質量之間實現更優的平衡。”


使用方法也很簡單:在Qwen Chat 網站上,有一個專門的按鈕可以切換“思考模式”;如果你是在本地部署或者通過 API 使用模型,也可以通過輸入指令,比如 /think 或 /no_think,自由切換不同模式,讓模型根據任務難度靈活應對。


另外,Qwen3 的多語言能力也有了很大提升,目前已經能支持多達119 種語言和方言,基本覆蓋了全球主要的語言體系。


還有一點也很值得關注,Qwen3 在智能體(Agent)能力和編程(代碼)方面也變得更強了,同時也更好地支持了MCP 技術。下面這個視頻展示 Qwen3 是如何思考并與環境進行交互的:

目前,經過后訓練優化的 Qwen3 系列模型已經可以在多個平臺上訪問和部署,例如 Qwen3-30B-A3B,以及對應的預訓練基座模型(如 Qwen3-30B-A3B-Base),已在 Hugging Face、ModelScope 和 Kaggle 等平臺上線,面向公眾開放使用。

普通用戶也可以直接在Qwen Chat 網頁手機 App上使用。

快速體驗 Qwen3 系列:

  • Qwen Chat 網頁版:https://chat.qwen.ai/

  • GitHub:https://github.com/QwenLM/Qwen3

  • Hugging Face:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

  • 魔搭社區:https://modelscope.cn/collections/Qwen3-9743180bdc6b48

在部署方面,官方推薦使用 SGLang 和 vLLM 等推理框架,以獲得更好的性能和易用性。對于本地部署場景,Ollama、LMStudio、MLX、llama.cpp 以及 KTransformers 等工具也提供了便捷的支持。


Qwen3 強大的背后,離不開多階段的預訓練和后訓練

在模型預訓練方面,Qwen3 相比之前的 Qwen2.5 有了大幅提升。此前 Qwen2.5 是在 18 萬億個 token 上進行預訓練的,而 Qwen3 預訓練使用的數據量幾乎是其兩倍,達到大約 36 萬億個 token,涵蓋了 119 種語言和方言。

這些數據來源包括網頁抓取內容、PDF 文檔提取,還有用早期 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個數學和代碼領域的專家模型合成數據,合成了包括教科書、問答對以及代碼片段等多種形式的數據。

預訓練

據官方技術報告介紹,Qwen3 的預訓練流程分為三個階段:

在第一階段(S1),模型在超過 30 萬億個 token 的海量數據上進行了初步訓練,處理的文本長度是 4K token,主要目的是打下基本的語言理解和通用知識基礎。

到了第二階段(S2),訓練重點有所調整,加入了更多像 STEM(科學、技術、工程、數學)、編程和推理相關的專業數據,同時又在額外 5 萬億個 token 上進行了強化訓練,進一步提升模型的專業能力。

最后,在第三階段,Qwen 團隊用高質量的長文本數據,把模型的上下文長度擴展到了 32K token,讓它能更好地處理超長輸入,適應更復雜的應用場景。


得益于模型架構的優化、訓練數據量的增加,以及更高效的訓練方法,Qwen3 的 Dense(密集)基礎模型整體表現已經追上了體積更大的 Qwen2.5 版本。比如,Qwen3 的 1.7B、4B、8B、14B 和 32B 基礎模型,整體能力分別能對標 Qwen2.5 的 3B、7B、14B、32B 和 72B 模型。

尤其在 STEM(科學、技術、工程、數學)、編程和推理這類專業領域,Qwen3 的表現甚至比 Qwen2.5 的大模型還要更好。

而對于 Qwen3 的 MoE(混合專家)基礎模型來說,它們每次推理時只激活大約 10% 的參數,但依然能做到接近 Qwen2.5 Dense 基礎模型的效果。這意味著,在保持高性能的同時,訓練和推理的成本大大降低了。

后訓練

為了打造既能深度推理又能快速響應的混合型大模型,Qwen3 團隊設計并執行了一套四階段的后訓練流程。具體包括:(1)長鏈推理冷啟動、(2)長鏈推理強化學習、(3)思考與非思考模式融合、以及(4)通用能力強化學習。

在第一階段,該團隊通過大量涵蓋數學、編程、邏輯推理和 STEM 等領域的長鏈推理數據,對模型進行了微調,打下了基本的推理能力基礎。

第二階段則引入了大規模的強化學習,通過設定規則獎勵,引導模型在復雜問題中探索得更深入、更細致。

到了第三階段,訓練目標轉向融合思考模式與快速響應模式。 Qwen 團隊用一套混合了長鏈推理和常規指令微調的數據,對模型進行了再次微調,讓它既能深度思考,又能根據任務需求快速作答,實現兩種能力的平滑切換。

最后,在第四階段,模型接受了更廣泛領域的強化訓練,覆蓋指令遵循、格式規范、Agent 能力等二十多個方向,進一步提升了模型的通用性,同時修正了在早期訓練中可能出現的不良行為。



登頂開源寶座

這次阿里發布 Qwen3,毫無疑問是一次重磅操作。據了解,阿里至今已向全球開源 200 多款模型,千問衍生模型數量已突破 10萬,超越美國 Meta 的 Llama 系列,成為全球最大的開源模型族群。可以說,Qwen3 的發布不是一次普通的升級,而是真正的“登頂”。

外媒 Venturebeat 也對此做出了高度評價,稱對于企業來說,接入 Qwen3 非常高效,幾小時內就能將現有的 OpenAI 接口系統切換到新模型,根本不用幾周。Qwen3 的專家混合模型(MoE),在顯存使用上相當節省,20-30B 規模模型的顯存成本就能實現接近 GPT-4 的推理能力。

更有意思的是,Qwen3 提供了從 0.6B 到 32B 不同規模的密集模型版本,用戶可以從筆記本小規模測試,一路擴展到多卡大集群,過程中幾乎不用調整提示詞。

Qwen3 發布后,在用戶層也受到了廣泛好評。其 GitHub 頁面迅速獲得了 17.9k 個 Star 和 1.2k 的 Fork,熱度可見一斑。


在社交媒體上,不少網友們分享自己的一手體驗感受。

有用戶表示:“我剛試用了 @Alibaba_Qwen 的 Qwen3。

在需要快速響應時,它非常迅速;面對復雜問題時,它會花時間思考。它不是隨便給個答案,而是經過深思熟慮,給出準確的結果。

在編程方面,它表現出色;在數學問題上,它依然冷靜應對。

在語言處理上,它聽起來很自然,不像其他模型那樣怪異。令我驚訝的是,它甚至支持多達 119 種語言。

很久沒見過這么優秀的開源模型了。”


也有網友 Jafar Najafov 感嘆道:“這真是令人震驚。我將 Qwen3 和同規模的 Llama 進行對比,Qwen3 的推理更深入,處理長上下文和解決復雜問題的速度都更快。它完全開源,原生支持混合推理,采用 Apache 2.0 許可證。這不僅僅是更好,簡直是全新的升級!”


甚至蘋果工程師 Awni Hannun 也在第一時間用 M2 蘋果設備跑了 Qwen3 模型,隨即發聲道:“Qwen3 235B MoE(22B 激活參數)在 M2 Ultra 上通過 mlx-lm 運行得非常快。4 位模型大約用 132GB 內存,生成 580 個 token 的速度約為每秒 28 個!”


整體看來,Qwen3 的上線,AI 圈的反響都不錯。

對此,Qwen 團隊開源負責人林俊旸在 X 平臺上表示,Qwen3 的開發過程中,團隊解決了很多重要但容易被忽視的問題,比如:穩定的訓練來擴展強化學習(RL)、平衡多領域數據,以及在提升多語言能力的同時不犧牲質量。

他還透露,未來團隊將把重點轉向訓練能夠進行長周期推理、執行真實世界任務的智能體。


那么,你體驗上了 Qwen3 了嗎?感覺怎么樣?歡迎留言分享你的看法。

https://qwenlm.github.io/zh/blog/qwen3/

https://venturebeat.com/ai/alibaba-launches-open-source-qwen3-model-that-surpasses-openai-o1-and-deepseek-r1/

https://github.com/QwenLM/Qwen3


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
卡薩諾:國米在各方面都被摧毀了,小因扎吉四年都沒嘗試過新東西

卡薩諾:國米在各方面都被摧毀了,小因扎吉四年都沒嘗試過新東西

雷速體育
2025-06-01 20:49:27
滬媒:斯盧茨基看望了愛徒K77,現場看歐冠為錄節目不為引援

滬媒:斯盧茨基看望了愛徒K77,現場看歐冠為錄節目不為引援

雷速體育
2025-06-02 11:10:15
我官拜副省長返鄉聚會,班花處長丈夫當眾嘲諷,結局大反轉

我官拜副省長返鄉聚會,班花處長丈夫當眾嘲諷,結局大反轉

霧島夜話
2025-05-13 16:27:46
以色列宣布已消滅哈馬斯全部核心領導層

以色列宣布已消滅哈馬斯全部核心領導層

桂系007
2025-06-01 14:46:03
《九門》官宣炸屏!陳偉霆軍裝封神,曾舜晞演吳老狗,陳瑤旗袍絕

《九門》官宣炸屏!陳偉霆軍裝封神,曾舜晞演吳老狗,陳瑤旗袍絕

情感大頭說說
2025-06-01 05:19:51
嘲諷小米?余承東:不要斷章取義!雷軍刪除引用“莫言”名言

嘲諷小米?余承東:不要斷章取義!雷軍刪除引用“莫言”名言

老孫說科技
2025-06-02 08:22:11
在最后關頭談判破裂,中方拒絕簽字,馬克龍別無選擇

在最后關頭談判破裂,中方拒絕簽字,馬克龍別無選擇

趣味萌寵的日常
2025-05-19 03:12:39
男星王喜遭男友人迷奸:喝飲料后昏迷,醒后全裸還沾滿了排泄物

男星王喜遭男友人迷奸:喝飲料后昏迷,醒后全裸還沾滿了排泄物

七阿姨愛八卦
2025-05-14 17:18:55
2025年最低工資標準出爐!上海總額最高,北京平均第一

2025年最低工資標準出爐!上海總額最高,北京平均第一

史海流年號
2025-05-27 20:23:19
女子喝醉后趴在巷子里,疑似被人占了便宜,路人:看著讓人心疼

女子喝醉后趴在巷子里,疑似被人占了便宜,路人:看著讓人心疼

唐小糖說情感
2025-05-06 11:36:44
張馨予過節笑得合不攏嘴:自家院子200斤桃子,上百斤枇杷

張馨予過節笑得合不攏嘴:自家院子200斤桃子,上百斤枇杷

楊哥歷史
2025-06-02 10:10:49
西南財經大學建校100周年慶祝大會舉行?施小琳出席 徐青森致辭

西南財經大學建校100周年慶祝大會舉行?施小琳出席 徐青森致辭

四川省教育廳
2025-06-01 15:35:45
《穿上瑜伽褲的縣城女孩》

《穿上瑜伽褲的縣城女孩》

健身S叔
2025-05-29 16:57:45
Sofascore歐冠決賽評分排行榜:杜埃第一!梅西第三!

Sofascore歐冠決賽評分排行榜:杜埃第一!梅西第三!

歷史第一人梅西
2025-06-01 18:35:54
中美在南海的最后較量,轟六k戰略巡航黃巖島后再無美軍自由航行

中美在南海的最后較量,轟六k戰略巡航黃巖島后再無美軍自由航行

劉浶開挖機
2025-06-02 01:24:39
鄭欽文逆天體能!激戰167分鐘后采訪“凡爾賽”:再打2盤也沒問題

鄭欽文逆天體能!激戰167分鐘后采訪“凡爾賽”:再打2盤也沒問題

我愛英超
2025-06-01 22:55:51
這次,方剛的離世,將娛樂圈的人走茶涼人情冷暖,展現得淋漓盡致

這次,方剛的離世,將娛樂圈的人走茶涼人情冷暖,展現得淋漓盡致

叨嘮
2025-06-01 22:51:55
二戰勝利蘇聯從德國都搶走了多少東西?令人震驚的“戰利品”清單

二戰勝利蘇聯從德國都搶走了多少東西?令人震驚的“戰利品”清單

老謝談史
2025-05-31 08:45:43
真炸裂!李晨和baby的瓜爆了,大家都等著看戲

真炸裂!李晨和baby的瓜爆了,大家都等著看戲

豬小果的泡泡糖
2025-03-20 13:22:34
《藏海傳》面具人向藏海摘掉面具自曝身份,藏海與香暗荼獄中相見

《藏海傳》面具人向藏海摘掉面具自曝身份,藏海與香暗荼獄中相見

兩年的海
2025-06-02 12:13:02
2025-06-02 14:43:00
CSDN incentive-icons
CSDN
成就一億技術人
25596文章數 242067關注度
往期回顧 全部

科技要聞

新造車5月再洗牌:問界回前三,小米守第五

頭條要聞

牛彈琴:烏最大膽無人機攻擊 預示著人類一個可怕未來

頭條要聞

牛彈琴:烏最大膽無人機攻擊 預示著人類一個可怕未來

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

章子怡深夜曬娃,兒女正面照曝光

財經要聞

美稱中方違反經貿會談共識 商務部駁斥

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態度原創

教育
親子
手機
時尚
房產

教育要聞

郭圣杰被北京大學保送,決定每天晚上開直播交流

親子要聞

陪寶寶一起數彈珠,小星星竟然還數出了魔丸和靈珠,你們猜對了嗎

手機要聞

2025 年 WWDC 規模可能比前兩屆更小

今年最流行的10條裙子,誰穿誰美!

房產要聞

金地華南落子海南自貿港22萬㎡標桿項目,夯實代建行業領軍者地位

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中宁县| 汉阴县| 六盘水市| 文安县| 西安市| 河池市| 盐山县| 郴州市| 阿城市| 连云港市| 潢川县| 荣成市| 钟祥市| 远安县| 全州县| 岳阳市| 日照市| 杭锦后旗| 大洼县| 南皮县| 洪雅县| 凤山县| 巢湖市| 阿拉善左旗| 即墨市| 黎川县| 阿荣旗| 五家渠市| 边坝县| 台前县| 舒兰市| 策勒县| 望奎县| 海原县| 莲花县| 新竹县| 佛冈县| 肇州县| 武功县| 昌乐县| 若羌县|