聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
開源大模型正在進入中國時間。
Kimi K2風頭正盛,然而不到一周,Qwen3就迎來最新升級,235B總參數量僅占Kimi K2 1T規模的四分之一。
基準測試性能上卻超越了Kimi K2。
Qwen官方還宣布不再使用混合思維模式,而是分別訓練Instruct和Thinking模型。
所以,此次發布的新模型僅支持非思考模式,現在網頁版已經可以上線使用了,但通義APP還未見更新。
Qwen官方還透露:這次只是一個小更新!大招很快就來了!
但總歸就是,再見Qwen3-235B-A22B,你好Qwen3-235B-A22B-2507了。
By the way,這個名字怎么取得越來越復雜了。
先來看看這次的“小更新”都有哪些~
增強了對256K長上下文的理解能力
新模型是一款因果語言模型,采用MoE架構,總參數量達235B,其中非嵌入參數為234B,推理時激活參數為22B
在官方介紹中顯示,模型共包含94層,采用分組查詢注意力(GQA)機制,配備64個查詢頭和4個鍵值頭,并設置128個專家,每次推理時激活8個專家。
該模型原生支持262144的上下文長度。
這次改進主要有以下幾個方面
- 顯著提升了通用能力,包括指令遵循、邏輯推理、文本理解、數學、科學、編碼和工具使用。
- 大幅增加了多語言長尾知識的覆蓋范圍。
- 更好地符合用戶在主觀和開放式任務中的偏好,能夠提供更有幫助的響應和更高質量的文本生成。
- 增強了對256K長上下文的理解能力。
在官方發布的基準測試中可以看到,相較于上一版本,新模型在AIME25上準確率從24.7%上升到70.3%,表現出良好的數學推理能力。
而且對比Kimi K2、DeepSeek-V3,Qwen3新模型的能力也都略勝一籌。
為了提高使用體驗,官方還推薦了最佳設置:
Qwen3新版本深夜發布就立刻收獲了一眾好評:Qwen在中等規模的語言模型中已經領先。
也有網友感慨Qwen在開啟新的架構范式:
One More Thing
有趣的是,就在Qwen3新模型發布的前兩天,NVIDIA也宣稱發布了新的SOTA開源模型OpenReasoning-Nemotron
該模型提供四個規模:1.5B、7B、14B和32B,并且可以實現100%本地運行。
但實際上,這只是基于Qwen-2.5在Deepseek R1數據上微調的模型。
而現在Qwen3已經更新,大招已經被預告。
隨著Llama轉向閉源的消息傳出,OpenAI遲遲不見Open,開源基礎大模型的競爭,現在正在進入中國時間。
DeepSeek丟了王座,Kimi K2補上,Kimi K2坐穩沒幾天,Qwen的挑戰就來了。
體驗鏈接:https://chat.qwen.ai/
[1]https://x.com/Alibaba_Qwen/status/1947344511988076547
[2]https://x.com/giffmana/status/1947362393983529005
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.