魚羊 發自 凹非寺
量子位 | 公眾號 QbitAI
卷瘋了,通義千問真的卷瘋了。
Qwen3-Coder剛炸完場,就隔了一天,馬上全新開源Qwen3系列最強推理模型——Qwen3-235B-A22B-Thinking-2507。
怎么個最強法?一登場,再次刷新SOTA,在各項測評中一舉拿下「全球最強開源模型」寶座,比肩頂級閉源模型Gemini-2.5 Pro、o4-mini。
國外網友都饞哭了:
關鍵是,就在這短短一周里,算上前兩天開源的新基礎模型Qwen3-235B-A22B-Instruct-2507(非思考版),和Qwen3-Coder,通義千問是完成了一波開源三連。
開源還不算,各個出手即SOTA:接連斬獲基礎模型、編程模型、推理模型三項全球開源最強。
這個模型更新強度和效能提升,妥妥地引領全球了。
就問小扎慌不慌(doge)。
新版Qwen3推理模型,登頂全球開源最強
正如DeepSeek R1是在V3基礎上打造的推理模型,Qwen3全新推理模型,是基于Qwen3-235B-A22B打造——就是235B參數那版MoE,激活參數22B。
官方表示,新推理模型主要提升了3方面的核心能力:
- 邏輯推理、數學、科學和編碼等任務上性能顯著提升;
- 能更好地遵循指令、使用工具、生成文本;
- 支持256K原生上下文,適用于高度復雜的推理任務。
而此番刷新SOTA,登頂開源最強,確實不是那種一丟丟提升,仔細看測評分數,那是「真有點東西」。
先來看推理方面。
在超高難度測試「人類最后的考試」中,最新的2507版推理模型,相較4月底初發布的Qwen3推理模型,分數從11.8分提升到了18.2分。
超過了DeepSeek-R1-0528的17.7分,和OpenAI o4-mini在高性能推理模式下拿到的18.1分。
編程方面,在LiveCodeBench v6和CFEval中,Qwen3新推理模型甚至超越了Gemini-2.5 Pro等閉源業界標桿,刷新SOTA。
除此之外,在知識、對齊、智能體、多語言等基準評測中,Qwen3新推理模型都有比肩閉源模型的表現,達到開源SOTA。
紙面上的成績屬實是相當優秀,那么具體使用起來,這個新推理模型表現又會如何?
我們也簡單測試了一下。
還是那道經典題:7米長的甘蔗如何通過2米高1米寬的門?
Qwen3-235B-A22B-Thinking-2507思考了43秒,最后給出的答案是:
思考過程如下:
相較之下,o4-mini的答案就簡單粗暴了些。
模型三連開源,摘下三項SOTA
前面也說到,全新推理模型,其實是本周阿里開源第三彈。
總結起來畫風其實是醬嬸的:
前兩彈震得大家伙腦袋嗡嗡的,各種實測部署正上頭呢,通義實驗室的卷王們啪地又甩出了一對王炸。
就說Qwen3-Coder,開源即刷新AI編程SOTA——不僅在開源界超過DeepSeek V3和Kimi K2,連業界標桿、閉源的Claude Sonnet 4都比下去了。
網友們實測起來,小球彈跳效果是這樣的:
HuggingFace首席執行官Clement Delangue、Perplexity首席執行官Aravind Srinivas等大佬都第一時間加入了討論、點贊:
- 這是開源的勝利。
Qwen3-Coder火爆,帶動阿里千問API調用量暴漲。
海外知名模型API聚合平臺OpenRouter數據顯示,阿里千問API調用量過去幾天已突破1000億Tokens,在OpenRouter趨勢榜上包攬全球前三,是當下最熱門的模型。
基礎模型領域,Qwen3最新版本——Qwen3-235B-A22B-Instruct-2507(非思考版)也登頂全球開源第一,在GPQA(知識)、AIME25(數學)、LiveCodeBench(編程)、Arena-Hard(人類偏好對齊)、BFCL(Agent能力)等眾多測評中表現出色,超越Claude4(Non-thinking)等領先閉源模型。
中國開源,卷到了世界最前沿
三連開源,連摘三冠,對于中國開源力量而言,或許還只是一個開端。
有一說一,打從DeepSeek爆火、Llama 4翻車,要說開源領域哪股勢力最為活躍,成為新的風潮引領者,還得看神秘的東方力量。
每有開源新王誕生,DeepSeek、Qwen、Kimi……看來看去,還是made in China。
「中國確實將開源提升到了一個新高度」,越來越多地被討論、被贊同。
關鍵是,正如黃仁勛最新一次在北京所說,開源模型方面,「中國發展速度極快」。
以Qwen為例,目前,阿里已開源300余款通義大模型,通義千問衍生模型突破14萬個,已經真真正正超越此前的全球開源老大Llama系列,成為全球第一開源模型家族。
阿里方面透露,未來三年,阿里巴巴還將投入超過3800億元用于建設云和AI硬件基礎設施,持續升級全棧AI能力。
更重要的是,開源和閉源的差距也正在這種中國速度中被壓縮。
增長曲線的交叉點何時出現?尚未可知,但國產模型的身位已經實實在在排在了全球最前沿。
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.