4月29日凌晨,阿里巴巴開源新一代通義千問模型Qwen3(簡稱千問3),參數量僅為DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等領先模型,登頂全球最強開源模型。
根據官方的說法,千問3的旗艦版本 Qwen3-235B-A22B,在代碼、數學、通用能力等基準測試中,達到了與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 同一梯度的水平。
在奧數水平的 AIME25 測評中,Qwen3-235B-A22B 斬獲 81.5 分,刷新了開源模型的紀錄;在考察代碼能力的 LiveCodeBench 評測中,Qwen3-235B-A22B 突破 70 分,表現甚至超過 Grok 3;在評估模型人類偏好對齊的 ArenaHard 測評中,Qwen3-235B-A22B 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。
此外,小型MoE模型Qwen3-30B-A3B的激活參數數量是QwQ-32B的10%,表現更勝一籌,甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。
千問3總參數量235B,刷新了開源模型的智能水平新高,阿里稱僅需4張H20即可部署千問3滿血版,顯存占用僅為性能相近模型的三分之一。
千問3模型版本包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型。
千問3是國內首個“混合推理模型”,模型支持兩種思考模式:思考模式:在這種模式下,模型會逐步推理,經過深思熟慮后給出最終答案。這種方法適合需要深入思考的復雜問題。非思考模式:在此模式中,模型提供快速、近乎即時的響應,適用于那些對速度要求高于深度的簡單問題。
在預訓練方面,千問3的數據集相比Qwen2.5有了顯著擴展。Qwen2.5是在18萬億個token上進行預訓練的,而千問3使用的數據量幾乎是其兩倍,達到了約36萬億個token,涵蓋了119種語言和方言。
同時,千問3為即將到來的智能體Agent和大模型應用爆發提供了更好的支持。在評估模型Agent能力的BFCL評測中,千問3創下70.8的新高,超越Gemini2.5-Pro、OpenAI-o1等頂尖模型,將大幅降低Agent調用工具的門檻。
據悉,千問3系列模型依舊采用寬松的Apache2.0協議開源,并首次支持119多種語言,全球開發者、研究機構和企業均可免費在魔搭社區、HuggingFace等平臺下載模型并商用,也可以通過阿里云百煉調用千問3的API服務。個人用戶可立即通過通義APP直接體驗千問3,夸克也即將全線接入千問3。
目前,阿里通義已開源200余個模型,全球下載量超3億次,千問衍生模型數超10萬個,已超越美國Llama,成為全球第一開源模型。
與此同時,阿里巴巴千問3開源后,上下游供應鏈連夜進行適配和調用,英偉達、高通、聯發科、AMD等多家頭部芯片廠商已成功適配千問3,在不同硬件平臺和軟件棧上的推理效率均顯著提升,可滿足移動終端和數據中心場景的AI推理需求。
此外,在阿里千問3開源數小時后,華為官方宣布昇騰支持千問3全系列模型部署,開發者在MindSpeed和MindIE中開箱即用,實現千問3的0day適配。隨后海光信息也表示,在“深算智能”戰略引領下,海光DCU迅速完成對全部8款模型的無縫適配+調優,覆蓋235B/32B/30B/14B/8B/4B/1.7B/0.6B,實現零報錯、零兼容性問題的秒級部署。
早在2024年3月,智能手機芯片廠商聯發科,已在天璣9300等旗艦芯片上部署通義千問18億、40億參數大模型,此次適配千問3是雙方芯片級軟硬適配的延續。去年10月,高通在在發布會上宣布了跟騰訊混元和智譜的合作,騰訊混元大模型7B和3B版本、智譜的GLM-4V端側視覺大模型都會在搭載驍龍8 Elite的手機上落地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.