網易首頁 > 網易號 > 正文申請入駐

剛剛，阿里最強編程模型開源！4800億參數，Agent分數碾Kimi K2，訓練細節公開

2025-07-23 07:14:46　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯云鵬

智東西7月23日報道，就在剛剛，阿里巴巴Qwen團隊開源了其最新一代旗艦編程模型Qwen3-Coder-480B-A35B-Instruct。Qwen團隊稱，這是該團隊迄今為止最強大的開源智能體編程模型，擁有480B參數，激活參數為35B，原生支持256K上下文，并可通過外推擴展至100萬上下文（輸入），其最大輸出為6.5萬token。

在基準測試中，Qwen3-Coder在編程和智能體任務上擁有不錯的性能，于Agentic Coding（智能體編程）、Agentic Browser-Use（智能體瀏覽器使用）和Agentic Tool-Use（智能體工具調用）三類任務中獲得了開源SOTA，超過Kimi K2、DeepSeek V3等開源模型和GPT-4.1等閉源模型，并可與Claude Sonnet 4這一以編程能力著稱的模型相媲美。

Qwen3-Coder將提供多種尺寸，本次開源的是其最強大的變體，其參數量超過了阿里旗艦模型Qwen3的235B（2350億），小于Kimi K2的1T（1萬億）。據阿里官方介紹，借助Qwen3-Coder，剛入行的程序員一天就能完成資深程序員一周的工作，生成一個品牌官網最快只需5分鐘。

除了模型之外，Qwen還開源了一個由Gemini Code分叉而來的智能體編程命令行工具——Qwen Code，這一工具進行了定制提示和函數調用協議的適配，能更充分的釋放Qwen3-Coder在智能體編程任務上的能力。

這一模型已在阿里云旗下大模型服務平臺百煉上線，其API采用了階梯計費的方式，根據輸入token量調整價格。在256K～1M一檔，其輸入價格為6美元/百萬token，輸出價格為60美元/百萬token。相比之下，Claude Sonnet 4的輸入輸出價格分別為3美元/百萬token、15美元/百萬token，與Qwen3-Coder 128k～256k一檔的價格持平。

Qwen3-Coder也已在Qwen Chat網頁版上線，用戶可免費體驗。此外，其480B版本已在Hugging Face、魔搭等開源社區發布，可供下載和本地部署。Qwen還在一篇博客文章中詳細分享了模型的技術細節。

模型開源地址：https://huggingface.co/Qwen

Qwen Code開源地址：https://github.com/QwenLM/qwen-code

博客地址：https://qwenlm.github.io/blog/qwen3-coder/

一、深夜上線Qwen Chat，海外網友已經玩瘋了

在Qwen團隊官宣Qwen3-Coder發布前，這一模型已經悄然在Qwen Chat官網上線，手速快的海外網友們貢獻了一批實測案例。

這一案例讓Qwen3-Coder打造一個Wordle單詞游戲，規則是在六次嘗試中猜出一個長度為5個字母的單詞。最終，Qwen3-Coder交付的游戲頁面和源代碼如下。

提供案例的網友稱，Qwen3-Coder在指令遵循、UI設計、動畫方面的能力驚人，大部分測試結果一次就跑通了，完全不需要推理。不過，在Wordle游戲設計這一任務上，Qwen并沒有使用單詞解析器，也沒有引用來源，而是決定自行枚舉所有5個字母的單詞。

在一則找不同游戲的開發案例中，可以看到與昨日發布的Qwen3-235B-A22B-2507相比，Qwen3-Coder在審美和完成度上要明顯好于前者。

智東西則嘗試讓Qwen3-Coder開發一個中英文術語庫，并支持增刪改查的基礎功能。可以直觀感受到，由于并未開啟推理，Qwen3-Coder的開發速度極快，20多秒便完成了初步結果，在對其生成結果進行進一步修改時，速度同樣較快。

其最終生成的結果從UI角度上看的確美觀清晰，功能運轉正常，不過并沒有遵循提示詞中使用PHP+MySQL進行開發的指令。其最終交付的結果作為功能演示、原型展示完全足夠，但在真實部署場景中的可擴展性還需進一步優化。

智東西還讓Qwen3-Coder給自己出了一道3D HTML開發題，內容是創建一個3D旋轉的立方體展示臺，六個面顯示不同顏色，自動旋轉，添加光照效果和陰影等。Qwen3-Coder交付的結果完成度不錯，基本實現了主要功能，旋轉動效、陰影等處理到位。

編程能力之外，Qwen3-Coder還提供了許多其他的玩法，包括圖像生成、視頻生成等，并支持文檔、圖片、視頻、音頻等內容的上傳，這可能是通過工具調用實現的。

正式發布后，Qwen官方也提供了Qwen3-Coder的部分用例。

例如，可以讓其打造一個基于物理的煙囪拆除模擬，具有受控爆炸。

打造可互動的太陽系模擬，行星之間的關系基本準確。

開發出的網頁小游戲完成度不錯。

二、預訓練仍有擴展空間，在20000個獨立環境進行強化學習

Qwen團隊在技術博客中分享了Qwen3-Coder的部分訓練細節，該團隊認為，目前預訓練仍有進一步的擴展空間。

預訓練階段，Qwen3-Coder使用了7.5萬億token數據，其中代碼占比70%，因此，模型在編程方面表現出色，同時也保留了通用和數學能力。

上下文方面，Qwen3-Coder原生支持256K上下文，并可通過YaRN擴展至1M，針對倉庫規模和動態數據（例如拉取請求）進行了優化，從而適配智能體編程場景。

Qwen3-Coder的上一代模型Qwen2.5-Coder被運用于擴展合成數據，具體而言，Qwen2.5清洗并重寫了噪聲數據，提升了整體數據質量。

后訓練階段，Qwen團隊認為，與普遍關注競賽級代碼生成不同，所有代碼任務都天然適合執行驅動（execution-driven）的大規模強化學習。該團隊在更廣泛的現實世界編程任務上擴大了代碼強化學習訓練規模。

通過自動擴展多樣化編程任務的測試用例，Qwen團隊創建了高質量的訓練實例，進一步釋放了強化學習的潛力。這不僅提高了代碼執行成功率，還為其他任務帶來了收益。

這也啟發該團隊進一步探索難以解決，卻易于驗證的任務類型，這有望成為強化學習的沃土。

在現實世界的軟件工程任務（例如 SWE-Bench）中，Qwen3-Coder必須與環境進行多輪交互，涉及規劃、使用工具、接收反饋和做出決策。在Qwen3-Coder的后訓練階段，Qwen團隊引入了長視距強化學習（智能體強化學習），鼓勵模型通過使用工具進行多輪交互來解決現實世界任務。

智能體強化學習的關鍵挑戰在于環境擴展。為解決這一問題，該團隊構建了一個可擴展的系統，能夠并行運行20000個獨立環境。該基礎設施為大規模強化學習提供了必要的反饋，并支持大規模評估。

因此，Qwen3-Coder在SWE-Bench Verified中實現了開源模型中的最佳性能，且無需使用推理（測試時擴展）。

同時開源的Qwen Code是一個用于研究目的的命令行界面（CLI）工具，基于Gemini CLI開發，針對Qwen-Coder模型進行了增強的解析器和工具支持。

除了Qwen Code，還可以使用Claude Code與Qwen3-Coder一起編程。只需在Dashscope平臺上申請一個API密鑰，并安裝Claude Code即可開始編程。

結語：更多尺寸即將推出，探索編程智能體自我提升

在Cursor斷供Claude等適用于編程領域的模型之際，Qwen3-Coder的本次開源給國內開發者提供了最新的替代選項。

Qwen團隊透露，他們仍在努力提高Coding Agent的性能，旨在讓它承擔軟件工程中復雜和乏味的任務，從而釋放人類的生產力。

Qwen3-Coder的更多模型尺寸即將推出，可維持部署成本和性能之間的平衡。此外，該團隊正在探索Coding Agent是否可以實現自我提升。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.