99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

阿里發布Qwen3-Coder:4800億參數,實現開源代碼模型新SOTA

0
分享至

今天,阿里全新開源代碼模型 Qwen3-Coder 正式發布。


(來源:X)

Qwen3-Coder 擁有多個尺寸,此次發布的是最強大的版本,名為 Qwen3-Coder-480B-A35B-Instruct(以下簡稱 Qwen3-Coder)。

它是一款混合專家(MoE)模型,總參數量高達 4,800 億,激活參數為 350 億,原生支持 256K token 的上下文,并可通過 YaRN 擴展到高達 1 百萬 token,支持 358 種編程語言。


圖 | Qwen3-Coder 在測試中的表現(來源:資料圖)

由于 Qwen3 系列模型的整體調整,Qwen3-Coder 僅支持非思考模式,不生成思考過程。

在注意力機制方面,Qwen3-Coder 采用了分組查詢注意力(GQA)方案,配備 96 個查詢(Q)注意力頭和 8 個鍵/值(KV)注意力頭,并擁有 160 個專家(Expert),其中 8 個專家被激活。


圖 | Qwen3-Coder 模型總覽(來源:Qwen)

據介紹,預訓練階段,Qwen3-Coder 從數據、上下文、合成數據三個不同角度進行擴展(scaling),以提升模型的代碼能力。

在后訓練階段,研究團隊選擇在更豐富的真實代碼任務上擴展代碼強化學習(Code RL)訓練。通過自動擴展測試樣例,他們構造了大量高質量的訓練實例,成功釋放了強化學習的潛力:不僅顯著提升了代碼執行成功率,還對其他任務帶來增益。

此前網友挖出線索,阿里團隊在代碼中介紹 Qwen3-Coder 時寫道:“Qwen3-Coder-480B-A35B-Instruct 是一個強大的編碼專用語言模型,在代碼生成、工具使用和代理任務方面表現出色。”


圖 | 網友先前挖出 Qwen3-Coder 的線索(來源:X)

阿里表示,該模型“擁有卓越的代碼和代理能力”。Qwen3-Coder 在代理式編碼、代理式瀏覽器使用和代理式工具使用上成為了開源模型的 SOTA,可以媲美 Claude Sonnet 4。

Qwen3-Coder 也是受到了網友的大力追捧,代碼庫上線一小時就收獲了 5.1k Star。


(來源:GitHub)

與此同時,阿里還推出并開源了一款用于代理式編程的命令行工具:Qwen Code。

“Qwen Code 基于 Gemini Code 進行二次開發,但我們進行了提示詞和工具調用協議適配,使得 Qwen Code 可以最大程度激發 Qwen3-Coder 在代理式編程任務上的表現。”阿里在官網上表示。


(來源:資料圖)

另外,Qwen3-Coder 也可以和 AI 社區優秀的編程工具結合使用,如 Claude Code、Cline 等。開發者也可以通過阿里云 Model Studio 調用 Qwen3-Coder API。

目前,Qwen3-Coder 網頁版已經上線,筆者第一時間嘗試了它的編程水平。


(來源:https://chat.qwen.ai/)

在只提供一句“克隆推特網頁設計和UI”提示的情況下,Qwen3-Coder 給出的結果還是不錯的:


圖 | Qwen3-Coder 生成的仿推特 UI(來源:資料圖)

相比之下,ChatGPT(免費版)給出的結果則是有些簡陋,雖然文本和幾個功能區域都有,但幾乎沒有視覺元素:


圖 | ChatGPT 生成的仿推特 UI(來源:資料圖)

筆者還讓 Qwen3-Coder 做了一個簡單的網頁版乒乓球游戲,同樣只是一句話提示:“開發一個可以在網站上運行的乒乓球游戲”。

代碼生成后直接在 Artifact 上無縫運行,整個過程不到 20 秒,效果很驚艷,直接用鍵盤就能控制,支持兩人對戰,它還自主發揮加上了獲勝規則:

而 ChatGPT 生成的雖然也能運行,但無論是美觀還是完整性,都遠不及 Qwen3-Coder:


圖 | ChatGPT 生成的乒乓球游戲截圖(來源:資料圖)

最后是官方給出的兩段代碼運行效果,分別是地球 3D 模擬和 Flappy Bird 游戲:

此次發布的 Qwen3-Coder 屬于阿里 Qwen3 系列。

三個月前,阿里發布了千問 3(Qwen3)系列模型,包括兩款混合專家 MoE 模型、六款密集模型和若干模型變種,例如后訓練、FP8 版本等等。

其中的旗艦模型 Qwen3-235B-A22B,總參數量高達 2,350 億(235B),其中激活參數為 220 億(A22B),分布在 94 個深層網絡層中。

另外一個 MoE 模型 Qwen3-30B-A3B,尺寸較小,總參數量 300 億,激活參數量 30 億。


(來源:Qwen3)

當時,Qwen3 系列引入了一種混合方法來解決問題,一個模型同時支持思考模式和非思考模式。但現在這種模式已經被取消。

就在 Qwen3-Coder 發布的前一天,阿里同樣更新了 Qwen3 系列,新模型名為 Qwen3-235B-A22B-Instruct-2507(簡稱 Qwen3-2507),迭代速度令人驚喜。

阿里在官網表示,“經過與社區溝通和深思熟慮后,我們決定停止使用混合思維模式。取而代之的是,我們將分別訓練 Instruct 和 Thinking 模型,以獲得最佳質量。所以我們發布了 Qwen3-235B-A22B-Instruct-2507 及其 FP8 版本,供大家使用。”


(來源:資料圖)

Qwen3-2507 在主流基準測試中表現優異。作為一款“沒有思考能力”的開源模型,它在 GPQA、AIME25 和 LiveCodeBench v6 等測試中均超越了未開啟思考模式的 Claude Opus 4。

可以說,無論是Qwen3-Coder 還是 Qwen3-2507,再加上 DeepSeek 和 Kimi,都是 AI 開源社區寶貴的財富。

在閉源模型各種刷榜的今天,它們難得的推動了大模型技術的普及化,為AI 社區開發者和研究人員提供了強大的免費工具。更重要的是,它們的廣受歡迎讓中國在全球 AI 開源領域占據了重要一席。


(來源:資料圖)

這不僅能促進 AI 技術的普惠發展,還能有效降低創新門檻,讓更多開發者參與進來,共同構建一個更加開放和繁榮的 AI 生態系統。

反過來,這些模型未來在產業應用、學術研究和人才培養等方面都將發揮不可估量的作用,進一步加速中國在 AI 領域的進步。

參考資料:

https://qwenlm.github.io/blog/qwen3-coder/

https://qwenlm.github.io/blog/qwen3/

https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

https://arxiv.org/pdf/2505.09388

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
海牛連遭打擊!羅森文踩人染紅,暴怒大罵主裁,韋世豪疼到打滾

海牛連遭打擊!羅森文踩人染紅,暴怒大罵主裁,韋世豪疼到打滾

奧拜爾
2025-07-23 20:14:47
烏軍證實:俄軍進入紅軍城

烏軍證實:俄軍進入紅軍城

觀察者網
2025-07-23 13:04:11
終于明白了,今年養老金不公布的原因

終于明白了,今年養老金不公布的原因

老屬科普
2025-07-24 00:11:34
隨著阿森納2.2億連簽6人,最強陣容浮現,歐洲諸強已瑟瑟發抖!

隨著阿森納2.2億連簽6人,最強陣容浮現,歐洲諸強已瑟瑟發抖!

田先生籃球
2025-07-23 09:56:30
為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

博覽歷史
2025-07-22 15:20:03
洗牌!今年中考,廣州最狠黑馬,是它!

洗牌!今年中考,廣州最狠黑馬,是它!

廣州PLUS
2025-07-23 22:52:53
二手房拋售狂潮席卷全國:我們制造史詩級變革?將會有什么結果

二手房拋售狂潮席卷全國:我們制造史詩級變革?將會有什么結果

小白鴿財經
2025-07-21 08:36:15
中央氣象臺:天津河北山西內蒙古等地部分地區發生漬澇的氣象風險較高

中央氣象臺:天津河北山西內蒙古等地部分地區發生漬澇的氣象風險較高

界面新聞
2025-07-23 18:07:15
臺媒爆:小S吳宗憲因金鐘獎正式開撕,小S三字回應,吳宗憲害怕了

臺媒爆:小S吳宗憲因金鐘獎正式開撕,小S三字回應,吳宗憲害怕了

手工制作阿殲
2025-07-23 20:01:31
國家隊暫停托市!7月24日,今日三大重要消息沖擊市場

國家隊暫停托市!7月24日,今日三大重要消息沖擊市場

風口招財豬
2025-07-24 01:13:10
不出中國所料:美日達成協議,兩國高層僅高興3小時,噩耗就來了

不出中國所料:美日達成協議,兩國高層僅高興3小時,噩耗就來了

健身狂人
2025-07-23 14:33:50
24省份半年報陸續出爐:廣東穩居首位,四川守住第五

24省份半年報陸續出爐:廣東穩居首位,四川守住第五

時代周報
2025-07-23 15:24:30
比瘋馬秀還卑微?Lisa淪為三公子玩伴,拉姐妹陪舔仍被當笑話!

比瘋馬秀還卑微?Lisa淪為三公子玩伴,拉姐妹陪舔仍被當笑話!

毒舌八卦
2025-07-23 21:35:24
從喜劇黑馬到人設崩塌? 她的走紅,全靠賈玲讓位和抱團炒作!

從喜劇黑馬到人設崩塌? 她的走紅,全靠賈玲讓位和抱團炒作!

毒舌八卦
2025-07-21 20:03:12
朱時茂戳穿了陳佩斯被“排擠”的真相,票房逆襲他讓多少資方臉紅

朱時茂戳穿了陳佩斯被“排擠”的真相,票房逆襲他讓多少資方臉紅

洲洲影視娛評
2025-07-23 15:16:30
陳佩斯新片全場零笑聲?點映場觀眾為何集體沉默!

陳佩斯新片全場零笑聲?點映場觀眾為何集體沉默!

情感大頭說說
2025-07-23 14:23:09
王皓上位無望?王勵勤深思遠慮,馬琳王牌成關鍵,與肖戰正面競爭

王皓上位無望?王勵勤深思遠慮,馬琳王牌成關鍵,與肖戰正面競爭

忠橙家族
2025-07-22 21:32:43
“人到六十,兩不碰,兩不交”,老祖宗的忠告,別不當回事!

“人到六十,兩不碰,兩不交”,老祖宗的忠告,別不當回事!

醫學原創故事會
2025-07-24 00:21:28
倪萍哽咽落淚:非常舍不得他!最新消息傳來,四肢已基本癱瘓……

倪萍哽咽落淚:非常舍不得他!最新消息傳來,四肢已基本癱瘓……

LULU生活家
2025-07-23 19:05:17
李湘現身機場,穿新裙子白又壯,像條大花蟒,身上只有手機最便宜

李湘現身機場,穿新裙子白又壯,像條大花蟒,身上只有手機最便宜

一娛三分地
2025-07-23 17:22:00
2025-07-24 03:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15442文章數 513921關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

親子
旅游
家居
時尚
數碼

親子要聞

方媛三胎日常曝光!37歲穿高跟喝調酒,孕媽圈新標桿?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

晨曦生活 明媚而放松

搶戲《醬園弄》、尬演《長安荔枝》,雷佳音的舒適圈正在反噬

數碼要聞

AppleCare+ 為 iPad 和 Apple Watch 帶來防盜和丟失選項

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 凌源市| 温泉县| 祁连县| 曲水县| 苏尼特右旗| 宁明县| 固镇县| 麻阳| 天等县| 巴东县| 普安县| 耿马| 江都市| 永城市| 祁东县| 潮安县| 县级市| 华亭县| 嘉定区| 临澧县| 仙游县| 东阳市| 镶黄旗| 柯坪县| 西丰县| 广丰县| 舒城县| 百色市| 乐至县| 湖北省| 宝鸡市| 高州市| 讷河市| 神木县| 云阳县| 沾化县| 临夏县| 孝昌县| 镇安县| 炎陵县| 城步|