在一個(gè)多月的沉寂之后阿里的大招終于放出來了,昨晚千問 3 全系列模型開源。
這幾個(gè)月雖然新的模型不斷發(fā)布,但是大多數(shù)都是不開源的模型,o3 和 Claude 3.7 雖然強(qiáng),但是貴的離譜。
萬眾期待的 Llama 4 更是拉了坨大的,基本不可用,Meta 也是表演了一波電表倒轉(zhuǎn)。
所以千問團(tuán)隊(duì)實(shí)際上已經(jīng)替代了 Meta 在 LLM 開源界的地位。
這段時(shí)間 Agent 和 AI 編碼的發(fā)展對(duì)模型能力提出了更高的要求,但是國(guó)內(nèi)產(chǎn)品可用的模型相當(dāng)有限。
索幸這次千問沒有辜負(fù)大家的期望:
模型能力大幅提升,再次刷新開源榜單、代碼數(shù)學(xué)能力都有提升,還原生支持了各種 Agents 功能。
藏師傅這里除了介紹模型升級(jí)內(nèi)容外,也對(duì)模型進(jìn)行了一系列測(cè)試,確實(shí)非常厲害,尤其是 Agents 和 MCP 支持,國(guó)內(nèi) Agents 產(chǎn)品真的苦模型久矣。
模型介紹
先介紹一下模型本身,藏師傅也用自己的網(wǎng)頁生成提示詞,寫了一個(gè)可視化網(wǎng)頁幫助大家了解這次千問 3 的內(nèi)容:https://u3vbq47090.app.yourware.so/
這次阿里一共開源了 8 個(gè)不同尺寸的模型,基本各個(gè)場(chǎng)景都覆蓋到了,既有 0.6B 可以在手機(jī)上跑的也有 235B 的 MoE 推理模型,具體的型號(hào)有:
- 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B
- 2款MoE模型:Qwen3-30B-A3B和旗艦版 Qwen3-235B-A22B
最大的這個(gè) Qwen3-235B-A22B 在強(qiáng)勁性能的基礎(chǔ)上,部署成本顯著下降。
Qwen3-30B-A3B 的激活參數(shù)只有 3B ,性能卻可以跟 QWQ-32B 打平,成本只有10%,可以在消費(fèi)級(jí)顯卡上部署。而且這次還有0.6B的小參數(shù)模型適合在移動(dòng)設(shè)備上面部署。
這次的千問 3 可以說是全方位升級(jí),在性能上千問3的每個(gè)尺寸得分都是同尺寸開源最強(qiáng)。
Qwen3-235B-A22B 在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中,與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 相比,表現(xiàn)出極具競(jìng)爭(zhēng)力的結(jié)果。
此外,小型 MoE 模型 Qwen3-30B-A3B 的激活參數(shù)數(shù)量是 QwQ-32B 的 10%,表現(xiàn)更勝一籌
千問3原生支持推理和非推理兩種模式,用戶支持硬開關(guān),也支持根據(jù)問題自行判斷的形式。
簡(jiǎn)單問題可以快速輸出節(jié)約資源,復(fù)雜問題就會(huì)啟用推理模型逐步推理。
而且千問3跟市面上其他推理模型不同,在模型切換的時(shí)候基本不會(huì)損失性能。
原生支持各種 Agents 功能和 MCP 協(xié)議
在專門評(píng)估模型Agent能力的BFCL評(píng)測(cè)中,千問 3 的得分也是開源模型最高的。
原生支持MCP協(xié)議,而且具備強(qiáng)大的function calling能力,如果配合千問開源的 Qwen Agent 框架可以快速低成本部署Agent 服務(wù)。
這個(gè)對(duì)于國(guó)內(nèi)一眾 Agent 應(yīng)用來說太重要了,產(chǎn)品能力直接提升一個(gè)臺(tái)階。
那么如何使用千問 3 呢?
你可以在千問 app 或者千問網(wǎng)頁版(https://chat.qwen.ai/)使用,阿里百煉平臺(tái)也提供了 API。
如果你想要本地體驗(yàn)的話 Ollama 也支持了全系的千問 3 模型和 GGUF 量化版本,如果你不知道你的 Mac 內(nèi)存可以運(yùn)行多大的模型的話我這里讓 o3 整理了一張圖片供你參考。
代碼能力測(cè)試
代碼能力這里就要掏出藏師傅祖?zhèn)髑岸颂崾驹~了還有那個(gè)特斯拉財(cái)報(bào)分析文件,讓他基于文檔和我的提示詞生成網(wǎng)頁,可以看到相較于 Qwen 原來的前端代碼水平進(jìn)步相當(dāng)之大,基本上理解和執(zhí)行了提示詞中的所有要求。
## 歸藏的 Bento Grid 網(wǎng)頁生成提示詞 0423 幫我將這個(gè){特斯拉財(cái)報(bào)文檔}生成一個(gè) HTML 動(dòng)態(tài)網(wǎng)頁,具體要求是: 1. 使用Bento Grid風(fēng)格的視覺設(shè)計(jì),純黑色底配合特斯拉紅色#E31937作為高亮 2. 強(qiáng)調(diào)超大字體或數(shù)字突出核心要點(diǎn),畫面中有超大視覺元素強(qiáng)調(diào)重點(diǎn),與小元素的比例形成反差 3. 中英文混用,中文大字體粗體,英文小字作為點(diǎn)綴 4. 簡(jiǎn)潔的勾線圖形化作為數(shù)據(jù)可視化或者配圖元素 5. 運(yùn)用高亮色自身透明度漸變制造科技感,但是不同高亮色不要互相漸變 6. 模仿 apple 官網(wǎng)的動(dòng)效,向下滾動(dòng)鼠標(biāo)配合動(dòng)效 7. 數(shù)據(jù)可以引用在線的圖表組件,樣式需要跟主題一致 8. 使用HTML5、TailwindCSS 3.0+(通過CDN引入)和必要的JavaScript 9. 使用專業(yè)圖標(biāo)庫如Font Awesome或Material Icons (通過CDN引入) 10. 避免使用emoji作為主要圖標(biāo) 11. 不要省略內(nèi)容要點(diǎn)
Agent 能力測(cè)試
這部分才是重頭戲,這里藏師傅用了之前最復(fù)雜的一個(gè) MCP 提示,模型需要一次性調(diào)用六個(gè)不同的 MCP 和同一個(gè) MCP 中不同的功能完成任務(wù),還得生成對(duì)應(yīng)網(wǎng)頁。
以往這個(gè)測(cè)試只有 Claude 3.7 或者 Gemini 2.5Pro 才能完成,不僅是對(duì)工具使用能力的考驗(yàn),更是對(duì)上下文長(zhǎng)度、提示詞理解的考驗(yàn)。
整個(gè)測(cè)試需要用高德 MCP 查詢當(dāng)前位置的天氣,然后給出穿衣建議,然后用 Exa MCP 搜索當(dāng)?shù)匦侣劊笥?Obsidian MCP 檢索最近收藏的文章,最后講這些整理為口播稿傳給 Minimax MCP 生成播客音頻,在之后基于返回的音頻文件和口播內(nèi)容寫一個(gè)網(wǎng)頁展示。
我用同樣的提示詞在 Deepseek V3 0324 試了一下 V3 只調(diào)用了兩個(gè) MCP 就停止了。
但是千問 3 完成的非常好,直接一次性搞定了所有 MCP 的調(diào)用并且正常生成了網(wǎng)頁,這個(gè)太牛了,基本上代表著在 Agent 服務(wù)上千問追上了那些頂尖閉源模型。
請(qǐng)創(chuàng)建一個(gè)以我為中心的個(gè)性化播客系統(tǒng),包含根據(jù)我的位置、當(dāng)?shù)刭Y訊和個(gè)人收藏內(nèi)容生成的播客音頻,以及一個(gè)設(shè)計(jì)精美的網(wǎng)易云音樂風(fēng)格播放頁面。 ## 信息收集與內(nèi)容生成流程 1.**位置與天氣信息** - 使用高德地圖API (gaode MCP) 獲取我的當(dāng)前位置 - 獲取當(dāng)前天氣狀況、溫度范圍和空氣質(zhì)量 - 基于天氣數(shù)據(jù)提供合理的穿衣建議 2.**本地新聞?wù)?* - 通過 Exa MCP 查詢我所在地區(qū)昨日的重要新聞 - 篩選3-5條最具影響力或與我可能相關(guān)的新聞 - 以簡(jiǎn)明扼要的方式總結(jié)每條新聞要點(diǎn) 3.**個(gè)人收藏內(nèi)容分析** - 通過 Obsidian MCP 訪問我最近7天內(nèi)收藏在{剪藏文件}文件夾的文章 - 提取關(guān)鍵主題和有價(jià)值的見解 - 將這些內(nèi)容組織為2-3個(gè)值得分享的要點(diǎn) 4.**播客腳本創(chuàng)作** - 創(chuàng)建一個(gè)虛擬主播角色,賦予其獨(dú)特的個(gè)性和語言風(fēng)格 - 按照以下結(jié)構(gòu)組織內(nèi)容:開場(chǎng)問候→位置介紹→天氣播報(bào)與穿衣建議→本地新聞速覽→個(gè)人收藏內(nèi)容精華→結(jié)束語 - 總時(shí)長(zhǎng)控制在3-5分鐘 - 融入自然的轉(zhuǎn)場(chǎng)和適當(dāng)?shù)挠哪兀3謱I(yè)播客的流暢感 5.**音頻合成** - 使用 Minimax MCP 選擇最適合虛擬主播風(fēng)格的聲音 - 生成自然、富有表現(xiàn)力的播客音頻 - 確保語速、語調(diào)和停頓符合專業(yè)播客標(biāo)準(zhǔn) ## 網(wǎng)頁設(shè)計(jì)與實(shí)現(xiàn)要求 ### 視覺設(shè)計(jì) - 基于**網(wǎng)易云音樂**風(fēng)格,以白色為底色,搭配#FE1110(或相近)的高亮色 - 主次分明的視覺層次,運(yùn)用**超大字體/數(shù)字**突出核心內(nèi)容 - 中英文混排設(shè)計(jì):中文使用大號(hào)粗體,英文作為精致小字點(diǎn)綴 - 高亮色采用自身透明度漸變制造科技感,避免不同高亮色互相漸變 ### 界面元素 - 使用簡(jiǎn)潔勾線風(fēng)格的圖形化元素呈現(xiàn)數(shù)據(jù)和配圖 - 播放控制區(qū)域設(shè)計(jì)醒目且易操作 - 設(shè)置明確的內(nèi)容區(qū)域劃分,包括:播客標(biāo)題、日期、天氣信息、新聞?wù)蛡€(gè)人收藏內(nèi)容板塊 ### 交互與動(dòng)效 - 模仿Apple官網(wǎng)的滾動(dòng)動(dòng)效體驗(yàn) - 實(shí)現(xiàn)音頻播放進(jìn)度條與時(shí)間顯示 - 關(guān)鍵內(nèi)容在滾動(dòng)時(shí)有優(yōu)雅的出現(xiàn)和強(qiáng)調(diào)效果 ### 技術(shù)實(shí)現(xiàn) - 使用HTML5、TailwindCSS 3.0+(通過CDN引入)和必要的JavaScript - 引入專業(yè)圖標(biāo)庫如Font Awesome或Material Icons(通過CDN) - 實(shí)現(xiàn)響應(yīng)式設(shè)計(jì),確保在桌面和移動(dòng)設(shè)備上都有良好體驗(yàn) - 避免使用emoji作為主要圖標(biāo),保持設(shè)計(jì)的專業(yè)性 ### 內(nèi)容呈現(xiàn) - 播客文字內(nèi)容完整展示,分段清晰 - 天氣和新聞數(shù)據(jù)通過簡(jiǎn)潔圖表可視化展示 - 為個(gè)人收藏內(nèi)容添加簡(jiǎn)潔的標(biāo)簽或分類標(biāo)識(shí) ## 輸出要求 1. 完整的播客腳本文本 2. Minimax生成的音頻鏈接 3. 可直接使用的完整HTML/CSS/JS代碼,實(shí)現(xiàn)上述所有功能和設(shè)計(jì)要求 如遇任何API訪問限制,請(qǐng)使用合理的模擬數(shù)據(jù),并在最終輸出中標(biāo)注。
結(jié)尾
千問 3 這次開源全系列模型和 Agent使用的能力不僅填補(bǔ)了高性能開源模型的空缺,更是科技普惠的代表,把AI紅利變成了一種公共資源。在閉源模型不斷拉高價(jià)格門檻的當(dāng)下,技術(shù)的可及性或許比極致性能更為重要。
開源不僅是共享代碼和模型權(quán)重,更是共享未來。
如果覺的有收獲的話可以幫我點(diǎn)個(gè)或者喜歡,也可以推薦給你有需要的朋友。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.