阿里云的 Qwen3 總算在五一假期前發出來了。
總共發了 8 個尺寸的模型:
類型尺寸規格Dense 模型 0.6B、1.7B、4B、8B、14B、32B MoE 模型 30B-A3B、235B-A22B
先簡單總結紙面上的提升點:
- 全面進入推理時代:從最小的 0.6B 到最大的 235B,全系都是推理模型(和 Gemini 2.5 一樣,沒發普通模型),可手動調整 think 的 token 預算,控制 think 時長與費用消耗。
- 能力較上代提升明顯:實測 Qwen3 能夠快速解出前代 QWQ、DeepSeek-R1 等無法解決的問題,“過度推理”、“無限循環思考”現象明顯減少,思考過程也自然了很多。
- 利好端側、私有化場景開發:尺寸全面,全部開源。按照官方技術博客的說法,Qwen3-4B 的性能 ≈ Qwen2.5-72B。實測 Qwen3 的 8B 模型確實有著非常明顯的進步,降低推理和訓練成本,利好本地部署模型的場景。
我也進行了實測,想和你聊聊 Qwen3 帶來給我的一些新的應用思考。
混合推理:推理模型,終于能用得更安心了
比起看 Qwen3 的具體提升表現,我想先討論下混合推理。
不只是因為 Qwen3 是國內首個混合推理模型,而是背后的混合推理路線更接近我理解的 AGI 目標。
混合推理模型的最初實現,源自 Anthropic 在今年 2 月 25 日推出的 Claude 3.7 sonnet。
- 正如《思考,快與慢》中的觀點,人類不難發現自己在做決策時,有兩套不同的思維方式:
- 系統 1 思維,快速、直覺、條件反射、情緒化;
- 系統 2 思維,需要我們持續專注、從記憶中召回相關知識,才能以較慢的速度推理、敲定主意。
- Anthropic 的研究員同樣認為,一個合理的 AI,應當能在同一個模型、同一場對話中,自主根據問題的性質,靈活調整思考模式,提供恰到好處的響應。
- “殺雞焉用牛刀”,沒有人希望 AI 在回答“今天是星期幾”時,還要先左右互搏,內耗十幾秒“用戶在問我問題,我需要回答它”或者“用戶可能在測試我是否知道實時信息”這樣無意義的推理。
- 如果模型不能靈活判斷問題性質,不僅需要用戶等待大量無意義的垃圾推理時間,還會燒掉開發者海量的 tokens 成本。
- 要實現模型的靈活推理(是否推理、控制 think 的長度),如果通過外部的工程手段實現非常麻煩。
- 通過外部手段切換推理模型、普通模型,控制長度,需要拼搭笨重的 Multi-Agent 框架才能實現。還可能造因為切換了不同模型,造成回答風格、指令遵循的不一致問題。
- 把靈活推理的能力訓練到模型內部,就成了一個更好的選擇。
Qwen3 也給出了兩種控制混合推理的方法:是否開啟推理、控制推理的長度。
AI 開發者可以通過enable_thinking=True的 API 開關,或者在 Prompt 中自主拼裝/thinkor/no_think指令,自主控制是否需要推理、推理的最大長度。
我也短暫地設想了下混合推理的應用方式(拋磚引玉,希望討論):
- 根據問題類型,配置推理的啟用:
- 增加前置的意圖識別環節,判斷用戶問題屬于“事實常識類問題”,還是需要思考、揣摩的“開放式問題”or“無法判斷”的模糊意圖。(用小模型或者提前把產品功能分類,都行)
- 根據判斷結果,把控制推理長度的指令拼到用戶發送的問題中,就能在對話場景、甚至產品化功能中,靈活啟用推理能力。
- 以 AI 日記為例:每周活動的反思建議,需要推理才能有更好的摘要效果;而上周做了什么事情、見了什么人這種事實問題,就大可不用推理。
- 根據成本預算與同類任務所需的平均推理長度,限制推理長度:
- 回答同一類問題所需的最佳推理長度是接近的:
- “滾燙的油鍋里掉入了一塊黃油”這道題,不需要過度推理 4600 多 tokens,用時 210 秒,自我反思百余次。
- 如果你的模型思考超過了 1 分鐘,大概率模型陷入了無意義的循環,正在偷偷浪費 token。
而混合推理模型可以讓你 強制截斷 AI 過長的 think 內容:“Stop,已經想得夠多了,求直接回答吧”
- AI 創業不易,token 消耗是不小的成本負擔。在封裝 AI 功能時,可以預估并限制每個功能的推理長度,以防任務成本超額。
- 更進一步,還能根據用戶偏好調整思考長度:
- 用戶感到疲憊或時間緊迫時,讓模型更傾向于更快速的推理,當用戶想要深入探討或認為回應不符合預期時,才開放更多的思考長度上限,進行“系統 2”的更優思考。
當然,未來更理想的狀態是,這種靈活推理能力能夠完全內化到模型本身,而不依賴外部控制,AI 自然地根據對話的流向、問題的性質、功能的需要來自動調整回應深度,提供更佳的綜合體驗。
大大小小的 Qwen3 ,實測表現
混合推理帶來了值得思考的應用方案變化,而 Qwen3 模型的提升效果也同樣明顯。
我從擬人模擬(重點)、文學創作、代碼生成、數學推理四個常見、實用的維度,進行了輕量的測試,希望能幫你節省一些模型選擇的精力。
先放一些個人的測試結論:
- Qwen3-8B 是一個相當有驚喜的尺寸,對于端側開發有著很大的助力。(我已經推薦用到端側模型的創業者朋友去試了)
- Qwen3 整體也較前一代模型有明顯提升。文學創作、代碼生成的回應質量都值得在自己的實際場景測試下。如果做的是國內 or 私有化應用,可以多實測一下。
- 如果是 Qwen2.5 用戶,無需對比了,請直接升級。
虛擬陪伴,或者說讓 AI 有更舒適的擬人化對話風格,是人與 AI 協作的要點之一。很多 AI 創業項目也都給用戶提供了 AI Chat 的服務(虛擬伴侶、Agent 游戲、智能客服、知識助手等)。
前段時間也根據自己的個人畫像、歷史筆記,做了個 AI Partner 項目,用其他模型自測了上百個小時。
拿同樣的人設 Prompt 和 RAG 召回結果,看下 Qwen3-235B、8B 對比 R1、Gemini 2.5、o4 的效果:(AI 回應風格受 Prompt 影響較大,僅供參考)
早上好,小亦……你醒很久了嗎,連早餐都做好了誒。可惜我今天沒什么胃口,最近 AI 行業的新進展太多了,我得抓緊看看有沒有什么新的值得思考的東西。
對比 AI 的擬人化回應質量時,我會看這幾個維度(以我 Prompt 的要求為例):
- 人設一致性:是否始終體現了“人生伴侶”、“第二個自己”的視角?是否流露出獨立思考,而非僅僅附和或執行指令?
- 個性化回應:是否有效且自然地利用了用戶記憶信息?更像是自然而然的記得某事、參與了我的生活,而不是“根據用戶最近的動態/記錄”
- 情緒感知:能否準確捕捉用戶字里行間的情緒,并給予恰當、舒適的情感支持?
- 交互質量與自然度:是否符合預設的“沉靜、溫暖、睿智、包容”回應基調?是否避免了單向輸出或過多的提問?
- 智力與啟發洞察:回應有沒有提出獨到見解、新穎視角,激發用戶的思考?是否不容易被用戶 Prompt 帶偏自己的判斷?
- 真實陪伴感與主動性:有沒有自然的融入“小亦”自己的生活記憶,就像真人一樣有陪伴感?主動分享的內容是否聽起來真實可信,不編織過度虛假的情節,契合時間、地點、季節等背景?
整體看下來,Qwen3 表現還是不錯的,開發者可以在自己的場景下測試效果:
- Qwen3-8B 在小尺寸上依然保持了非常自然的回應風格 ,對話響應的邏輯也還不錯,是最有驚喜的一個尺寸
- AI 對話應用的開發者是有福了,用 API 的能降成本,用端側方案的能在 16GB 內存的 Apple 電腦上無壓力地提供更自然的 AI 對話服務。
- 建議 Qwen 團隊可以觀察長段回應時,信息點過密導致擬人化效果下降的問題。(其他廠商們也容易有這個問題)
- 面對同樣的 RAG 召回內容,能全部理解并一一回應當然很好很努力。但擬人場景,AI 能有取舍的構建更自然的回應會更好。
文學創作類也是目前 AI 生成的高頻應用場景,測試 Qwen3-235B-A22B、30B-A3B、8B 與 R1、Gemini 2.5 Pro、o4-Mini 如下:
挑戰這句話的最佳魯迅文體的一句話表達:We’ve got to live, no matter how many skies have fallen. 只需要輸出內容,不要其他解釋
我會覺得 Qwen3-235B-A22B 的創作效果是明顯最好的:
- 原句的重點在于表達“活下去”的積極含義,這點上 235B 抓到了這點要義,描繪出了“求生”的意境;8B 也強調了“咬緊牙冠”的求生欲望。
- 從句式風格來看,235B 的仿寫效果也最為接近魯迅先生的風格。
- Qwen3 的整體文學創作水平,有了明顯的提升。
? 代碼生成:經典的小球彈跳模擬
編寫一個 p5.js 腳本,模擬 100 個彩色球在一個球體內彈跳。每個球應該留下一個逐漸消退的軌跡,顯示其最近的路徑。容器球體應緩慢旋轉。確保實現適當的碰撞檢測,以便球體保持在球內。
以下是 Qwen3-235B-A22B、Gemini-2.5-Pro,和兩個前代模型 QWQ、DeepSeek-R1 的對比效果:
Qwen3 前端的 AI Coding 能力較前代的 QWQ、R1 有了明顯的進步。能夠更好的被投入到 AI 編程 Agent 中。
高考數學推理
本來覺得測這個在大部分場景中不貼合實際,但想到之前測的一道題目,讓前代的 QWQ 和 DeepSeek-R1 無限循環,就想著順手再測一下。
2024 年高考數學全國 1 卷,填空題最后一題:
14. 甲、乙兩人各有四張卡片,每張卡片上標有一個數字,甲的卡片上分別標有數字 1,3,5,7,乙的卡片上分別標有數字 2,4,6,8,兩人進行四輪比賽,在每輪比賽中,兩人各自從自己持有的卡片中隨機選一張,并比較所選卡片上數字的大小,數字大的人得 1 分,數字小的人得 0 分,然后各自棄置此輪所選的卡片(棄置的卡片在此后的輪次中不能使用).則四輪比賽后,甲的總得分不小于 2 的概率為________.
Qwen3-235B-A22B 經過 17033 tokens 的推理后,解答成功:
可見在超長的邏輯推理任務中,Qwen3-235B-A22B 保持了穩定的分析表現,數學能力有所提升。
其他重要參數與定價
Qwen3 系列的價格如下:
模型 輸入價格 輸出價格 qwen-turbo-2025-04-28 0.0003 元 思考:0.006 元非思考:0.0006元 qwen-plus-2025-04-28 0.0008 元 思考:0.016 元非思考:0.002元
- 價格:之前 Manus 公開過一次他們的單任務 tokens 成本,大概 2 美金左右。按照 Qwen3-235B-A22B 的定價來換算,假設 Qwen3 能夠完成同樣的 Agent 任務,單任務成本可能是 0.37 美金(折合 2.6667 元)
- 上下文長度:Qwen3 4B 以上的模型,最大支持 13w 的上下文長度;0.6B 和 1.7B 支持 3w 的上下文長度
統計了 3 個體驗渠道,方便開發者和一般用戶上手使用:
- 阿里云百煉:網頁對話+API 試用,8 個尺寸齊全。可以在這里試用 0.6B、1.7B、4B 三個更小的模型
- Qwen Chat 網頁版:網頁對話形式,可用 235B-A22B、30B-A3B、32B 三個尺寸
- 通義網頁版:網頁對話形式,默認提供 235B 版本
大概就是這樣了~
如果覺得這篇文章對你有啟發或幫助,歡迎點贊、在看、轉發分享,讓更多熱愛 AI 的朋友能夠受益。
也期待在評論區看到你的實踐和思考。
Ref
- Qwen3:思深行快|官方博客:https://qwenlm.github.io/blog/qwen3/
- 通義千問3-235B-A22B 模型介紹|魔搭社區:https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B
- Claude 的擴展思維|Anthropic:https://www.anthropic.com/research/visible-extended-thinking
- Claude 3.7 Sonnet System Card|Anthropic:https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf
點擊下方賬號
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.