今天,阿里發布并開源了Qwen3,又把各種榜刷爆了。
大家注意到沒有,Qwen3這一組模型被稱作「混合推理模型」。
啥是混合推理模型?
混合推理模型的核心思想是:像人類一樣靈活地處理問題,既能「快速反應」解決簡單任務,也能「慢工出細活」深入分析復雜問題。
這種設計讓推理模型不再“一根筋”,可以根據任務需求靈活切換思考模式↓
1. 快思考模式
面對簡單問題,AI只需要快速調用已有知識庫,給出即時答案,比如翻譯句子、回答一般常識。
既縮短用戶等待時間,又節省推理開銷。用戶省了tokens,模型運營方省了算力。
2. 慢思考模式
面對復雜問題,AI會像人類一樣「打草稿」,一步步拆解復雜問題,比如解數學題、寫代碼、制定戰略計劃、星盤命理解讀等等。
所以你要知道嘍,大模型算命很消耗算力(tokens)哦
混合推理模型把這兩種能力統一到一個系統里,既不會讓AI在簡單問題上「過度糾結」浪費資源,也不會讓它在難題前「草率下結論」導致錯誤。
舉個例子,大家打游戲刷怪,傳統“一根筋”推理模型無論碰見雜兵小怪還是BOSS,都一律放大招,威力大但是很快就沒藍了。
而混合推理模型就不一樣,懂得看人下菜單。
碰見小怪就平A,碰見BOSS才開大,這樣就能省藍。
如何實現雙模式切換?
以目前公開的混合推理模型(如Qwen3、 Claude 3.7)為例,其切換的方式有兩種:
1. 算法識別:同一模型內的智能分配
通過特殊算法設計,讓模型內部自動識別任務復雜度。
簡單問題 → 直接調用淺層網絡模塊,快速輸出結果
復雜問題 → 激活深層推理思維鏈,逐步拆解問題并驗證中間步驟
2. 顯式控制:用戶主動選擇思考程度
用戶可通過指令(如“請詳細分析”或“快速回答”)手動切換模式。
快速模式:類似普通聊天機器人的即時響應
深思模式:AI會顯示「思維過程」,例如列出推導公式、代碼調試步驟
以剛剛上線的Qwen3為例,用戶可以通過頁面上開關來切換模式,而且還可以設置思考預算,避免過多的Tokens消耗。
(注:DeepSeek官方界面關閉深度思考時,模型會切換到v3模型,實際上是R1和V3兩個模型輪換服務)
回想阿里QwQ剛上線的時候,曾被人吐槽思維鏈太長,“過度思考”,這一版,Qwen3就來了一個大大的改進。
這種方式無需額外訓練兩個獨立模型,用戶也無需部署兩個獨立模型,節省開發成本和部署成本。
混合推理有啥實用價值?
1. 算力革命:能省太多錢
傳統“一根筋”深度推理模型需要消耗大量算力,而混合模型能按需分配資源,降低部署門檻。
比如Qwen3僅需4張H20顯卡(96G版本)即可部署完整版(235B-FP8版本)。
同時,混合推理模型根據問題難易來選擇思考的模式,并可以動態設置思考深度。
當大模型思考可以量(tokens)預算而行,不僅提升了AI實用性,也減少了不必要的算力浪費。
2. 能力躍遷:魚和熊掌可兼得
過去大模型要么擅長快速響應(如Meta Llama系列),要么專精復雜推理(如OpenAI o1),但難以兼顧。
混合模型首次實現了兩者融合,一個模型既會“平A”輸出也能“放大招”,落地打怪的場景就會更加豐富。
擴展閱讀:
本文所講只是狹義「混合推理模型」,廣義上講,以下也算「混合推理模型」。
1、模型混合:一個小模型處理常規問題,一個大模型處理復雜問題。
2、硬件混合:用異構算力來同時完成推理,比如CPU+GPU+NPU協同推理。
3、精度混合:部分推理用FP16,部分用INT8(先混合精度量化,再混合精度推理,這種尤其適合當下很多國產卡不支持FP8的情況)
4、算法混合:加入RAG,先檢索后推理。
不管怎么混,目的都是為了提高速度、降低成本、提升靈活性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.