此前,據說阿里通義被DeepSeek刺激到了,春節期間一直在加班,這是拿出成果來了。 ?
要知道,DeepSeek-R1 是在1 月發布,僅兩個??月后,通義發布新的 OpenSource 模型,基準測試中各項超越,但體積卻縮小了 20 倍。
?
通義團隊在QwQ-32B發布的推文中寫到:“這次我們研究了擴展 RL 的方法,并基于我們的 Qwen2 取得了一些令人印象深刻的成果。 模型大小為32B 。我們發現 RL 訓練可以不斷提高性能,尤其是在數學和編碼方面,并且我們觀察到 RL 的持續擴展可以幫助中型模型實現與巨型 MoE 模型相媲美的性能。” ?
是不是相媲美呢?在LiveBench 評分中,我們看到 QwQ 32B 的得分介于 R1 和 o3-mini 之間,但成本僅為其十分之一。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.