中國公司在人工智能(AI)領域的創(chuàng)新實力正日益受到全球矚目。此前,DeepSeek率先通過大規(guī)模強化學習(Reinforcement Learning, RL)顯著提升了模型的推理性能,這一突破性進展引發(fā)了世界轟動。在此背景下,阿里巴巴(阿里)QwQ-32B的新型大語言模型,取得了更加驚艷的效果。
▍DeepSeek的開創(chuàng)性貢獻
DeepSeek作為一家中國公司,率先將大規(guī)模強化學習應用于AI模型的后訓練中,成功大幅提升了模型在推理任務上的表現(xiàn)。其旗艦模型DeepSeek-R1擁有6710億參數(shù)(其中370億激活參數(shù)),在數(shù)學推理、編程能力等領域的優(yōu)異表現(xiàn)讓全球AI研究界為之振奮。這一創(chuàng)新為AI模型性能的提升開辟了新的可能性,也為后續(xù)研究奠定了基礎。
▍阿里QwQ-32B:更高效的性能突破
阿里基于DeepSeek的開創(chuàng)性工作,進一步驗證并優(yōu)化了大規(guī)模強化學習技術,推出了QwQ-32B模型。該模型僅擁有320億參數(shù),參數(shù)規(guī)模遠小于DeepSeek-R1,卻在多個基準測試中展現(xiàn)出與之媲美的性能,包括:
- 數(shù)學推理:能夠高效解決復雜的數(shù)學問題。
- 編程能力:生成高質量代碼并通過測試用例驗證。
- 通用能力:在廣泛的任務中表現(xiàn)出色。
更令人驚嘆的是,QwQ-32B還集成了智能體(Agent)相關能力,使其在使用工具時具備批判性思考能力,并能根據(jù)環(huán)境反饋動態(tài)調整推理過程。這一特性顯著增強了模型在實際應用中的靈活性和實用性。
▍創(chuàng)新的強化學習策略
阿里團隊在QwQ-32B的訓練中采用了獨特的強化學習策略,從冷啟動開始,針對數(shù)學和編程任務進行大規(guī)模優(yōu)化。具體方法包括:
- 直接反饋機制:
- 數(shù)學任務:通過驗證答案正確性提供反饋。
- 編程任務:利用代碼執(zhí)行服務器檢查生成的代碼是否通過測試用例。
- 兩階段強化學習:
- 第一階段專注于數(shù)學和編程能力的提升。
- 第二階段引入針對通用能力的訓練,結合通用獎勵模型和基于規(guī)則的驗證器,僅通過少量步驟就顯著提升了整體性能,同時保持了數(shù)學和編程任務的高水平表現(xiàn)。
這一策略不僅驗證了強化學習在提升模型智能方面的潛力,還通過高效的訓練流程實現(xiàn)了性能的最大化。
▍開源共享,推動全球AI發(fā)展
為了加速AI技術的普及與發(fā)展,阿里將QwQ-32B以Apache 2.0開源協(xié)議在Hugging Face和ModelScope上發(fā)布,供全球研究人員和開發(fā)者免費使用。此外,公眾還可以通過Qwen Chat直接體驗這一模型的強大功能,進一步拉近了尖端技術與普通用戶之間的距離。
QwQ-32B的成功再次表明,將強大的基礎模型與大規(guī)模強化學習相結合,能夠在較小的參數(shù)規(guī)模下實現(xiàn)卓越性能,這為未來通向通用人工智能(AGI)提供了可行路徑。
從DeepSeek的創(chuàng)新性探索到阿里的驚艷優(yōu)化,中國企業(yè)在AI領域的接力突破正推動著全球技術的前進。
? AI范兒
要進“交流群”,請關注公眾號獲取進群方式
投稿、需求合作或報道請?zhí)砑庸娞柅@取聯(lián)系方式
點這里關注我,記得標星哦~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.