在大模型的訓練中,強化學習算法一直是提升模型性能的關鍵。然而,其面臨著計算資源要求高、訓練速度慢等問題,讓普通企業機構望而卻步。面對行業共性難題,近日,在360數字安全集團冰刃實驗室主導下,打造出“輕量化、高性能”的AI訓練方案:RL-LoRA,在保持模型泛化能力的前提下,體積僅為原始全參數模型的1%-5%,實現強化學習訓練技術引領性突破。目前,360安全大模型已深度融合RL-LoRA技術,相關核心代碼也已正式對外開放下載使用。
大模型強化學習訓練困境:更高性能,更高門檻
當DeepSeek-R1憑借卓越的推理與泛化能力驚艷全球,其背后的核心引擎——強化學習算法GRPO(Generalized Reinforcement Learning Policy Optimization)也備受矚目。GRPO的訓練能夠簡潔有效的提升大模型的推理能力,同時保持更優的泛化能力。然而GRPO訓練對顯存消耗高且速度緩慢,這就對于大模型的強化學習訓練設置了更高的門檻要求,讓一些資源有限的企業以及在垂直領域的模型應用望而卻步。
一方面,強化學習訓練方法對顯存資源要求巨大,在配備TRL+FA2的GRPO設置中,Llama 3.1(8B)在20K上下文長度下,訓練需要510.8GB的VRAM,而主流的娛樂級顯卡容量通常為2GB、4GB或8GB。
另一方面,強化學習訓練相對速度慢,需要持續對訓練效率優化提升。GRPO執行過程中,需同時運行策略模型、參考模型和推理模型,每一次權重更新操作需要頻繁切換模型,不僅引發效率瓶頸,還會產生顯存占用尖峰,使得強化學習訓練速度緩慢。
最后,顯卡資源有限的機構或垂類領域應用大模型時,常面臨在單一服務器上同時推理多個不同功能大模型的需求。LoRA這一低資源訓練方法的重要性愈發凸顯,為高效利用有限資源、實現多模型協同推理提供了關鍵技術支撐。
重大突破:360實現全網首個強化學習LoRA訓練方案
面對行業共性難題,由360冰刃實驗室主導,聯合加州伯克利大學BAIR頂尖學者(S.Xie、T.Lian、J.Pan)及字節跳動Seed團隊專家,在開源項目Volcengine/VERL中貢獻了里程碑式方案:RL-LoRA集成支持,其主要具備以下技術優勢:
更少資源、更高性能
RL-LoRA訓練方法將LoRA引入至GRPO等強化學習訓練全流程,能夠以更低的資源支持更大規模模型的強化訓練。以往8卡A100無法觸及的32B+模型,如今可輕松訓練70B甚至更大尺寸。
實際測試中,對于LoRA_rank=32的0.5B模型,采用RL-LoRA訓練方法,訓練收斂速度和最終性能與常規GRPO訓練幾乎相同,節省算力資源的同時,保證了訓練的正確性和穩定性。
更多批次、更高效率
RL-LoRA訓練方法降低了顯存尖峰,在同等硬件下顯著提升訓練批次(Batch Size),可以支持更多數據并行處理,提升計算資源利用率,進而加快訓練速度,助力模型高效訓練。
輕量化、易部署
訓練產出的LoRA Adapter體積僅為原始全參數模型的1%-5%,微小體積使其復制、分發、加載異常便捷,徹底擺脫動輒數百GB巨型模型的部署枷鎖。
落地實踐:360安全大模型率先落地應用RL-LoRA技術
針對安全垂直領域多場景化的應用需求,360獨創了緊湊型多專家協同大模型(CCoE)架構,該架構與模型基座解耦并具備遷移能力,使得專項任務無需訓練大規模基座參數。在模型基座之上,360針對各類安全研判、分析、生成等任務設計了相互獨立的“專家”,即插即用,少許訓練路由參數就能即可完成新任務“專家”擴展工作。
360安全大模型已深度融合CCoE與RL-LoRA技術, 面向安全運營、威脅狩獵、釣魚研判等眾多安全場景,實現專項微調顯存占用降低、訓練效率提升、集約化部署應用。同時,360通過專項訓練推出100+安全專家智能體,已經為北京市朝陽區政府、重慶大學等近500家用戶在真實環境中完成測試應用與交付,加持政府、金融、央企、運營商、交通、教育、醫療等行業客戶實現智能化安全防御。
目前,RL-LoRA相關核心代碼已正式對外開放下載使用。未來,360繼續深耕AI+安全實踐應用,以創新技術賦能行業智能化、高效化轉型,為國內AI研發生態貢獻力量!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.