99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

360開源全網首個RL-LoRA訓練方案,開啟AI高效進化新時代

0
分享至

求高、訓練速度慢等問題,讓普通企業機構望而卻步。面對行業共性難題,近日,在360數字安全集團冰刃實驗室主導下,打造出“輕量化、高性能”的AI訓練方案:RL-LoRA,在保持模型泛化能力的前提下,體積僅為原始全參數模型的1%-5%,實現強化學習訓練技術引領性突破。目前,360安全大模型已深度融合RL-LoRA技術,相關核心代碼也已正式對外開放下載使用。

【1】大模型強化學習訓練困境:更高性能,更高門檻

當DeepSeek-R1憑借卓越的推理與泛化能力驚艷全球,其背后的核心引擎——強化學習算法GRPO(Generalized Reinforcement Learning Policy Optimization)也備受矚目。GRPO的訓練能夠簡潔有效的提升大模型的推理能力,同時保持更優的泛化能力。然而GRPO訓練對顯存消耗高且速度緩慢,這就對于大模型的強化學習訓練設置了更高的門檻要求,讓一些資源有限的企業以及在垂直領域的模型應用望而卻步。

一方面,強化學習訓練方法對顯存資源要求巨大,在配備TRL+FA2的GRPO設置中,Llama 3.1(8B)在20K上下文長度下,訓練需要510.8GB的VRAM,而主流的娛樂級顯卡容量通常為2GB、4GB或8GB。

另一方面,強化學習訓練相對速度慢,需要持續對訓練效率優化提升。GRPO執行過程中,需同時運行策略模型、參考模型和推理模型,每一次權重更新操作需要頻繁切換模型,不僅引發效率瓶頸,還會產生顯存占用尖峰,使得強化學習訓練速度緩慢。

最后,顯卡資源有限的機構或垂類領域應用大模型時,常面臨在單一服務器上同時推理多個不同功能大模型的需求。LoRA這一低資源訓練方法的重要性愈發凸顯,為高效利用有限資源、實現多模型協同推理提供了關鍵技術支撐。

【2】重大突破:360實現全網首個強化學習LoRA訓練方案

面對行業共性難題,由360冰刃實驗室主導,聯合加州伯克利大學BAIR頂尖學者(S.Xie、T.Lian、J.Pan)及字節跳動Seed團隊專家,在開源項目 Volcengine/VERL中貢獻了里程碑式方案:RL-LoRA集成支持,其主要具備以下技術優勢:

更少資源、更高性能

RL-LoRA訓練方法將LoRA引入至GRPO等強化學習訓練全流程,能夠以更低的資源支持更大規模模型的強化訓練。以往8卡A100無法觸及的32B+模型,如今可輕松訓練70B甚至更大尺寸。

實際測試中,對于LoRA_rank=32的0.5B模型,采用RL-LoRA訓練方法,訓練收斂速度和最終性能與常規GRPO訓練幾乎相同,節省算力資源的同時,保證了訓練的正確性和穩定性。



更多批次、更高效率

RL-LoRA訓練方法降低了顯存尖峰,在同等硬件下顯著提升訓練批次(Batch Size),可以支持更多數據并行處理,提升計算資源利用率,進而加快訓練速度,助力模型高效訓練。

輕量化、易部署

訓練產出的LoRA Adapter體積僅為原始全參數模型的1%-5%,微小體積使其復制、分發、加載異常便捷,徹底擺脫動輒數百GB巨型模型的部署枷鎖。

【3】落地實踐:360安全大模型率先落地應用RL-LoRA技術

針對安全垂直領域多場景化的應用需求,360獨創了緊湊型多專家協同大模型(CCoE)架構,該架構與模型基座解耦并具備遷移能力,使得專項任務無需訓練大規模基座參數。在模型基座之上,360針對各類安全研判、分析、生成等任務設計了相互獨立的“專家”,即插即用,少許訓練路由參數就能即可完成新任務“專家”擴展工作。



360安全大模型已深度融合CCoE與RL-LoRA技術, 面向安全運營、威脅狩獵、釣魚研判等眾多安全場景,實現專項微調顯存占用降低、訓練效率提升、集約化部署應用。同時,360通過專項訓練推出100+安全專家智能體,已經為北京市朝陽區政府、重慶大學等近500家用戶在真實環境中完成測試應用與交付,加持政府、金融、央企、運營商、交通、教育、醫療等行業客戶實現智能化安全防御。

目前,RL-LoRA相關核心代碼已正式對外開放下載使用。未來,360繼續深耕AI+安全實踐應用,以創新技術賦能行業智能化、高效化轉型,為國內AI研發生態貢獻力量!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
烏克蘭量產新型彈道導彈 稱將給俄羅斯帶來新“驚喜”

烏克蘭量產新型彈道導彈 稱將給俄羅斯帶來新“驚喜”

財聯社
2025-06-25 19:52:08
李在明借中國名著《西游記》 敲打韓國官員!

李在明借中國名著《西游記》 敲打韓國官員!

看看新聞Knews
2025-06-25 23:03:35
善惡終有報,曾被癌癥折磨的劉歡,已走上另條人生大路

善惡終有報,曾被癌癥折磨的劉歡,已走上另條人生大路

懂體育的小吖頭
2025-06-25 08:59:49
梅西連續第三年成為MLS收入最高球員,超過21支球隊薪資總額

梅西連續第三年成為MLS收入最高球員,超過21支球隊薪資總額

懂球帝
2025-06-26 09:21:20
武契奇稱其宣布停止軍火出口后面臨巨大壓力 已收到爆發抗議活動威脅

武契奇稱其宣布停止軍火出口后面臨巨大壓力 已收到爆發抗議活動威脅

財聯社
2025-06-25 17:19:05
湖人夢中情鋒被壓哨交易!1換2因禍得福,這籌碼比湖人太香了

湖人夢中情鋒被壓哨交易!1換2因禍得福,這籌碼比湖人太香了

蛋疼體育
2025-06-26 10:53:55
萬萬沒想到!就在今天,李夢出現或成轉機,宮魯鳴是否在布局?

萬萬沒想到!就在今天,李夢出現或成轉機,宮魯鳴是否在布局?

冷桂零落
2025-06-26 02:05:03
建設銀行 大額存單最新調整:2025年6月,全新存款利率利

建設銀行 大額存單最新調整:2025年6月,全新存款利率利

錘不倒的拖油瓶
2025-06-26 08:26:27
男人掙錢,為什么要給老婆花?

男人掙錢,為什么要給老婆花?

加油丁小文
2025-06-20 06:00:03
1-0后!又一豪門進入下半區:3大強隊齊聚,曼城贏尤文將進上半區

1-0后!又一豪門進入下半區:3大強隊齊聚,曼城贏尤文將進上半區

體育知多少
2025-06-26 07:44:52
比亞迪經銷商會議重大決定:精簡SKU、庫存熔斷、返利666元/輛

比亞迪經銷商會議重大決定:精簡SKU、庫存熔斷、返利666元/輛

車市紅點
2025-06-24 15:41:51
美國重啟停產十年的生產線,中東這場混亂,中國要看到另一種可能

美國重啟停產十年的生產線,中東這場混亂,中國要看到另一種可能

忠誠TALK
2025-06-26 10:11:52
扁擔女孩高考成績出來了,不是網上那些分數,還是讓她自己公布吧

扁擔女孩高考成績出來了,不是網上那些分數,還是讓她自己公布吧

八斗小先生
2025-06-25 18:18:21
佛學:香爐灰亂埋壞家運?埋這三處竟能聚財旺丁,三代富貴!

佛學:香爐灰亂埋壞家運?埋這三處竟能聚財旺丁,三代富貴!

風起青萍之未
2025-06-25 17:29:40
緊 急 通 知,家里有老人和小孩的,現在馬上告訴他們!

緊 急 通 知,家里有老人和小孩的,現在馬上告訴他們!

小鹿姐姐情感說
2025-06-25 12:35:29
俄羅斯女留學生救人后續!人民日報點贊,榮獲中國新身份

俄羅斯女留學生救人后續!人民日報點贊,榮獲中國新身份

傲傲講歷史
2025-06-25 17:57:12
大陸直接給出重磅承諾!2300萬臺胞對臺當局的幻想,一夜間崩塌了

大陸直接給出重磅承諾!2300萬臺胞對臺當局的幻想,一夜間崩塌了

娛樂督察中
2025-06-25 16:06:09
警惕!跟排協及趙勇“背道而馳”,中國女排的極端飯圈又來了!

警惕!跟排協及趙勇“背道而馳”,中國女排的極端飯圈又來了!

郝小小看體育
2025-06-26 11:00:43
以伊戰爭已無贏家?停戰不到1天,第22輪打擊開始,伊朗炸塌大樓

以伊戰爭已無贏家?停戰不到1天,第22輪打擊開始,伊朗炸塌大樓

荷蘭豆愛健康
2025-06-25 10:37:36
四位“清純玉女”翻車實錄

四位“清純玉女”翻車實錄

橙星文娛
2025-06-25 08:49:58
2025-06-26 11:52:49
司庫財經 incentive-icons
司庫財經
聚焦數字經濟,讀懂商業邏輯
128文章數 16關注度
往期回顧 全部

科技要聞

英偉達股價大漲4%,再登全球第一

頭條要聞

第16順位歸屬開拓者 中國球員楊瀚森20歲生日登陸NBA

頭條要聞

第16順位歸屬開拓者 中國球員楊瀚森20歲生日登陸NBA

體育要聞

楊瀚森成中國歷史第9人 肩負男籃崛起希望

娛樂要聞

寧靜回應與汪峰緋聞太絕了!

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

大六座/超大前備箱 樂道L90將于7月上旬預售

態度原創

本地
藝術
親子
旅游
時尚

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

媽媽也想出門

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

吉井忍:慢跑在格子之外

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 铁岭市| 阿鲁科尔沁旗| 奇台县| 扎赉特旗| 宣恩县| 南陵县| 收藏| 呼图壁县| 华安县| 湘乡市| 浦县| 宣威市| 陇南市| 德令哈市| 洛阳市| 江陵县| 封丘县| 荆门市| 阿城市| 建昌县| 太谷县| 略阳县| 泸定县| 芦山县| 巴东县| 扶余县| 昌黎县| 贡山| 皋兰县| 涪陵区| 苍山县| 青浦区| 北京市| 景泰县| 道真| 菏泽市| 孝昌县| 泸水县| 岐山县| 高清| 德兴市|