今天凌晨,知名大模型訓練、開發平臺Predibase發布了,首個端到端強化微調平臺(RFT)。
與傳統的監督式微調相比,RFT不依賴大量的標注數據,而是通過獎勵和自定義函數來完成持續的強化學習,同時支持無服務器和端到端訓練方法,從數據管理、訓練模型到應用部署可以在同一個平臺全部完成。
也就是說,你只需要一個瀏覽器,設定微調目標、上傳數據、就能完成以前非常復雜的大模型微調流程。
在線體驗地址:https://predibase.com/reinforcement-fine-tuning-playground
為了展示RFT強大功能,Predibase根據阿里開源的Qwen2.5-Coder-32B-instruct,微調了一個專門用于將PyTorch代碼翻譯為Triton的模型。
這是一個大多數LLM都難以完成的任務,需要對兩個框架都有深入的理解,并且需要復雜的推理能力來考慮計算效率,并且Qwen2.5-Coder-32B-instruct在微調之前準確率比較低。
通過RFT,Predibase在訓練過程結合了冷啟動監督式微調、強化學習和課程學習,并且只使用了十幾個標記數據點。
在Kernelbench數據集上進行的基準測試顯示,Qwen2.5-Coder-32B-instruct經過強化后,其正確率比DeepSeek-R1和OpenAI的o1高出3倍,比Claude 3.7 Sonnet高出4倍以上,而模型的體量卻比這三個小很多。
目前,Predibase已經開源了微調后的Qwen2.5-Coder-32B-instruct模型。
開源地址:https://huggingface.co/predibase/Predibase-T2T-32B-RFT
技術優勢方面,RFT不依賴大量標注數據,而傳統方法需要海量標注數據來指導模型學習,這些數據通常需要人工標注,成本高昂且耗時。RFT則通過獎勵函數來引導模型學習,無需大量標注數據,獎勵函數可根據任務的特定需求評估模型輸出,來引導模型的優化目標。
RFT的適應性與靈活性更強。傳統方法依賴于標注數據的質量和數量,若標注數據有限或不準確,模型性能會受限。而RFT允許用戶根據具體任務需求自定義獎勵函數,靈活定義模型優化目標。
例如在代碼生成任務中,可定義獎勵函數驗證代碼正確性;在問答任務中,可定義獎勵函數評估答案相關性和準確性。
RFT具備持續改進能力。傳統方法通常是一次性過程,模型訓練完成后難以繼續改進。RFT則支持持續改進,隨著獎勵函數優化和更多反饋數據積累,模型能不斷學習和改進,適應任務需求變化。
在訓練與推理效率方面,傳統方法通常需在本地環境中進行,對硬件資源要求高,且需手動管理訓練和部署過程。
而Predibase提供的RFT平臺是完全托管的無服務器平臺,用戶無需管理底層服務器或基礎設施,平臺自動處理訓練、部署和推理全過程,大大降低了開發和運維復雜性。此外,RFT利用多LoRA框架和流式微批處理技術,實現了高效的訓練和推理。
RFT還支持復雜任務的課程學習。傳統方法在處理復雜任務時,通常需大量標注數據覆蓋各種情況,否則模型難以學習到有效策略。RFT則支持課程學習,即從簡單到復雜逐步訓練模型,使其能處理更復雜任務,這在需要深度推理的任務中特別有效。
在模型部署方面,傳統方法部署模型通常需額外工具和配置,且難以保證高性能。Predibase的推理引擎原生支持RFT訓練的模型,并提供高性能的無服務器部署解決方案,用戶可將訓練好的模型快速部署到生產環境中,并獲得行業級服務水平支持。
RFT還具備更好的泛化能力。傳統方法可能會導致模型過度擬合標注數據,從而在未見過的數據上表現不佳。RFT通過獎勵函數引導模型學習,使模型能更好地泛化到未見過的數據上,提升其在實際應用中的魯棒性。
Predibase表示,DeepSeek在開源R1之后,在全球AI領域產生了巨大影響,讓很多人意識到強化學習微調對訓練大模型的重要性。受此啟發,他們開發了這個端到端無服務器強化微調平臺。
本文素材來源Predibase,如有侵權請聯系刪除
報告下載
大 佬觀點分享
關于RPA、AI、企業數字化轉型
(點擊文字即可閱讀)
| |
| | |
| | |
| | |
| |
行業知識交流分享,結識擴展人脈圈層
公眾號后臺回復【RPA】或者【流程挖掘】
可受邀加入相關的交流群
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.