網易首頁 > 網易號 > 正文申請入駐

不用千億參數也能合成高質量數據！開源框架讓小模型“組團逆襲”

2025-06-17 16:51:02　來源: 量子位

北京舉報

分享至

GRA團隊投稿
量子位 | 公眾號 QbitAI

無需蒸餾任何大規模語言模型，小模型也能自給自足、聯合提升？

上海人工智能實驗室聯合中國人民大學提出的GRA框架（Generator–Reviewer–Adjudicator）正是這樣一種新范式：

該方法以“多人協作”、“角色分工”的理念為核心，系統性探索了多開源小模型如何通過協同機制生成高質量訓練數據。

實驗結果顯示，在涵蓋數學、代碼、邏輯推理、通識問答等10個主流數據集上，GRA生成的數據質量與單個大型語言模型（如Qwen-2.5-72B-Instruct）輸出相當或更高，并在多數任務中取得了顯著領先。

該項目已開源，詳細可見文末鏈接。

GRA框架：“模擬論文投稿”

如果說傳統方法是單槍匹馬生成數據，那GRA更像是一次“模擬頂會審稿流程”——作者、審稿人、AC各就各位，小模型分工合作、打分評審，確保數據內容質量穩定、標準統一。

1.Generator：像“作者”一樣創作新樣本

GRA會先將任務劃分為多個領域（如數學、編程、邏輯推理等），每個Generator小模型負責在對應領域生成新指令與響應。它們從種子數據中提取關鍵詞與摘要，結合領域知識生成高質量樣本，確保內容豐富、主題聚焦、語義清晰。

2.Reviewer：像“審稿人”一樣嚴格評審

每條數據生成后，會交由多個Reviewer小模型進行兩輪審查：

首先檢查指令是否合理、清晰；
然后全面評估響應的正確性、相關性與語言質量，并打分附評語。

系統會根據平均評分與評分一致性篩選樣本——分數偏低的直接淘汰，意見分歧的則送入下一環節。

3.Adjudicator：像“AC”一樣做出最終裁決

當Reviewer之間出現評分沖突時，Adjudicator小模型將登場，獨立復審并做出最終判斷。它如同學術審稿中的AreaChair，有效避免“多數誤判”，確保留下來的數據客觀、可靠。

4.后處理模塊：讓好數據更“精致”

通過評審后，系統還將進行語義去重、摘要補全與格式統一，進一步提升樣本的一致性與表達質量。

總的來說，GRA構建了一個“模擬頂會審稿”的自動化系統：小模型們輪流扮演創作、審閱、仲裁等角色，在多輪協作中生成高質量訓練數據。

這種機制不僅提升了數據生成的多樣性與公正性，也打破了以往對大模型蒸餾的依賴——實現了真正屬于小模型的“集體智能”路徑。

實驗驗證：“三個臭皮匠賽過諸葛亮”

GRA團隊選取了覆蓋數學推理（如Math、GSM8K）、代碼生成（HumanEval、MBPP）、推理問答（HellaSwag、ARC-C、GPQA、BBH）和通識問答（MMLU、IFEval）四個領域的10個公開數據集，以全面評GRA框架的性能。

GRA框架集成了5個參數量在7–8B之間的開源小型語言模型，包括LLaMA-3.1-8B-Instruct、Qwen-2.5-7B-Instruct、InternLM3-8B-Instruct、Mistral-7B-Instruct-v0.3和Tulu-3-8B。

將GRA生成的數據用于訓練兩個基礎模型（LLaMA-3.1-8B-Base和Qwen-2.5-7B-Base），并與原始種子數據以及Qwen-2.5-32B、Qwen-2.5-72B-Instruct蒸餾生成的數據進行了系統對比。

實驗核心結果表明：

1.明顯優于原始數據：GRA生成的數據在LLaMA-3.1上平均提升了6.18%，在Qwen-2.5上平均提升了11.81%，說明即便在小模型之間協作，GRA也能顯著提升數據質量和訓練效果。

2.能和大模型蒸餾正面硬剛：GRA在LLaMA-3.1生成數據訓練的模型性能，僅比Qwen-72B蒸餾版低0.59%；在Qwen-2.5生成數據訓練的模型性能，平均領先Qwen-72B蒸餾版達8.83%。表明小模型協同機制有望成為更低成本、更高性價比的大模型替代方案。

3.大模型“更大”≠更好：實驗還發現，Qwen-72B相比32B的性能增幅有限，反映出傳統蒸餾范式在進一步擴大參數規模時，收益正逐漸遞減。相比之下，GRA的“群體智慧”路徑更具擴展潛力。

一句話總結：多個小模型合理分工，也能“卷”出媲美甚至超越大模型的訓練效果。這不僅節省算力，更可能重塑我們對“什么才是有效數據合成”的認知。

要素分析：“1+1+1＞3”

從數據多樣性、質量、難度控制等維度對GRA的優勢進行分析，發現以下關鍵因素：

1.數據多樣，補充盲區

通過t-SNE可視化對比發現，GRA生成的數據分布明顯比原始種子數據和大模型蒸餾數據更廣、更均勻，尤其在原始數據未覆蓋的語義空間中表現出良好的補充能力。這表明GRA所產數據具備更強的覆蓋面和多樣性。

2.數據質量靠譜，審得細也審得穩

GRA生成的數據不僅通過多個小模型評審，還在對比實驗中獲得了來自Qwen-2.5-72B的高分認可——其中超過87.3%的樣本評分高度一致。

同時，GRA的評分體系呈現出更平滑、細膩的分布，表明其在數據質量評估中具備更強的分辨力和一致性，驗證了其數據篩選機制的可靠性。

3.數據更“難啃”，訓練更有效

通過Instruction-Following Difficulty（IFD）指標分析，GRA生成數據的任務難度比種子數據高出14.58%，并且與大模型蒸餾數據基本持平（GRA：75.82%，Qwen-72B蒸餾：75.49%）。這意味著GRA能夠構建具挑戰性、高知識密度的數據，為小模型提供更具張力的訓練樣本。

論文地址：https://arxiv.org/abs/2504.12322
項目地址：https://github.com/GX-XinGao/GRA
模型地址：https://huggingface.co/collections/GX-XinGao/gra-6801cba58ceb0074566cdb4e

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.