99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

不用千億參數也能合成高質量數據!開源框架讓小模型“組團逆襲”

0
分享至

GRA團隊 投稿
量子位 | 公眾號 QbitAI

無需蒸餾任何大規模語言模型,小模型也能自給自足、聯合提升?

上海人工智能實驗室聯合中國人民大學提出的GRA框架(Generator–Reviewer–Adjudicator) 正是這樣一種新范式:

該方法以“多人協作”、“角色分工”的理念為核心,系統性探索了多開源小模型如何通過協同機制生成高質量訓練數據。



實驗結果顯示,在涵蓋數學、代碼、邏輯推理、通識問答等10個主流數據集上,GRA生成的數據質量與單個大型語言模型(如Qwen-2.5-72B-Instruct)輸出相當或更高,并在多數任務中取得了顯著領先。



該項目已開源,詳細可見文末鏈接。

GRA框架:“模擬論文投稿”



如果說傳統方法是單槍匹馬生成數據,那GRA更像是一次“模擬頂會審稿流程”——作者、審稿人、AC各就各位,小模型分工合作、打分評審,確保數據內容質量穩定、標準統一。

1.Generator:像“作者”一樣創作新樣本

GRA會先將任務劃分為多個領域(如數學、編程、邏輯推理等),每個Generator小模型負責在對應領域生成新指令與響應。它們從種子數據中提取關鍵詞與摘要,結合領域知識生成高質量樣本,確保內容豐富、主題聚焦、語義清晰。

2.Reviewer:像“審稿人”一樣嚴格評審

每條數據生成后,會交由多個Reviewer小模型進行兩輪審查:

  • 首先檢查指令是否合理、清晰;
  • 然后全面評估響應的正確性、相關性與語言質量,并打分附評語。

系統會根據平均評分與評分一致性篩選樣本——分數偏低的直接淘汰,意見分歧的則送入下一環節。

3.Adjudicator:像“AC”一樣做出最終裁決

當Reviewer之間出現評分沖突時,Adjudicator小模型將登場,獨立復審并做出最終判斷。它如同學術審稿中的AreaChair,有效避免“多數誤判”,確保留下來的數據客觀、可靠。

4.后處理模塊:讓好數據更“精致”

通過評審后,系統還將進行語義去重、摘要補全與格式統一,進一步提升樣本的一致性與表達質量。

總的來說,GRA構建了一個“模擬頂會審稿”的自動化系統:小模型們輪流扮演創作、審閱、仲裁等角色,在多輪協作中生成高質量訓練數據。

這種機制不僅提升了數據生成的多樣性與公正性,也打破了以往對大模型蒸餾的依賴——實現了真正屬于小模型的“集體智能”路徑。

實驗驗證:“三個臭皮匠賽過諸葛亮”

GRA團隊選取了覆蓋數學推理(如Math、GSM8K)、代碼生成(HumanEval、MBPP)、推理問答(HellaSwag、ARC-C、GPQA、BBH)和通識問答(MMLU、IFEval)四個領域的10個公開數據集,以全面評GRA框架的性能。

GRA框架集成了5個參數量在7–8B之間的開源小型語言模型,包括LLaMA-3.1-8B-Instruct、Qwen-2.5-7B-Instruct、InternLM3-8B-Instruct、Mistral-7B-Instruct-v0.3和Tulu-3-8B。

將GRA生成的數據用于訓練兩個基礎模型(LLaMA-3.1-8B-Base和Qwen-2.5-7B-Base),并與原始種子數據以及Qwen-2.5-32B、Qwen-2.5-72B-Instruct蒸餾生成的數據進行了系統對比。



實驗核心結果表明:

1.明顯優于原始數據:GRA生成的數據在LLaMA-3.1上平均提升了6.18%,在Qwen-2.5上平均提升了11.81%,說明即便在小模型之間協作,GRA也能顯著提升數據質量和訓練效果。

2.能和大模型蒸餾正面硬剛:GRA在LLaMA-3.1生成數據訓練的模型性能,僅比Qwen-72B蒸餾版低0.59%;在Qwen-2.5生成數據訓練的模型性能,平均領先Qwen-72B蒸餾版達8.83%。表明小模型協同機制有望成為更低成本、更高性價比的大模型替代方案。

3.大模型“更大”≠更好:實驗還發現,Qwen-72B相比32B的性能增幅有限,反映出傳統蒸餾范式在進一步擴大參數規模時,收益正逐漸遞減。相比之下,GRA的“群體智慧”路徑更具擴展潛力。

一句話總結:多個小模型合理分工,也能“卷”出媲美甚至超越大模型的訓練效果。這不僅節省算力,更可能重塑我們對“什么才是有效數據合成”的認知。

要素分析:“1+1+1>3”

從數據多樣性、質量、難度控制等維度對GRA的優勢進行分析,發現以下關鍵因素:

1.數據多樣,補充盲區

通過t-SNE可視化對比發現,GRA生成的數據分布明顯比原始種子數據和大模型蒸餾數據更廣、更均勻,尤其在原始數據未覆蓋的語義空間中表現出良好的補充能力。這表明GRA所產數據具備更強的覆蓋面和多樣性。



2.數據質量靠譜,審得細也審得穩

GRA生成的數據不僅通過多個小模型評審,還在對比實驗中獲得了來自Qwen-2.5-72B的高分認可——其中超過87.3%的樣本評分高度一致。

同時,GRA的評分體系呈現出更平滑、細膩的分布,表明其在數據質量評估中具備更強的分辨力和一致性,驗證了其數據篩選機制的可靠性。



3.數據更“難啃”,訓練更有效

通過Instruction-Following Difficulty(IFD)指標分析,GRA生成數據的任務難度比種子數據高出14.58%,并且與大模型蒸餾數據基本持平(GRA:75.82%,Qwen-72B蒸餾:75.49%)。這意味著GRA能夠構建具挑戰性、高知識密度的數據,為小模型提供更具張力的訓練樣本。



論文地址:https://arxiv.org/abs/2504.12322
項目地址:https://github.com/GX-XinGao/GRA
模型地址:https://huggingface.co/collections/GX-XinGao/gra-6801cba58ceb0074566cdb4e

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
在中留學伊朗女孩堅持回國,從復旦退學坐火車到新疆,航班卻停了

在中留學伊朗女孩堅持回國,從復旦退學坐火車到新疆,航班卻停了

新語愛八卦
2025-06-17 17:29:29
印度客機墜毀原因找到了,在燃油里摻了屎?這也太埋汰人了

印度客機墜毀原因找到了,在燃油里摻了屎?這也太埋汰人了

熱點網友
2025-06-17 16:38:51
再見了,私人賬戶避稅!即日起,個人賬戶進賬高于這個數將被監控

再見了,私人賬戶避稅!即日起,個人賬戶進賬高于這個數將被監控

說說史事
2025-06-17 12:33:43
中俄決不接受任何人或國家為法西斯主義招魂

中俄決不接受任何人或國家為法西斯主義招魂

看看新聞Knews
2025-06-17 16:02:31
李藝彤一人住上海60平小屋,公開SNH48月入5000元,想退圈當柜姐

李藝彤一人住上海60平小屋,公開SNH48月入5000元,想退圈當柜姐

做一個合格的吃瓜群眾
2025-06-17 15:34:52
人口雪崩!教育年報:全國幼兒園一年關掉2萬所,在園幼兒下降超500萬人

人口雪崩!教育年報:全國幼兒園一年關掉2萬所,在園幼兒下降超500萬人

前瞻網
2025-06-16 11:31:14
這風格不錯吳艷妮社媒曬三角褲緊身衣自拍,秀出好身材

這風格不錯吳艷妮社媒曬三角褲緊身衣自拍,秀出好身材

直播吧
2025-06-17 17:54:07
離婚7年,張靚穎再次讓世界“刮目相看”,獨得6億的馮軻后悔了嗎

離婚7年,張靚穎再次讓世界“刮目相看”,獨得6億的馮軻后悔了嗎

界史
2025-06-17 09:17:53
激戰72小時后,伊朗才明白,打不過以色列的問題出在哪里

激戰72小時后,伊朗才明白,打不過以色列的問題出在哪里

博覽歷史
2025-06-17 10:41:27
俞敏洪:當孩子不尊重你,不必翻臉,只需“烏鴉定律”就夠了

俞敏洪:當孩子不尊重你,不必翻臉,只需“烏鴉定律”就夠了

詩詞中國
2025-06-17 13:12:55
全面爆發,中東大亂斗正式開始

全面爆發,中東大亂斗正式開始

楓冷慕詩
2025-06-17 11:18:08
八百公里收費2.8萬元且無收據,江西公立醫院醫生幫聯系民營救護車遭質疑

八百公里收費2.8萬元且無收據,江西公立醫院醫生幫聯系民營救護車遭質疑

大風新聞
2025-06-17 15:11:14
安徽銀行人員被客戶請吃15元面算違規嗎?新華社:圈子再小也不行

安徽銀行人員被客戶請吃15元面算違規嗎?新華社:圈子再小也不行

楊哥歷史
2025-06-17 10:12:50
2歲男童嘔吐送醫遭漏診不幸亡,醫院被判賠146萬、首診醫生被刑拘

2歲男童嘔吐送醫遭漏診不幸亡,醫院被判賠146萬、首診醫生被刑拘

大風新聞
2025-06-17 20:46:06
茅臺崩了!一個時代結束了

茅臺崩了!一個時代結束了

李東陽朋友圈
2025-06-17 14:25:11
大漲!今晚起,北京全市上調!

大漲!今晚起,北京全市上調!

美麗大北京
2025-06-17 15:08:58
歐盟取消與中國高層經濟對話,中方回應

歐盟取消與中國高層經濟對話,中方回應

FM93浙江交通之聲
2025-06-17 17:51:00
央媒曝光:繼那爾那茜之后,其堂哥10分考入985中央民族大學

央媒曝光:繼那爾那茜之后,其堂哥10分考入985中央民族大學

趙釔是個熱血青年
2025-06-17 12:56:24
四川88個站點熱破紀錄!“火盆”迎降雨,警惕強對流天氣

四川88個站點熱破紀錄!“火盆”迎降雨,警惕強對流天氣

封面新聞
2025-06-17 19:55:00
歐盟取消中歐高層經濟對話?外交部:加強戰略溝通有利于世界

歐盟取消中歐高層經濟對話?外交部:加強戰略溝通有利于世界

澎湃新聞
2025-06-17 15:36:35
2025-06-17 22:35:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10686文章數 176167關注度
往期回顧 全部

科技要聞

日賺1億、存貨1544億,比亞迪的實力與枷鎖

頭條要聞

男童嘔吐送醫遭漏診身亡 首診醫生被刑拘院方賠146萬

頭條要聞

男童嘔吐送醫遭漏診身亡 首診醫生被刑拘院方賠146萬

體育要聞

FMVP之爭?杰倫40+6創紀錄 決戰連獻關鍵分

娛樂要聞

重男輕女還雌競?朱丹行為引爭議

財經要聞

白酒股崩了,誰在“拋棄”茅臺?

汽車要聞

高級感拉滿 極氪9X全新配色“極晝白”亮相

態度原創

游戲
藝術
健康
親子
公開課

魔獸世界:60級裝備成ICC最強神器!可大幅提升全團傷害

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

親子要聞

后媽這樣兇孩子不好吧?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 都兰县| 洪泽县| 桃园县| 桐城市| 织金县| 汾西县| 荣昌县| 西昌市| 仲巴县| 巴楚县| 剑阁县| 万安县| 和林格尔县| 邳州市| 虎林市| 桦南县| 江门市| 马公市| 墨玉县| 永年县| 玉门市| 张掖市| 万山特区| 玛曲县| 南丹县| 梁山县| 庆云县| 南陵县| 洪洞县| 怀化市| 衢州市| 黄骅市| 红河县| 集贤县| 商洛市| 新邵县| 延寿县| 岳普湖县| 天峻县| 新泰市| 麻栗坡县|