99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

SFT在幫倒忙?新研究:直接進行強化學習,模型多模態推理上限更高

0
分享至

機器之心報道

編輯:張倩

「盡管經過 SFT 的模型可能看起來在進行推理,但它們的行為更接近于模式模仿 —— 一種缺乏泛化推理能力的偽推理形式。」

隨著 OpenAI 的 o1/o3 和 Deepseek-R1 等具備強大推理能力的大語言模型相繼問世,學界普遍采用「監督微調 + 強化學習」的兩階段訓練范式:先通過推理數據進行監督微調(SFT),再通過強化學習(RL)進一步提升性能。這種成功模式啟發了研究人員將其優勢從純文本領域拓展到視覺 - 語言大模型(LVLM)領域。

但近日的一項研究成果卻給出了一個驚人的發現:「SFT 可能會阻礙學習 —— 經常導致出現偽推理路徑,而 RL 則是在促進真正的多模態推理!」



這個發現來自加州大學圣克魯茲分校和德克薩斯大學達拉斯分校等機構的一個研究團隊,他們深入探討了「SFT+RL」這一經典范式在視覺語言模型開發中的適用性,其中重點關注了兩個核心問題:1)SFT 與 RL 在多模態推理中分別產生何種獨特作用?2)這種兩階段訓練對 LVLM 的推理能力是否確有必要?



  • 論文標題: SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
  • 論文地址:https://arxiv.org/pdf/2504.11468
  • 項目頁面:https://ucsc-vlaa.github.io/VLAA-Thinking/

為系統性地研究這些問題,研究者構建了首個支持 SFT 與 RL 的全方位高質量圖文推理數據集 VLAA-Thinking。下表給出了該數據集的統計數據。



與現有數據集不同,該數據集包含基于 R1 模型「先思考后回答」范式生成的完整推理鏈條,其中 SFT 分支包含適合視覺指令調優的多模態思維鏈(CoT)樣本,強化學習分支則從同源數據中篩選更具挑戰性的樣本以激發深度推理行為。

為有效遷移純文本模型的推理能力,研究者設計了六階段數據處理流程:元數據收集→圖像描述生成→基于 R1 的知識蒸餾→答案重寫→人工驗證→數據劃分。

具體而言,他們將圖像描述和視覺問題輸入 DeepSeek-R1 生成初始推理軌跡,經改寫優化流暢度后,再由 GPT 驗證器進行質量把關,最終形成高質量的 SFT 與 RL 訓練數據。

意料之外的發現

基于 VLAA-Thinking 數據集,研究者系統分析了 SFT 與 RL 在多模態推理中的作用機制。為探究 SFT 的影響,他們詳細考察了數據類型(如是否包含反思性頓悟時刻,即 aha moment)、數據規模和模型能力等因素。

針對視覺語境下的 RL 優化,他們在 GRPO 框架中創新性地設計了融合感知與認知獎勵的混合獎勵函數,包含 2 大類 5 種子函數:規則類問題采用數字識別、多項選擇題、數學運算和邊界框檢測函數,開放類問題則采用稱職的獎勵模型 XComposer-2.5-RM,以及基于參考的獎勵方法來對答案進行評分。

研究者對 SFT 和 RL 進行了廣泛的實驗比較,發現了幾個值得注意的問題:

首先,他們探究了 SFT 和 RL 在多模態推理中的貢獻:與基礎模型相比,SFT 提高了模型在標準任務中的性能,但在增強復雜推理方面能力卻有所欠缺。如圖 1 所示,僅僅通過 SFT 來模仿專家的思維往往會誘發「偽推理路徑」,這是一種膚淺的推理模式,其中可能包含「偽 aha moment」(膚淺的自我反思線索)。



這項研究表明,這些模仿的推理模式會阻礙真正的推理進步,即在 7B 模型上相對性能下降 47%。這一觀察結果也與最近的研究結果一致,即需要反饋和探索信號來驅動高級推理行為。此外,消融分析表明,對于基于規則的獎勵,數學和多選題比其他獎勵更有益,而基于規則和開放式獎勵的結合則能得到最佳性能。



現有研究認為 LVLM 應先通過 SFT 學習推理格式,再通過 RL 反饋進行優化,但研究者發現:如果對已對齊的模型使用 SFT+GRPO,會導致平均 12.7% 的性能下降,且模型規模差異影響甚微 ——7B 模型與更小模型呈現相似的性能衰減。



訓練過程分析表明,響應長度、獎勵分數與性能表現無顯著相關性:經 SFT 的模型雖能獲得更高初始獎勵和更長響應,但實際表現遜于純 RL 訓練模型,這與「更優模型通常產生更長響應」的既有結論相悖。

研究表明:SFT 雖可幫助未對齊模型遵循指令,但其倡導的模仿式推理會限制 RL 階段的探索空間;相比之下,直接從獎勵信號學習能產生更有效的適應性思維。實證研究表明純 RL 方案更具優勢 —— 該團隊訓練得到的 VLAA-Thinker-Qwen2.5VL-3B 模型在 Open LMM 推理榜單 4B 量級模型中位列第一,以 1.8% 優勢刷新紀錄。案例分析表明,該模型生成的推理軌跡更簡潔有效。

使用混合獎勵提升多模態推理

上面的結果表明 SFT 不足以將 R1 的能力遷移到 LVLM。于是,研究者提出了自己的方案。

由于強化學習在增強推理能力方面表現出色,且 GRPO 在文本數學推理任務中被證明比其他方法(如 PPO)更有效、更高效,這促使他們將 GRPO 訓練應用于視覺語言推理任務。



帶有混合獎勵的 GRPO

為了更好地將 GRPO 應用于多模態推理,除了采用類似文本 GRPO 訓練中的基于規則的獎勵機制外,還需要考慮視覺模態引入的額外特征。受多模態大型語言模型綜合評價基準 MME 的啟發(MME 通過感知和認知(推理)來對視覺語言模型進行基準測試),研究者提出了一個用于 GRPO 訓練的混合獎勵框架,如圖 4 所示。該獎勵系統包含五種可驗證的獎勵類型,采用兩種格式,涵蓋了視覺感知和視覺推理任務。



SFT 對 GRPO 訓練的影響

SFT 與多模態推理中的 GRPO 不兼容。 盡管論文中揭示了單獨使用 SFT 會導致多模態推理性能下降,但目前仍不清楚 SFT 是否像 DeepSeekR1 中的「金鑰匙」一樣對 GRPO 訓練起到關鍵作用。研究者使用不同的模型架構進行 GRPO 訓練實驗。具體來說,他們采用了 Qwen2VL-7B-Base 和 Qwen2VL-7B-Inst,并在它們上使用 25K 樣本進行 SFT,隨后進行 GRPO 訓練。

從表 3 中可以觀察到,在 GRPO 訓練之前進行 SFT 的模型,其性能比僅使用 GRPO 訓練的模型更差,平均而言,Qwen2VL-Base 和 Qwen2VL-Inst 在經過 SFT 后比未經過 SFT 的模型性能下降了 8.9%。研究者還發現,SFT 對指令模型的性能損害比對沒有指令跟隨能力的基礎模型更大。例如,經過 SFT 后,Qwen2VL-Inst 的性能比 Qwen2VL-Base 下降了 7.7%,這表明 SFT 可能會削弱對有效 GRPO 訓練至關重要的指令跟隨能力。

綜合這些結果,可以得出結論:在多模態推理的背景下,SFT 目前與 GRPO 不兼容,會損害基礎模型和經過指令調優的 LVLM 的性能。



此外,研究者還發現,較小的 SFT 數據集仍然會影響 GRPO 的性能,如圖 5 所示。



回應長度、獎勵與模型性能并非必然相關。先前的強化學習研究通常認為,更長的回應往往與更好的推理能力以及更高的 RL 獎勵相關。然而,圖 6 中的發現表明,在 GRPO 中,回應長度和獎勵并不是推理能力的可靠指標。



有趣的是,經過 SFT 的模型在訓練初期的獎勵更高。這可能是由于它們在早期通過監督學習獲得了經驗,因為 SFT 和 GRPO 數據共享相同的分布。然而,這些經過 SFT 的模型在訓練過程中獎勵提升有限,而僅使用 GRPO 的模型則迅速超過了它們。

這些趨勢進一步揭示,SFT 僅提供了 RL 訓練的一個更高的「下限」,但它可能會降低「上限」,因為推理相關的 SFT 數據限制了模型的探索路徑。因此,推理是一種內生的、更可能通過強化學習而非 SFT 發展起來的能力。盡管經過 SFT 的模型可能看起來在進行推理,但它們的行為更接近于模式模仿 —— 一種缺乏泛化推理能力的偽推理形式

無 SFT 的 GRPO 訓練

根據前一節的發現,研究者直接進行了 GRPO 訓練,生成了四個模型:VLAA-Thinker-Qwen2-VL-2B、VLAA-Thinker-Qwen2-VL-7B、VLAA-Thinker-Qwen2.5-VL-3B 和 VLAA-Thinker-Qwen2.5-VL-7B。他們還在 Qwen2-VL-7B 的基礎模型上進行了訓練,得到的模型命名為 VLAA-Thinker-Qwen2-7B-Zero。

表 4 中展示了評估結果:



主要發現如下:

  • 直接使用 GRPO 訓練的模型在視覺語言推理任務中顯著優于其基礎模型。
  • 經過更好指令調優的模型在 GRPO 訓練后表現更佳,說明高質量的指令調優能夠增強模型在強化學習后的推理能力。
  • GRPO 訓練能夠誘導模型產生真實的自我反思行為,但「aha」時刻的數量與整體推理性能并不直接相關。(見圖 7)



更多細節請參見原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“不行招我爸去吧”,農學生曬自己的“掛科黃瓜”,網友看完笑麻了

“不行招我爸去吧”,農學生曬自己的“掛科黃瓜”,網友看完笑麻了

妍妍教育日記
2025-06-02 15:15:19
布瓦松法網前生涯總獎金僅14.8萬,本屆法網闖入四強已收獲69萬歐

布瓦松法網前生涯總獎金僅14.8萬,本屆法網闖入四強已收獲69萬歐

直播吧
2025-06-04 22:19:42
福建初三女生在校內意外懷孕,孩子父親的身份,驚動公安廳

福建初三女生在校內意外懷孕,孩子父親的身份,驚動公安廳

一場奇遇日記
2023-11-12 19:24:53
5月SUV銷量榜!Model Y丟冠,理想L6第三,星越L奪燃油銷冠

5月SUV銷量榜!Model Y丟冠,理想L6第三,星越L奪燃油銷冠

購車前線
2025-06-03 22:16:26
銀行問你取錢干嘛?記住3句“萬能話術”,讓柜員閉嘴乖乖辦業務

銀行問你取錢干嘛?記住3句“萬能話術”,讓柜員閉嘴乖乖辦業務

詩詞中國
2025-05-28 12:59:14
美媒吐槽魔術新Logo:Logo設計師就是復制粘貼,改下隊名就行了

美媒吐槽魔術新Logo:Logo設計師就是復制粘貼,改下隊名就行了

雷速體育
2025-06-04 18:26:08
NBA最新消息:杜蘭特加盟湖人,范弗利特與布里奇斯簽約

NBA最新消息:杜蘭特加盟湖人,范弗利特與布里奇斯簽約

陳鋅特色美食
2025-06-04 07:27:57
10倍音速導彈要爆破基輔,澤連斯基公開稱:不在乎俄羅斯是否憤怒

10倍音速導彈要爆破基輔,澤連斯基公開稱:不在乎俄羅斯是否憤怒

南宗歷史
2025-06-04 16:07:04
蘇州廣電:因座位有限和燈光因素,“蘇超”蘇州隊計劃換主場

蘇州廣電:因座位有限和燈光因素,“蘇超”蘇州隊計劃換主場

懂球帝
2025-06-04 13:58:14
凌晨0點突發!湖人與籃網32+22怪獸中鋒聯系在一起,詹東做夢笑醒

凌晨0點突發!湖人與籃網32+22怪獸中鋒聯系在一起,詹東做夢笑醒

埃文凱爾
2025-06-05 00:12:09
一到美國,長相就變

一到美國,長相就變

平原公子
2025-06-05 00:07:03
這才是老百姓的“聰明之選”!百公里油耗5L,僅售4萬多,比國產車還便宜

這才是老百姓的“聰明之選”!百公里油耗5L,僅售4萬多,比國產車還便宜

隔壁說車老王
2025-06-05 08:42:00
美財長放肆喊話中國:想當全球可靠合作伙伴?先改經濟模式!

美財長放肆喊話中國:想當全球可靠合作伙伴?先改經濟模式!

現代春秋
2025-06-04 20:31:52
說不過曹云金,唱不過小沈陽?岳云鵬“非要唱”演唱會能贏否

說不過曹云金,唱不過小沈陽?岳云鵬“非要唱”演唱會能贏否

米椒影視
2025-06-04 16:18:08
俄軍的報復來了!烏軍死傷慘重,媒體:好戲在后頭

俄軍的報復來了!烏軍死傷慘重,媒體:好戲在后頭

Ck的蜜糖
2025-06-05 08:03:28
美國宣布將對哈佛大學國際學生實行簽證限制

美國宣布將對哈佛大學國際學生實行簽證限制

新京報
2025-06-05 08:54:06
河南美女侯麗麗去世,年僅34歲,發病到離開僅5天,前夫曝死因

河南美女侯麗麗去世,年僅34歲,發病到離開僅5天,前夫曝死因

史行途
2025-06-04 17:12:30
繼韓國越南之后,巴基斯坦也貼出中文標語,句句戳中國游客的心

繼韓國越南之后,巴基斯坦也貼出中文標語,句句戳中國游客的心

侃侃兒談
2025-05-05 09:49:14
佛山女教師婚內出軌多人,被“弟弟”頂得腰疼,次日勾搭另一男人

佛山女教師婚內出軌多人,被“弟弟”頂得腰疼,次日勾搭另一男人

社會醬
2025-05-16 17:30:43
暴雷!多家門店跑路關門,老板疑失聯,業主1.63億元血汗錢打水漂

暴雷!多家門店跑路關門,老板疑失聯,業主1.63億元血汗錢打水漂

毒sir財經
2025-04-27 22:42:33
2025-06-05 09:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10582文章數 142330關注度
往期回顧 全部

科技要聞

人形機器人千億投入 年產量不如勞力士一周

頭條要聞

家長請事假陪孩子高考被開除 起訴公司官司打到高院

頭條要聞

家長請事假陪孩子高考被開除 起訴公司官司打到高院

體育要聞

從次輪末到樂透邊緣 楊瀚森的試訓有什么玄機?

娛樂要聞

彭于晏方出面澄清與蔡依林復合戀情!

財經要聞

美聯儲褐皮書:不確定性和關稅壓力加劇

汽車要聞

車機升級 新款AION Y Plus上市售9.98萬起

態度原創

手機
旅游
藝術
家居
房產

手機要聞

真我 GT Neo5 & Neo5 240W 手機獲 realme UI 6 15.0.0.500 更新

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

空間維度 通透復式結構

房產要聞

再奪荔灣銷冠!誰是主城改善標準制定者,終于有了答案!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 揭东县| 措勤县| 比如县| 定陶县| 平原县| 孝义市| 迁西县| 阿尔山市| 河南省| 珠海市| 吴旗县| 石林| 长垣县| 十堰市| 吉安县| 石狮市| 海盐县| 乌海市| 和静县| 天柱县| 宁河县| 洛川县| 尉犁县| 广南县| 南江县| 广安市| 宁波市| 全南县| 容城县| 宾川县| 修武县| 轮台县| 肥东县| 历史| 安塞县| 马鞍山市| 五家渠市| 吉首市| 大丰市| 凤山市| 邓州市|