99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

科學家提出不思考強化學習微調策略,為計算資源受限提供解決路徑

0
分享至

近期,上海人工智能實驗室實習生李明與張凱鵬研究員的團隊,探討了在多模態大模型規則基礎的強化學習微調(RFT,Reinforcement Fine-Tuning)中顯式思考過程的作用。

該研究揭示了一個具有重要實踐意義的發現:以 DeepSeek-R1 為代表的大模型往往需要“先思考再回答”的推理模式,但在簡單視覺任務場景下,采用“不思考”強化學習(No-Thinking-RL)策略反而能夠顯著提高模型的微調效率和性能表現。

這一現象的背后涉及重要的計算資源優化機制。研究發現,與傳統監督式微調(SFT,Supervised Fine-Tuning)相比,RFT 會顯著增加 GPU 顯存需求。

具體表現為:一個原本僅需單張 80G 顯存 NVIDIA A100 顯卡即可完成的 SFT 任務,而采用 RFT 時可能需要 4 至 8 張同規格顯卡才能滿足需求。這種顯存占用的急劇增加主要源于 RFT 需要并行處理多個較長序列的模型輸出。

“不思考”的強化學習模式能夠強制模型僅輸出精簡的最終答案,從而顯著降低 GPU 內存占用。張凱鵬對 DeepTech 表示,這種新模式對計算資源相對有限的中小企業或學校實驗室具有重要的意義。通過采用這種優化方式,即使僅配備中低端顯卡(如 40GB 顯存)也能夠開展大模型相關的強化學習微調研究,顯著降低了研究門檻。

在實際應用場景中,如移動端、自動駕駛系統、實時響應系統和需要快速迭代的開發環境等,資源約束往往是最關鍵的考量因素之一。在這種條件下,若需滿足快速微調的需求,采用“不思考”微調方式則顯示出其獨特優勢。因此,在移動計算、醫療影像分析等必須在本地完成微調的應用場景中,當資源成本成為主要考量因素時,“不思考”微調方式展現出顯著的實用價值。

值得注意的是,這一研究方向已獲得業界的廣泛關注。當前主流大模型廠商(如阿里云發布的通義千問 2.5 和字節跳動的豆包大模型 1.5)在模型設計中已開始整合思考模式的選擇機制。

這種方法不僅解決了資源受限環境下的微調效率問題,還避免了因計算資源不足導致的性能下降,為邊緣計算和移動端 AI 應用開辟了新的技術可能性。

日前,相關論文以《思考與不思考:基于規則的視覺強化微調中的顯式思考研究》(Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning)為題發表在預印本網站arXiv[1]。李明是第一作者,張凱鵬擔任通訊作者。


圖丨相關論文(來源:arXiv)



“不思考”竟成微調最優路徑?

在研究初期,研究人員提出將基礎規則的強化學習(CLS-RL,Classification Reinforcement Learning)應用于分類任務,試圖通過可驗證的獎勵機制來促進多模態大模型進行顯式思考。

然而,實驗過程中發現,以 DeepSeek-R1 為代表的大模型在強微調時會出現回答長度持續增加的現象,而 CLS-RL 在圖像分類任務中的回答長度卻呈現縮短趨勢。

值得注意的是,訓練完成后模型的思考過程對最終答案的貢獻十分有限。這一現象促使研究人員提出了關鍵假設:在視覺感知任務(如圖像分類)中,模型性能更多依賴于對圖像本身的感知能力而非復雜的推理過程。


圖丨不同微調階段的響應長度和準確獎勵的變化(來源:arXiv)

基于這一重要發現,研究團隊創新性地調整了微調策略,讓模型自發減少不必要的思考環節,直接輸出答案而非采用“先思考再回答”的傳統模式。

在少樣本圖像分類微調任務中,該框架的創新性主要體現在兩個關鍵方面:

首先,研究團隊創造性地將 DeepSeek-R1 的獎勵機制引入分類任務,通過建立可驗證的獎勵體系,將多模態大模型的分類能力與傳統強化學習相結合,使用分類類別名稱作為獎勵函數來替代傳統的監督學習損失函數,這種設計使得模型能夠直接優化整體回答策略而非局部 token 級別的優化。

其次,借鑒 DeepSeek-R1 的成功經驗,采用結構化輸出獎勵機制,要求模型按照預設格式輸出回答,在確保答案可驗證性的同時鼓勵模型進行多樣化探索。


(來源:arXiv)

令人驚喜的是,這種簡化策略不僅在特定領域任務上超越了 CLS-RL,在泛化能力方面也展現出顯著優勢,同時大幅提升了訓練收斂速度,并大幅縮短了訓練時間(減少約 94%)。

結果顯示,在 11 個數據集中,“不思考”策略在 10 個數據集中的表現優于 CLS-RL,最終平均準確率比 CLS-RL 高出 3.14%。這表明,不包含思考過程的 RFT 能夠有效提升模型在分類任務上的性能,優于包含思考過程的 RFT。

與傳統 SFT 方法相比,CLS-RL 有效避免了模型對訓練數據的機械記憶和由此引發的災難性遺忘問題,而是引導模型學習任務的本質特征(如圖像分類中的背景、光照等關鍵要素)。


(來源:arXiv)

這種學習方式使得模型在未經微調的數據集上也能保持良好性能,研究團隊將這種現象稱為“免費午餐”(free-lunch)泛化效應。張凱鵬表示:“這種學習本質特征的能力顯著降低了對特定領域數據的依賴性,不僅有效防止了知識遺忘,還實現了優異的跨領域遷移性能。”

為進一步探究顯式思考對 RFT 過程的影響機制,他們提出了“先回答后思考”(Think-After-Answer)的創新方法,通過讓模型先輸出答案再生成思考過程的方式來減輕思考環節對決策的潛在干擾。

研究人員在數學推理、空間認知和謎題解答等多種任務上對“不思考”策略進行了系統驗證,并對比分析了 2B 和 7B 兩種規模模型的性能表現。

結果顯示,在 2B 模型中,“不思考”的微調方式在所有任務(包括數學推理)上都優于基于思考的 RFT,而“先回答后思考”的表現居中。李明對此解釋說道:“在處理復雜數學問題時,2B 模型由于參數量有限,難以生成高質量的推理鏈條。因此,即使在需要復雜推理的任務中,強制引入思考環節也無法帶來性能提升。”

然而當模型規模擴大到 7B 時,情況發生了顯著變化:更大規模的模型已經具備生成有效思維鏈的能力,在數學等復雜推理任務中,顯式思考的微調方式展現出明顯優勢。


(來源:arXiv)

RFT 的核心優勢在于其能夠顯著降低數據標注和領域適配的成本。具體而言,若模型在自然圖像分類任務上通過 RFT 完成微調,其學到的底層任務知識可能遷移至其他高標注成本領域(如醫療圖像或遙感圖像),從而避免重復收集標注數據的開銷。

這種遷移能力的實現關鍵在于 RFT 是否真正教會模型理解任務本質,而非簡單地記憶訓練數據。如果模型能夠通過 RFT 掌握通用的問題解決范式,而非局限于特定數據分布,那么這種能力有望擴展到更多標注資源稀缺的領域,從而實現跨領域性能提升與成本節約的平衡。

該研究不僅揭示了思考過程在不同任務中的差異化作用,建立了模型規模與思考策略有效性的關聯規律,還為 RFT 在實際應用中的跨領域遷移潛力提供了理論支撐,對推動大模型的高效微調和實際部署具有重要的指導意義。



為構建通用大模型提供新思路

張凱鵬團隊主要聚焦于多模態理解與生成、多模態評測等方向的研究。在評測體系構建方面,他們系統性地研究了包括單模態任務(如語言或代碼相關任務)和多模態任務在內的各類評測任務,并先后構建了一系列涵蓋通用能力和針對各類下游應用場景及專項能力的評測基準體系。

通過全面的評測實踐,研究團隊深刻認識到構建真正通用的多模態大模型面臨巨大挑戰,特別是在實現廣泛場景覆蓋能力方面存在的困難。


圖丨李明(左)與張凱鵬(右)(來源:張凱鵬)

在團隊早期的研究工作中,曾探索將多模態單一模型應用于各類視覺任務,包括多種分類任務及其他細分領域任務。研究發現,即便使用所有細分任務的數據進行聯合訓練,所得模型在多數任務上的表現仍顯著落后于專家模型。

“通過采用自適應思考的強化學習微調方法,有望訓練出在多個細分任務上均表現優異的通用大模型,這一發現為如何使單一模型適應多樣化任務需求方面提供了重要啟示。”張凱鵬說。

基于這一認識,該團隊當前正重點研究如何根據具體任務屬性和模型能力水平,自適應地確定最優的訓練策略和思考模式。這一研究方向為 AI 模型的訓練優化開辟了新思路。

以自動駕駛為例,對于簡單的感知類任務(如障礙物檢測),采用“不思考”的直接響應模式更為高效;而對于復雜的決策任務(如路徑規劃),則需要模型進行深度推理和規劃。

在現有自動駕駛系統中,通常采用多個專家模型并行處理不同任務。若將所有任務數據輸入單一模型,不僅難以實現任務間的協同促進,反而可能引發任務沖突。因此,自適應思考機制(Adaptive-Thinking)的引入,有望減少任務沖突,增強正向遷移,使單一模型能夠勝任更多任務,這對工業場景的實際部署具有重要意義。

與此同時,他們還在積極探索多任務混合訓練的新范式,旨在使混合模型在保持通用性的同時,達到甚至超越專家模型的性能水平,這或將為多模態大模型的發展開辟新的技術路徑。

此外,本次研究的發現還促使該團隊深入思考 AI 系統與人類認知和思考方式的差異,特別是在資源分配和任務處理機制方面的不同特性。這些基礎性的探索不僅有助于揭示 AI 與人類智能的本質差異,也可能為未來大模型框架的創新提供重要參考。

參考資料:

1.https://arxiv.org/pdf/2503.16188

2.https://github.com/minglllli/CLS-RL/tree/main

排版:劉雅坤、何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
臺州女子周某萍,行政拘留!

臺州女子周某萍,行政拘留!

都市快報橙柿互動
2025-06-16 15:00:22
《醬園弄》口碑崩塌,觀眾差評一致,30億票房夢碎

《醬園弄》口碑崩塌,觀眾差評一致,30億票房夢碎

影視高原說
2025-06-14 11:07:03
直播間沉默寡言,這次雷佳音的態度,終究沒給那爾那茜留一絲體面

直播間沉默寡言,這次雷佳音的態度,終究沒給那爾那茜留一絲體面

簡讀視覺
2025-06-13 17:48:41
辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

星光看娛樂
2025-06-11 08:38:31
河南女子醉駕超速追尾撞死一家三口案已被公訴,遇害者家屬:車主明知她醉酒仍給車鑰匙

河南女子醉駕超速追尾撞死一家三口案已被公訴,遇害者家屬:車主明知她醉酒仍給車鑰匙

瀟湘晨報
2025-06-16 11:26:14
拒付50萬酒席錢后續,女兒透露更多,錢老板公司被扒,在本地出名

拒付50萬酒席錢后續,女兒透露更多,錢老板公司被扒,在本地出名

曉風說
2025-06-16 12:32:40
俄軍持續使用化學武器,謊言遭戳破,烏軍州界防線固若金湯

俄軍持續使用化學武器,謊言遭戳破,烏軍州界防線固若金湯

史政先鋒
2025-06-16 16:37:39
海灣研究中心智庫主任:已被逼入困境,伊朗領導層只有三種選擇,退出《核不擴散條約》并加快其鈾濃縮計劃無異于宣戰

海灣研究中心智庫主任:已被逼入困境,伊朗領導層只有三種選擇,退出《核不擴散條約》并加快其鈾濃縮計劃無異于宣戰

和訊網
2025-06-16 16:36:10
巴鐵空軍馳援伊朗,殲-10C掛霹靂-15迎戰F-35?

巴鐵空軍馳援伊朗,殲-10C掛霹靂-15迎戰F-35?

頭條爆料007
2025-06-14 15:21:04
“中國有600枚核彈頭、每年增長約100枚”?外交部回應

“中國有600枚核彈頭、每年增長約100枚”?外交部回應

新京報
2025-06-16 16:51:55
布萊德利·庫珀溫馨接女放學!萌娃穿搭吸睛

布萊德利·庫珀溫馨接女放學!萌娃穿搭吸睛

述家娛記
2025-06-16 15:02:18
一部代表作都沒有,卻高高在上當評委,連謝霆鋒、刀郎都難逃魔掌

一部代表作都沒有,卻高高在上當評委,連謝霆鋒、刀郎都難逃魔掌

明月聊史
2025-06-03 16:20:03
維埃里:我跟梅西說明年想看他參加世界杯,他回應說好的

維埃里:我跟梅西說明年想看他參加世界杯,他回應說好的

懂球帝
2025-06-16 10:27:11
月薪3萬在廣州可以過什么樣的生活?

月薪3萬在廣州可以過什么樣的生活?

七嘴八舌的妙妙
2025-06-16 15:34:09
戴燕妮好直的腿啊!

戴燕妮好直的腿啊!

吃瓜黨二號頭目
2025-06-16 11:48:38
超出小沈陽預估!18歲小女兒遭全面抵制,一家三口里子面子全丟了

超出小沈陽預估!18歲小女兒遭全面抵制,一家三口里子面子全丟了

火之文
2025-06-16 15:19:54
公職人員周五晚上聚餐違規嗎?新華社:區分好違規吃喝與正當餐飲

公職人員周五晚上聚餐違規嗎?新華社:區分好違規吃喝與正當餐飲

緣史記
2025-06-16 15:14:46
連云港扳平比分后丈夫男子興奮展示球衣 蘇州老婆怒喝“脫下來”

連云港扳平比分后丈夫男子興奮展示球衣 蘇州老婆怒喝“脫下來”

直播吧
2025-06-16 13:09:39
罕見!特朗普痛快承認:中國在倫敦談判里給美國“上了一課”

罕見!特朗普痛快承認:中國在倫敦談判里給美國“上了一課”

平祥生活日志
2025-06-15 08:54:04
擁有核武器的9個國家中,最窮的巴基斯坦, 是如何獲得核武器的?

擁有核武器的9個國家中,最窮的巴基斯坦, 是如何獲得核武器的?

文史達觀
2025-05-03 06:45:05
2025-06-16 17:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15298文章數 513785關注度
往期回顧 全部

科技要聞

22年后,馬斯克“殺死”了最初的特斯拉

頭條要聞

以發動"最遠"打擊 夸耀擊落2300公里外伊朗空中加油機

頭條要聞

以發動"最遠"打擊 夸耀擊落2300公里外伊朗空中加油機

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

該管管了!楊坤篡改革命紅歌遭痛批

財經要聞

消費還是得靠00后

汽車要聞

智己LS7煥新版32.99萬正式上市 這次升級很大

態度原創

本地
教育
手機
藝術
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

教育要聞

第三屆成都中考多途徑升學教育展:三位專家支招 破解升學難題

手機要聞

雙芯魔王!REDMI K80至尊版安兔兔跑分突破324萬:同平臺新紀錄

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新民市| 平定县| 保德县| 巩义市| 茂名市| 嘉义市| 类乌齐县| 康平县| 宜川县| 灵石县| 双桥区| 榆社县| 吴江市| 黔江区| 拉萨市| 吴桥县| 新巴尔虎右旗| 苏尼特右旗| 岳阳县| 富宁县| 礼泉县| 上蔡县| 苍溪县| 双柏县| 台南市| 彰化市| 育儿| 平谷区| 定州市| 定兴县| 大余县| 手游| 随州市| 靖江市| 长丰县| 固安县| 天柱县| 昭平县| 古丈县| 慈溪市| 巨鹿县|