網易首頁 > 網易號 > 正文申請入駐

高考數學142分，多學科推理MMMU跑分76.0直逼人類專家，Skywork R1V 3.0用強化學習探索跨學科推理

2025-07-09 10:27:01　來源: 硅星人

北京舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

在電影《銀翼殺手2049》中，虛擬伴侶Joi能通過全息投影與現實世界無縫互動。她能感知主角K的情緒為他挑選音樂，也能理解K的指令，將自己的形象投放到城市的廣告牌上，與他同步體驗雨中漫步。她不僅在看和聽，更在理解K所處的復雜環境和他的潛在需求，并作出恰當且充滿人情味的反應。

這種科幻場景要走入現實，AI需要跨越的，并非只是單純的數據量或算力。有趣的是，現實中的突破路徑和科幻設想有所不同，研究者們發現，真正的關鍵在于通過GRPO（Group Relative Policy Optimization）這樣的強化學習算法，讓AI像人類一樣通過試錯來學習，自己找到整合不同信息的最佳策略。

這種方法恰好針對了當前AI的一個要害，也就是如何讓多模態能力從信息拼接升級為真正的融合理解。傳統方法就像給AI一本厚厚的說明書，告訴它每種情況的標準答案。而強化學習則更像給了AI一個實驗室，讓它通過不斷嘗試來發現規律，當某個推理路徑能更好地解決問題時，就給予高分獎勵，從而強化這種思考方式。

昆侖萬維最新開源的Skywork R1V 3.0，就是這一探索路徑下的產物。它最核心的思路，就是借助強化學習，將在數學等領域學到的嚴謹推理能力，遷移并泛化到物理、化學、醫學乃至更廣泛的現實世界問題中，試圖讓AI離那個理想中的Joi更近一步。

目前，昆侖萬維已全面開源 Skywork R1V 3.0 的所有資源，旨在推動多模態推理社區的進一步發展：

1. HuggingFace地址：

https://huggingface.co/Skywork/Skywork-R1V3-38B

2. GitHub地址：

https://github.com/SkyworkAI/Skywork-R1V

3. 技術報告：

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf

從“偏科生”到“六邊形戰士”，尋找能力的平衡點

如何評價一個AI模型的好壞？在今天，只看它在某個單項上跑分有多高，可能已經不夠了。更重要的，是看它的能力曲線是否平滑，在面對五花八門的問題時，表現是否足夠穩定。

在這方面，R1V 3.0交出了一份很有意思的答卷。它在一個名為MMMU的權威評測上，取得了76.0分的成績。這個分數距離人類初級專家的平均水平（76.2分）只有一步之遙，同時也超過了一些知名的閉源模型，比如Claude 3.7 Sonnet的75.0分和GPT-4.5的74.4分。

MMMU之所以重要，是因為它不像傳統的單科競賽，更像一場包含理工、人文、醫學、藝術等多個領域的“跨學科高考” 。能在這里拿到高分，背后透露出的信息是，這個模型的能力不偏科，知識結構相對均衡。這或許是讓AI智能的“鋸齒”變得更平滑、更可靠的一種體現。

當然，均衡不代表平庸。在物理、邏輯和數學等更考驗硬核推理能力的評測中，它同樣拿下了多個開源模型的最佳成績。

硬核理工科，是騾子是馬拉出來遛遛

跑分終究是跑分。想知道一個模型是真學霸還是紙老虎，得拉出來實戰遛遛。我們直接上題，看看它在不同場景下的真實表現。

在2025年高考數學新一卷的測試中，R1V-3-38B取得了142分的成績，超越了DouBao-Seed-1.6-Thinking（141分）、Gemini 2.5 Pro 0605（140分）、OpenAI-03-high（136分）和Claude-4-Sonnet-Thinking（128分）等多款閉源模型：

具體的解題效率上，我們向模型展示了一道高考物理選擇題，R1V 3.0不僅能給出正確答案，而且明顯“想得更快、更明白”了。它的解題思維鏈比上一代大幅縮短，比如從4千降至7百tokens，推理速度提升了約6倍。

如果說高中題只是開胃菜，那大學的電路分析題就是正餐了。我們給它一道有一定分析深度的英文大學電路理論分析題，它能準確識別題目中“unit ramp”（單位斜坡電壓）的含義，嚴格依據基爾霍夫電壓定律列出微分方程，并用積分因子法系統地求解，推導邏輯自洽、過程條理清晰。這證明了它的推理能力確實有深度。

接下來，我們來看一道具有一定分析深度的英語版的大學電路理論分析題。從中可以看出，即便是這樣具有挑戰性的大學層次題目，R1V 3.0依然能夠準確給出解答。

Consider applying a unit ramp voltage source to a series RL circuit as shown in . Compute the voltages $$v_R (t$$ with zero initial condition for L = 0.1H;

文史醫，AI的“知識盲區”還是“舒適區”？

跳出數理化，在更廣闊的知識領域里又如何？我們向模型提問：“在下圖中，P波代表___________，QRS段表示___________，T波代表_____________。”

面對心電圖，它能頭頭是道地講出P波、QRS段和T波各自的生理意義，就像個醫學院的學生在做課堂報告。

而面對一位有20年肝硬化病史的患者的CT影像，它也能結合病史和影像學特點，推理出“肝細胞癌”的最可能診斷，并列出其他可能性以供鑒別。

從冰冷的醫學影像，切換到充滿溫度的人文藝術，它也能hold住。它能認出《清明上河圖》，并對其藝術風格、歷史背景和深遠影響進行分析。

還能通過一個唐代女樂俑的服飾、妝容和姿態，準確判斷其所屬朝代、社會階層，并結合“墓葬明器”的概念分析其文化意義。

生活大冒險，如何應對“非標”難題

最后來看一些更開放、更接近生活的“非標”問題。比如這個高難度的“看圖猜地方”游戲：我們要求模型根據一張圖片里的建筑、植被、標識牌等線索，推斷出其所在的大洲、國家、城市乃至經緯度。R1V 3.0展現出了極強的綜合認知能力，通過層層推理，最終成功鎖定了地點。

還有一個更生活化的問題：“我買一千瓶這個飲料，中獎的錢的期望是多少？” 。模型需要先通過視覺看懂瓶蓋上的中獎規則，再運用數學能力進行概率計算。

而最考驗“網感”的梗圖理解，它也沒掉鏈子。面對一張涉及人物表情和雙關語的梗圖（Meme）圖片，它能準確識別出其中的幽默感，并解釋這種幽默來源于對“models”一詞在技術和日常語境中不同含義的誤解。

通往穩健推理的后訓練路徑

模型表現這么好，背后用了什么巧妙的技術？Skywork R1V 3.0的技術路徑很有意思，它沒有依賴海量數據和算力硬堆，而是把重點放在了模型的后訓練階段，更像一場精細的調優。

這條路徑始于能力的嫁接與強化。團隊基于R1V 2.0做冷啟動，讓模型一出生就具備不錯的多模態推理基礎。隨后引入GRPO強化學習算法，對模型進行深度激發，讓強大的文本推理能力成功嫁接到多模態任務上。值得一提的是，這個過程借助GRPO強化學習算法，實現高效泛化，僅用了約1.2萬條高質量監督微調樣本和1.3萬條強化學習樣本，就實現了多學科推理能力的顯著提升。

有了初步的能力，如何確保它不是在機械地模仿？為了解決這個問題，團隊引入了一套獨特的關鍵熵驅動驗證機制。他們發現，真正會推理的模型，在思考的關鍵節點會表現出較高的不確定性，代表著思維在發散；而只會模仿的模型則非常確定。這個機制就像一個思考質檢員，能高效地識別出哪些模型版本是真正學會了推理，而不是在機械地模仿風格。

解決了推理的真偽問題，還有一個挑戰是知識的均衡。由于強化學習階段的訓練數據以數學問題為主，模型的能力會有些偏科。為此，團隊在強化學習之后，專門引入了一個針對連接器，也就是連接視覺和語言的橋梁，的微調步驟。這一步有效地平衡了模型的知識結構，讓它在保持理科優勢的同時，也補上了文史、藝術等領域的短板，成了一個更全面的通才。

結語

從最開始那個可能看不懂Meme的AI，到最后這個更均衡、更穩健的模型版本，Skywork R1V 3.0的迭代過程，本身就在試圖解決當前AI最棘手的幾個問題。它證明了，在行業普遍追求更高、更快、更強的同時，通過精細的后訓練調優，讓AI想得更穩、更可靠，是一條同樣重要且可行的路。

這背后是對“可靠性”的追求。尤其在2025年，當AI開始被更嚴肅地探討用于醫療診斷、金融合規等高風險領域時，可靠性已經從一個加分項變成了必選項。未來的AI競爭，可能不再只是參數和分數的比拼，更是看誰的系統在關鍵時刻更值得信賴。一個真正可用的AI，需要具備某種程度的“認知謙遜”：知道自己的能力邊界，并在不確定時，懂得把決策交還給人類。

而昆侖萬維選擇將Skywork R1V 3.0完全開放的做法，本身就體現了這種對可靠性和透明性的追求。實際上，這也不是一次孤立的行動，而是其構建以推理能力為主線的技術體系的一部分，此前他們已陸續開源了Skywork-OR1文本推理模型和SkyReels-V1視頻生成模型等多個項目。這種系統性的開源，以及將技術細節、探索發現都展示給社區的做法，讓人們能夠更好地檢驗和理解模型，這恰恰是通往信任的關鍵一步。

歸根結底，技術的發展終究要回歸到具體的人和具體的問題上，這可能比宏大的敘事要走得更遠。

點個愛心，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.