99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

高考數學142分,多學科推理MMMU跑分76.0直逼人類專家,Skywork R1V 3.0用強化學習探索跨學科推理

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

在電影《銀翼殺手2049》中,虛擬伴侶Joi能通過全息投影與現實世界無縫互動。她能感知主角K的情緒為他挑選音樂,也能理解K的指令,將自己的形象投放到城市的廣告牌上,與他同步體驗雨中漫步。她不僅在看和聽,更在理解K所處的復雜環境和他的潛在需求,并作出恰當且充滿人情味的反應。

這種科幻場景要走入現實,AI需要跨越的,并非只是單純的數據量或算力。有趣的是,現實中的突破路徑和科幻設想有所不同,研究者們發現,真正的關鍵在于通過GRPO(Group Relative Policy Optimization)這樣的強化學習算法,讓AI像人類一樣通過試錯來學習,自己找到整合不同信息的最佳策略。


這種方法恰好針對了當前AI的一個要害,也就是如何讓多模態能力從信息拼接升級為真正的融合理解。傳統方法就像給AI一本厚厚的說明書,告訴它每種情況的標準答案。而強化學習則更像給了AI一個實驗室,讓它通過不斷嘗試來發現規律,當某個推理路徑能更好地解決問題時,就給予高分獎勵,從而強化這種思考方式。

昆侖萬維最新開源的Skywork R1V 3.0,就是這一探索路徑下的產物。它最核心的思路,就是借助強化學習,將在數學等領域學到的嚴謹推理能力,遷移并泛化到物理、化學、醫學乃至更廣泛的現實世界問題中,試圖讓AI離那個理想中的Joi更近一步。

目前,昆侖萬維已全面開源 Skywork R1V 3.0 的所有資源,旨在推動多模態推理社區的進一步發展:

1. HuggingFace地址:

https://huggingface.co/Skywork/Skywork-R1V3-38B

2. GitHub地址:

https://github.com/SkyworkAI/Skywork-R1V

3. 技術報告:

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf

1

從“偏科生”到“六邊形戰士”,尋找能力的平衡點

如何評價一個AI模型的好壞?在今天,只看它在某個單項上跑分有多高,可能已經不夠了。更重要的,是看它的能力曲線是否平滑,在面對五花八門的問題時,表現是否足夠穩定。

在這方面,R1V 3.0交出了一份很有意思的答卷。它在一個名為MMMU的權威評測上,取得了76.0分的成績 。這個分數距離人類初級專家的平均水平(76.2分)只有一步之遙 ,同時也超過了一些知名的閉源模型,比如Claude 3.7 Sonnet的75.0分和GPT-4.5的74.4分 。

MMMU之所以重要,是因為它不像傳統的單科競賽,更像一場包含理工、人文、醫學、藝術等多個領域的“跨學科高考” 。能在這里拿到高分,背后透露出的信息是,這個模型的能力不偏科,知識結構相對均衡。這或許是讓AI智能的“鋸齒”變得更平滑、更可靠的一種體現。

當然,均衡不代表平庸。在物理、邏輯和數學等更考驗硬核推理能力的評測中,它同樣拿下了多個開源模型的最佳成績 。



1

硬核理工科,是騾子是馬拉出來遛遛

跑分終究是跑分。想知道一個模型是真學霸還是紙老虎,得拉出來實戰遛遛。我們直接上題,看看它在不同場景下的真實表現。

在2025年高考數學新一卷的測試中,R1V-3-38B取得了142分的成績 ,超越了DouBao-Seed-1.6-Thinking(141分) 、Gemini 2.5 Pro 0605(140分) 、OpenAI-03-high(136分) 和Claude-4-Sonnet-Thinking(128分) 等多款閉源模型:


具體的解題效率上,我們向模型展示了一道高考物理選擇題,R1V 3.0不僅能給出正確答案,而且明顯“想得更快、更明白”了。它的解題思維鏈比上一代大幅縮短,比如從4千降至7百tokens,推理速度提升了約6倍。

如果說高中題只是開胃菜,那大學的電路分析題就是正餐了。我們給它一道有一定分析深度的英文大學電路理論分析題 ,它能準確識別題目中“unit ramp”(單位斜坡電壓)的含義,嚴格依據基爾霍夫電壓定律列出微分方程,并用積分因子法系統地求解,推導邏輯自洽、過程條理清晰 。這證明了它的推理能力確實有深度。

接下來,我們來看一道具有一定分析深度的英語版的大學電路理論分析題。從中可以看出,即便是這樣具有挑戰性的大學層次題目,R1V 3.0依然能夠準確給出解答。

Consider applying a unit ramp voltage source to a series RL circuit as shown in . Compute the voltages $$v_R (t$$ with zero initial condition for L = 0.1H;

1

文史醫,AI的“知識盲區”還是“舒適區”?

跳出數理化,在更廣闊的知識領域里又如何?我們向模型提問:“在下圖中,P波代表___________,QRS段表示___________,T波代表_____________。”


面對心電圖,它能頭頭是道地講出P波、QRS段和T波各自的生理意義,就像個醫學院的學生在做課堂報告 。

而面對一位有20年肝硬化病史的患者的CT影像,它也能結合病史和影像學特點,推理出“肝細胞癌”的最可能診斷,并列出其他可能性以供鑒別 。


從冰冷的醫學影像,切換到充滿溫度的人文藝術,它也能hold住。它能認出《清明上河圖》,并對其藝術風格、歷史背景和深遠影響進行分析 。

還能通過一個唐代女樂俑的服飾、妝容和姿態,準確判斷其所屬朝代、社會階層,并結合“墓葬明器”的概念分析其文化意義 。

1

生活大冒險,如何應對“非標”難題

最后來看一些更開放、更接近生活的“非標”問題。比如這個高難度的“看圖猜地方”游戲:我們要求模型根據一張圖片里的建筑、植被、標識牌等線索,推斷出其所在的大洲、國家、城市乃至經緯度 。R1V 3.0展現出了極強的綜合認知能力,通過層層推理,最終成功鎖定了地點 。


還有一個更生活化的問題:“我買一千瓶這個飲料,中獎的錢的期望是多少?” 。模型需要先通過視覺看懂瓶蓋上的中獎規則,再運用數學能力進行概率計算 。


而最考驗“網感”的梗圖理解,它也沒掉鏈子。面對一張涉及人物表情和雙關語的梗圖(Meme)圖片,它能準確識別出其中的幽默感,并解釋這種幽默來源于對“models”一詞在技術和日常語境中不同含義的誤解 。


1

通往穩健推理的后訓練路徑

模型表現這么好,背后用了什么巧妙的技術?Skywork R1V 3.0的技術路徑很有意思,它沒有依賴海量數據和算力硬堆,而是把重點放在了模型的后訓練階段,更像一場精細的調優 。

這條路徑始于能力的嫁接與強化。團隊基于R1V 2.0做冷啟動,讓模型一出生就具備不錯的多模態推理基礎 。隨后引入GRPO強化學習算法,對模型進行深度激發,讓強大的文本推理能力成功嫁接到多模態任務上 。值得一提的是,這個過程借助GRPO強化學習算法,實現高效泛化,僅用了約1.2萬條高質量監督微調樣本和1.3萬條強化學習樣本,就實現了多學科推理能力的顯著提升 。


有了初步的能力,如何確保它不是在機械地模仿?為了解決這個問題,團隊引入了一套獨特的關鍵熵驅動驗證機制。他們發現,真正會推理的模型,在思考的關鍵節點會表現出較高的不確定性,代表著思維在發散;而只會模仿的模型則非常確定 。這個機制就像一個思考質檢員,能高效地識別出哪些模型版本是真正學會了推理,而不是在機械地模仿風格 。

解決了推理的真偽問題,還有一個挑戰是知識的均衡。由于強化學習階段的訓練數據以數學問題為主,模型的能力會有些偏科 。為此,團隊在強化學習之后,專門引入了一個針對連接器,也就是連接視覺和語言的橋梁,的微調步驟 。這一步有效地平衡了模型的知識結構,讓它在保持理科優勢的同時,也補上了文史、藝術等領域的短板,成了一個更全面的通才 。

1

結語

從最開始那個可能看不懂Meme的AI,到最后這個更均衡、更穩健的模型版本,Skywork R1V 3.0的迭代過程,本身就在試圖解決當前AI最棘手的幾個問題。它證明了,在行業普遍追求更高、更快、更強的同時,通過精細的后訓練調優,讓AI想得更穩、更可靠,是一條同樣重要且可行的路。

這背后是對“可靠性”的追求。尤其在2025年,當AI開始被更嚴肅地探討用于醫療診斷、金融合規等高風險領域時,可靠性已經從一個加分項變成了必選項。未來的AI競爭,可能不再只是參數和分數的比拼,更是看誰的系統在關鍵時刻更值得信賴。一個真正可用的AI,需要具備某種程度的“認知謙遜”:知道自己的能力邊界,并在不確定時,懂得把決策交還給人類。

而昆侖萬維選擇將Skywork R1V 3.0完全開放的做法,本身就體現了這種對可靠性和透明性的追求。實際上,這也不是一次孤立的行動,而是其構建以推理能力為主線的技術體系的一部分,此前他們已陸續開源了Skywork-OR1文本推理模型和SkyReels-V1視頻生成模型等多個項目。這種系統性的開源,以及將技術細節、探索發現都展示給社區的做法,讓人們能夠更好地檢驗和理解模型,這恰恰是通往信任的關鍵一步。

歸根結底,技術的發展終究要回歸到具體的人和具體的問題上,這可能比宏大的敘事要走得更遠。


點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
高溫持續,你空調開對了嗎?丨靜寶聊天室

高溫持續,你空調開對了嗎?丨靜寶聊天室

上海靜安
2025-07-18 21:28:03
麥康納:角色球員得干臟活累活 接受這一點才能在聯盟中長久立足

麥康納:角色球員得干臟活累活 接受這一點才能在聯盟中長久立足

直播吧
2025-07-21 21:10:07
上海網紅曝猛料:楊浦區贈 200 平辦公地,創作福利太誘人

上海網紅曝猛料:楊浦區贈 200 平辦公地,創作福利太誘人

牛鍋巴小釩
2025-07-19 01:17:33
特斯拉Model Y L配置曝光!二排座椅可放平 支持前后移動

特斯拉Model Y L配置曝光!二排座椅可放平 支持前后移動

TechWeb
2025-07-21 17:44:17
糖尿病患者不能吃水果?醫生:這2果敞開吃,血糖穩穩降到5.3

糖尿病患者不能吃水果?醫生:這2果敞開吃,血糖穩穩降到5.3

古今醫案研讀
2025-07-10 12:14:53
《男驚條約》橫空出世:法學女碩士的婚前協議,李鴻章都不敢簽

《男驚條約》橫空出世:法學女碩士的婚前協議,李鴻章都不敢簽

爆史君帶你讀歷史
2025-07-20 17:23:34
中澳達成菜籽油協議,加拿大氣急敗壞,反手對中國鋼材加稅25%

中澳達成菜籽油協議,加拿大氣急敗壞,反手對中國鋼材加稅25%

司馬平邦
2025-07-21 12:19:19
特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執行死刑的

特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執行死刑的

青煙小先生
2025-07-21 19:42:16
8/9/10月將會上市的 12 款新車

8/9/10月將會上市的 12 款新車

生活魔術專家
2025-07-20 17:35:52
安全繩脫落,合肥女童從攀爬項目三層墜落骨折!父親:我們自行墊付醫藥費,多方回應

安全繩脫落,合肥女童從攀爬項目三層墜落骨折!父親:我們自行墊付醫藥費,多方回應

瀟湘晨報
2025-07-21 19:44:06
高速上女兒一直說車后有聲音,在服務區停下后,全家被抓進警局

高速上女兒一直說車后有聲音,在服務區停下后,全家被抓進警局

秋風專欄
2025-07-19 06:50:03
小小的我,大大的胸懷

小小的我,大大的胸懷

TVB的四小花
2025-07-05 09:33:11
第二個杜特爾特已冒頭?莎拉全面接掌菲律賓,恐怕不用拖到2028年

第二個杜特爾特已冒頭?莎拉全面接掌菲律賓,恐怕不用拖到2028年

南宗歷史
2025-07-20 11:33:09
廢掉一個孩子,就讓他待在家里,一天到晚待在家里(深度好文)

廢掉一個孩子,就讓他待在家里,一天到晚待在家里(深度好文)

新東方家庭教育
2025-07-11 17:14:32
全是“套路”,北京街頭多處出現,快舉報→

全是“套路”,北京街頭多處出現,快舉報→

娛樂的硬糖吖
2025-07-21 12:35:29
曝杜建英并未與原配離婚,兩人恩愛至今 還生了一個36歲兒子

曝杜建英并未與原配離婚,兩人恩愛至今 還生了一個36歲兒子

查爾菲的筆記
2025-07-18 22:43:58
黑店店長法蘭克福總監2000萬簽三叉戟&2.7億賣出,2年賣3.4億

黑店店長法蘭克福總監2000萬簽三叉戟&2.7億賣出,2年賣3.4億

直播吧
2025-07-21 20:38:04
12生肖一周運勢(7.21~7.27)

12生肖一周運勢(7.21~7.27)

白龍王
2025-07-21 20:37:40
打醒中國軍隊的不是海灣戰爭,而是這場11分半的技術屠殺!

打醒中國軍隊的不是海灣戰爭,而是這場11分半的技術屠殺!

星辰夜語
2025-07-14 13:04:10
55歲前央視主持人文清被偶遇,發福太多變化大,回老家生活樸實!

55歲前央視主持人文清被偶遇,發福太多變化大,回老家生活樸實!

鄭丁嘉話
2025-07-21 11:11:40
2025-07-21 22:04:50
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
2351文章數 10352關注度
往期回顧 全部

科技要聞

OpenAI自嗨“國際奧數金牌”遭官方怒斥

頭條要聞

女生打扮精致在重慶爬樓送外賣6天瘦10斤 當事人回應

頭條要聞

女生打扮精致在重慶爬樓送外賣6天瘦10斤 當事人回應

體育要聞

這四位大兄弟,你們真敢要3000萬吶

娛樂要聞

五哈全員為寶石老舅送祝福

財經要聞

炒港美股"補稅潮"突襲?一文了解始末

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態度原創

手機
親子
游戲
家居
公開課

手機要聞

三星Galaxy Z Fold7折疊屏手機韓國預訂量超Z Flip7,占比達60%

親子要聞

母嬰界“南極人”?Babycare還能被寶媽“care”嗎

R星疑似在原畫透露《GTA6》地圖!預告片里的位置?

家居要聞

別樣老上海 重塑復古優雅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 乐亭县| 苏尼特右旗| 成安县| 赤城县| 阳东县| 沭阳县| 洪洞县| 万山特区| 博湖县| 北辰区| 西青区| 高阳县| 洪湖市| 丹棱县| 阳江市| 阿坝| 潢川县| 亚东县| 英吉沙县| 崇信县| 保靖县| 长白| 南昌县| 塔河县| 蓬安县| 东光县| 黑河市| 秦安县| 确山县| 淳化县| 桂平市| 张家港市| 赤峰市| 天祝| 义乌市| 石渠县| 新昌县| 循化| 蒲城县| 南城县| 闸北区|