99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

她如何把“系統2”帶給了大模型 |對話微軟亞洲研究院張麗

0
分享至

量子位智庫
量子位 | 公眾號 QbitAI

2023年,業界還在卷Scaling Law,不斷突破參數規模和數據規模時,微軟亞洲研究院張麗團隊就選擇了另一條路徑

早在OpenAI o1發布前,張麗團隊就開始探索大模型深度推理能力

System2這個原屬認知科學的詞匯最早由她及團隊引入大模型領域。

最近,她們通過蒙特卡洛搜索算法7B模型實現了o1級別的數學推理能力

rStar—Math的發布引發學術圈內外的廣泛討論。



在當前基于PPO/GRPO強化學習路線主導的當下,她們的工作又將帶來哪些新的可能性?

本期「大模型創新架構」主題訪談量子位邀請到rStar-Math作者微軟亞洲研究院首席研究員張麗,聊聊突破大模型智商上限、獎勵模型以及System2背后的故事。

張麗,MSRA系統研究組首席研究員,微軟LongRoPE及rStar系列工作項目leader。



以下為量子位rStar-Math作者微軟亞洲研究院首席研究員張麗的對話實錄整理:

智商突圍

量子位:能簡單介紹下rStar-Math的核心工作嗎?當初為什么選擇這個研究方向?

MSRA張麗:一直以來我們主要沿著如何提升大語言模型的智商這個大方向在持續做研究,具體分兩個方向:

一個是讓模型具備無限且持久的記憶能力另一個是提升模型的深度推理邏輯思考能力

我們2025年1月發布的rStar-Math工作,簡單說是第一個公開通過蒙特卡洛搜索算法,讓7B模型實現了接近OpenAI o1級別的數學推理能力的工作。

我們當時做這個工作的時候,整個行業趨勢還是在卷scaling law,認為模型size越大,數據量越多,效果越好。

但我們發現,盡管隔一段時間就有新體量的模型推出,但實際上模型的數學深度推理能力一直沒有顯著提升。

量子位:在2024年o1還沒發布時你們就開始做System2了嗎?

MSRA張麗:對,應該是2023年5月份左右。

2022年11月ChatGPT出來時,大家都被震驚了,但是我們發現它仍然在有些方面做得不夠好。

作為研究員,我們比較注重邏輯推理思考能力,所以很自然會希望大語言模型能像我們一樣具備很強的推理能力。

我們最初的思路是兩點:

一是希望模型在解題時能夠利用很長的“草稿紙”,所以我們做了LongRoPE,拓展大模型長文本的推理窗口。



二是要有效利用這個草稿紙,這就需要像人一樣的深度推理思考方式,這就有了rStar系列工作。



量子位:最早將System2這個人腦認知科學詞匯引入大模型領域的是誰?

MSRA張麗:可能是我們吧。更準確地說,當我們想定義這種能力時,從人腦認知科學中找到了這個可以類比的詞。

量子位:當時為什么認為System2會是未來非常重要的研究方向?

MSRA張麗:我們覺得,大語言模型真正要落地應用,或者實現通用,其他能力可能都好說,智商或推理能力才是最關鍵因素

看各行各業的頂尖人才,他們的專業領域不同,有人擅長解數學題,有人擅長寫代碼,有人寫作或口才好,但本質上他們都有很強的推理能力,這就是智商。

大模型有了這個基礎,再去做其他應用,讓大模型落地或提高社會生產力,都會變得簡單得多。



量子位:rStar-Math在研究過程中模型自己涌現出了self-reflection能力,這意味著什么?

MSRA張麗:這其實并不是有意為之,是意外收獲。后來想想,可能間接驗證了self-reflection是提升大模型智商的關鍵能力這一點。

這種自我修正或自我反思是人類做很多事情都會使用的思維方式,可以說是一種必備能力。

我們確實沒有刻意追求復現“aha moment”,但這在當時確實是個機會,很多團隊都想復現,最后發現強化學習可以激發出這種能力。

量子位:激發大模型self-reflection能力的關鍵是什么?

MSRA張麗:我個人認為,大模型預訓練數據中本來就包含人類自我反思過程的信息

互聯網上的大量數據中會自然混入一些這樣的內容,因為這是人類基本的高級思考模式。

大模型經過預訓練記住這些模式后,強化學習或蒙特卡洛搜索算法會將這種能力激發出來

在解決復雜問題過程中,模型發現用了self-reflection后效果更好,蒙特卡洛算法就會把這些標記為高質量數據

如果是強化學習,模型發現用了self-reflection后能答對,就會給這個策略更高分數最終結果都是讓模型涌現出這種能力



蒙特卡洛突破

量子位:rStar-Math發布后反響很大,有什么印象深刻的反饋嗎?

MSRA張麗:確實rStar-Math比我們之前的工作受到了更多關注,完全超出了我的預期。

我想可能是因為當時o1已經出來好幾個月,但還沒有哪份公開的報告能說清楚它是怎么做到的。

我知道有很多人也在用類似的蒙特卡洛搜索算法,但沒有達到o1水平的效果。

而我們恰好做到了,而且方法上有一些創新,可能是這個原因會突然受到關注。

感覺有點“破圈”效應。學術圈通常只有做同方向的人才會關注你的工作,但那時很多不做這個方向的同事朋友都發微信說某某看了我們工作想認識一下,這種情況很少見。

還有很多媒體,國內外的,都要采訪我們。在X上也有大量討論,一些人給了很高評價,認為用7B模型就能達到OpenAI o1級別表現非常不可思議

也有人討論2025年會不會是小模型的時代,還引發了關于scaling law與其他路線的新一輪辯論。



量子位:有沒有遇到質疑的聲音?

MSRA張麗:當然有,大概分兩個階段。

一開始在DeepSeek R1Kimi 1.5出來之前,主要質疑是“小模型能力怎么會這么強”以及“這個方法能否泛化到其他任務”,所以后來我們開源了代碼和數據。

后來,DeepSeek R1和Kimi 1.5出來了,有人開始討論復現OpenAI o1效果到底是否真的需要蒙特卡洛搜索。這些質疑都很合理,因為每個人觀點不同。

量子位:蒙特卡洛搜索算法的獎勵模型和傳統Best of N獎勵模型的根本區別是什么?

MSRA張麗:根本區別是蒙特卡洛搜索算法的獎勵模型是步驟級別的,是過程獎勵模型

Best of N是結果獎勵模型,不關注過程,所以蒙特卡洛搜索算法效果更好。

量子位:為什么蒙特卡洛搜索算法在小模型上表現這么好?效果會不會僅限于小模型?

MSRA張麗:它在小模型上表現優異,反而說明了它有很大潛力。

我們2024年8月發布初版rStar時就發現了蒙特卡洛算法潛力巨大

當時我們沒有進行任何訓練,甚至沒有訓練獎勵模型,只是在小模型上應用蒙特卡洛搜索算法,發現效果非常好,甚至能與做了特殊微調后的模型效果相當

因為System2是更高級的思維模式,有一定門檻,策略模型不能太差,而小模型作為策略模型本身就較弱。

所以為了解決小模型效果不理想的問題,如幻覺等,我們唯一做的就是加了code-augmented CoT,盡量讓蒙特卡洛搜索算法效果發揮到極致。



量子位:在你們的工作發布前,蒙特卡洛搜索算法是主流方案嗎?

MSRA張麗:之前它不是很主流,但學術界確實有一些工作開始關注這個方向。

量子位:o1及你們的工作發布后,這種方法變得更主流了嗎?

MSRA張麗:目前還沒看到這種趨勢,大多數人還是在做強化學習。不過我知道一些其他領域的人也在嘗試蒙特卡洛搜索算法。

由于我們的工作受到關注,有人聯系我們,希望將這種方法應用到金融醫療領域。一些實際場景需要較小的模型,他們可能會考慮我們的方法。

量子位:你們做了scaling law實驗嗎?有看到你們的工作隨著參數量增加效果的變化趨勢嗎?

MSRA張麗:目前我們最大只做到7B,然后向下做了scaling down,嘗試了3.8B1.5B

總體觀察到的趨勢是參數規模越大,效果越好

如果模型size固定,我相信蒙特卡洛搜索算法比當前基于強化學習或蒸餾的方法潛力更高

量子位:rStar-Math在合成數據方面效果這么好,背后原因是什么?

MSRA張麗:主要有兩點。第一是code-augmented CoT,雖然最初是為小模型設計的,但對更大模型也有用。

當然這種方法以前就有,叫Tool-Integrity Reasoning (TIR)



第二是我們用了過程獎勵模型配合蒙特卡洛搜索算法,會做很多rollout,給不同步驟和每個trace打分。

即使是正確的trace中,我們也會挑選出更優的步驟,這相當于做了很好的數據篩選。

量子位:您認為獎勵模型的重要性未來會成為共識嗎?對獎勵模型的研究會增多嗎?

MSRA張麗:我覺得會。現實中有很多任務沒有明確標準答案,很難用簡單規則評價。

比如寫作,你幾乎無法用幾條規則判斷好壞,肯定需要一個更強的獎勵模型來打分。

對于復雜邏輯推理問題,比如數學證明也很難做好的獎勵模型,因為它不只是結果對就行,必須每一步證明都正確,需要一個非常嚴格的過程獎勵

如果只用基于結果的強化學習,很可能出現證明結果正確但過程錯誤的情況

要在提升大模型智商這個方向繼續前進,一個優秀的過程獎勵模型是必不可少的

量子位:為什么優化策略模型比優化獎勵模型更快?

MSRA張麗:首先,獎勵模型比策略模型更難做。獎勵模型是強化學習多年來始終未完全解決的問題

很難找到一個好的獎勵模型或獎勵函數去給動作或策略打分。

其次,獎勵模型在強化學習中容易出現reward hacking問題。策略模型可能會用各種方法騙過獎勵模型,實際上輸出的答案并不好。

這導致強化學習無法持續進行,所以很多做強化學習的研究者會拿掉獎勵模型,但本質上還是因為獎勵模型目前沒有很好的解決方案。



對于數學這樣的高難度問題,獎勵模型更難構建

在一般問題中,獎勵模型不那么準確可能還能接受,但在數學問題中,一步錯誤就會導致最終答案完全錯誤。

量子位:rStar-Math對數學推理之外的其他任務有泛化性嗎?

MSRA張麗:我認為它有很強的泛化潛力

rStar-Math本質上是一種思路,我只需要知道每次rollout的結果是對還是錯就可以應用。

當最終結果正確時,我就認為這次rollout中的每個步驟都有貢獻,就會返回給它們打分,然后進行更多rollout。

如果中間某個節點每次都能導向正確答案,那可能是個正確步驟;如果經常導向錯誤答案,可能就是錯誤步驟。

打完分后,我就能收集數據構造過程獎勵模型,這就是rStar-Math的核心思想

它唯一的門檻是在rollout到根節點時需要判斷這次outcome是否正確,這個門檻并不高,所以應用場景其實很廣,泛化性沒有問題。

破局與遠見

量子位:rStar-Math開源后,行業有什么反響?

MSRA張麗:我們當然希望它能有更廣泛的應用,或者有人基于我們的代碼在更大模型上嘗試。

目前有一些第三方聯系我們,比如有家公司想用這個模型做數學AI教育,還有國外一些知名實驗室希望在代碼類和數學證明方面合作。

有趣的是,還有一家智能車廠商聯系我們,希望用我們的算法在他們的模型上復現,讓我們幫助解答一些問題。

量子位:您看好rStar-Math在工業級模型上落地嗎?在通用場景中,蒙特卡洛搜索算法的搜索空間會不會太大?

MSRA張麗:對于很簡單的問題,確實沒必要用這么復雜的方法。

蒙特卡洛搜索算法最初因AlphaGo而火,它可能天然更適合復雜任務



對通用任務,它可以用但不一定是必要的。普通大模型一次回答可能就足夠接受,不需要再用System2去多次搜索。

多搜索幾次可能找到比一次回答更好的答案,但兩者差距可能不大,從性價比上考慮可能必要性不會特別高

量子位:下一步的研究會更關注長文本還是深推理?

MSRA張麗:關于長文本,我們之前做LongRoPE時從算法層面提供了讓預訓練模型文本窗口可以拓展到無限的方案。

也在微軟的phi系列模型上得到了驗證。



但要真正擴展到那么長的長度,還需要解決效率問題以及長文本數據算力問題,這些不是我當前階段關注的重點。

我們目前更關注推理能力的提升,也就是深推理這方面。

量子位:會繼續研究獎勵模型嗎?

MSRA張麗:下一步我們可能會做三件事。

第一是繼續優化獎勵模型

第二是進一步提升策略模型能力,希望它能學會更像人類的高級推理方式,比如主動提問或self-reflection之外的其他推理方式。

第三擴展任務領域,除了數學外,我們還想擴展到高難度的代碼推理任務,最終實現通用的深度推理能力

量子位:解數學題一定是智商要求最高的任務嗎?

MSRA張麗:我認為是的。數學推理基本上是大語言模型中最要求程序執行能力邏輯嚴謹性的任務類型。

有些證明題數學家需要花幾百年才能證明出來,我個人認為它應該是智能天花板的一種表現

量子位:有種說法認為大家對提升數學能力的研究更多是因為它結果唯一、數據全且易驗證,數學能力一定代表智商天花板嗎?

MSRA張麗:數學任務確實更容易著手研究,效果更容易驗證,但要真正提升數學推理能力并不容易

比如FrontierMath這個高難度數學基準測試,由多名數學家出題,目前最強的模型在上面的準確率也只有2%左右。



當前數學研究更多是因為數據相對豐富條件比較成熟判定好壞更明確

有些非證明題甚至不需要看步驟,看答案對不對就可以了,所以可能給人感覺大模型數學能力好做。

人類的其他復雜任務可能現在各方面研究條件還不夠成熟,所以感覺大家都在做數學能力

但真正讓大模型成為數學家可信賴的助手,這條路還很長。

論文:https://arxiv.org/abs/2501.04519

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
南京一百年名校突發火情,及時撲滅未造成大的影響

南京一百年名校突發火情,及時撲滅未造成大的影響

大風新聞
2025-06-09 18:59:27
廣東一公職人員出軌女下屬,不雅照流出:女下屬顏值爆表

廣東一公職人員出軌女下屬,不雅照流出:女下屬顏值爆表

農村情感故事
2025-06-09 17:43:44
特朗普受邀訪華僅1天,中國暫停千萬桶原油采購,美政府隨即報復

特朗普受邀訪華僅1天,中國暫停千萬桶原油采購,美政府隨即報復

觀星賞月
2025-06-09 14:15:06
“遺體交換”鬧劇真相;烏克蘭搞了個“蜘蛛網”行動2.0版

“遺體交換”鬧劇真相;烏克蘭搞了個“蜘蛛網”行動2.0版

近距離
2025-06-09 09:49:30
首次披露,張益山已被查

首次披露,張益山已被查

新京報政事兒
2025-06-09 21:45:13
國務院:任命周海兵為國家發展和改革委員會副主任,佟立新為國家體育總局副局長

國務院:任命周海兵為國家發展和改革委員會副主任,佟立新為國家體育總局副局長

界面新聞
2025-06-09 16:51:46
突然!多地“國補”暫停,發生了什么?

突然!多地“國補”暫停,發生了什么?

中國基金報
2025-06-09 00:12:45
毛新宇夫人出席活動,48歲劉濱戴珍珠耳環好端莊,任扇子學會會長

毛新宇夫人出席活動,48歲劉濱戴珍珠耳環好端莊,任扇子學會會長

古希臘掌管松餅的神
2025-06-09 16:50:25
三部委約談車企一把手

三部委約談車企一把手

后視鏡里de未來
2025-06-09 11:49:10
中國男籃公布集訓名單:張鎮麟、周琦領銜,趙維倫成唯一旅外球員

中國男籃公布集訓名單:張鎮麟、周琦領銜,趙維倫成唯一旅外球員

雷速體育
2025-06-09 21:08:24
安徽文旅發力了!為挽回名聲,除了涉事人員,還有5大佬被追責!

安徽文旅發力了!為挽回名聲,除了涉事人員,還有5大佬被追責!

青青子衿
2025-06-08 22:29:07
唏噓!一藝術家不幸凌晨離世,年僅32歲

唏噓!一藝術家不幸凌晨離世,年僅32歲

南方都市報
2025-06-09 11:59:17
央視除名,《長安的荔枝》女主演出事,曝升學內幕,父親職位被扒

央視除名,《長安的荔枝》女主演出事,曝升學內幕,父親職位被扒

傲傲講歷史
2025-06-09 18:28:39
43歲的蔣欣醫美了?和以前相比判若兩人,一臉苦相

43歲的蔣欣醫美了?和以前相比判若兩人,一臉苦相

楊哥歷史
2025-06-09 09:23:18
超級模特何穗大膽泳裝身材真好,個子太高

超級模特何穗大膽泳裝身材真好,個子太高

鄉野小珥
2025-06-04 03:42:44
少林寺回應NBA球星文班亞馬“剃發閉關”:人確實在寺里

少林寺回應NBA球星文班亞馬“剃發閉關”:人確實在寺里

界面新聞
2025-06-09 17:29:59
“星鏈”衛星,突然大批墜落!馬斯克連轉兩條特朗普帖文,其父發聲:他玩得轉技術,卻玩不轉政治

“星鏈”衛星,突然大批墜落!馬斯克連轉兩條特朗普帖文,其父發聲:他玩得轉技術,卻玩不轉政治

上觀新聞
2025-06-09 15:07:46
杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場卻被伴娘攔下

杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場卻被伴娘攔下

蘭姐說故事
2025-06-09 10:00:07
59歲畫家陳逸飛離世,30歲嬌妻查看2000萬保單,受益人竟是他前妻

59歲畫家陳逸飛離世,30歲嬌妻查看2000萬保單,受益人竟是他前妻

百態人間
2025-06-09 16:19:53
“我祖籍泰州,馬上能出戰!”前國腳毛劍卿自薦踢蘇超,體育局回應

“我祖籍泰州,馬上能出戰!”前國腳毛劍卿自薦踢蘇超,體育局回應

極目新聞
2025-06-09 17:05:20
2025-06-09 23:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10620文章數 176166關注度
往期回顧 全部

科技要聞

今年618平臺集體想通了,主打一個簡單粗暴

頭條要聞

退休刑警被返聘協助破大案 以其為原型劇還沒播人被抓

頭條要聞

退休刑警被返聘協助破大案 以其為原型劇還沒播人被抓

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

教育
房產
親子
本地
健康

教育要聞

孩子弄壞同學東西,家長不肯賠償,我們老師能做點什么?

房產要聞

海南地王,方案曝光!三亞灣豪宅,神仙打架!

親子要聞

發聲吃了暢上岸還需要吃敏上岸嗎

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

減重專家破解減肥九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 灌南县| 阿瓦提县| 宣恩县| 广东省| 吉木乃县| 炉霍县| 永清县| 平顶山市| 墨玉县| 丰镇市| 乳山市| 荣昌县| 兴义市| 乌兰县| 信宜市| 射洪县| 勐海县| 兰州市| 奉化市| 亳州市| 灵璧县| 丹阳市| 普陀区| 巴林左旗| 抚远县| 苏尼特左旗| 祁东县| 武山县| 大城县| 绵阳市| 修武县| 丹棱县| 阳山县| 鹿泉市| 会理县| 新乡县| 闽侯县| 望都县| 莒南县| 和平县| 奉化市|