99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

斯坦福大模型推理課免費了,谷歌推理團隊創始人主講

0
分享至

聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI

干貨來了!

如何理解大模型推理能力?現在有來自谷歌DeepMind推理負責人Denny Zhou的分享了。

就是那位和清華姚班馬騰宇等人證明了只要思維鏈足夠長,Transformer就能解決任何問題的Google Brain推理團隊創建者。

Denny Zhou圍繞大模型推理過程和方法,在斯坦福大學CS25上講了一堂“LLM推理”課。



讓我們也來跟著大神學習一下。

有推理過程的答案會讓模型更自信

首先,什么是大模型推理呢?

其實就是大語言模型在給出最終答案前的中間思考步驟



比如問

“artificial intelligence”每個單詞的最后一個字母連起來是什么?

有推理過程的回答會先分別找出“artificial”的最后一個字母是“l”,“intelligence”的最后一個字母是“e”,再把它們拼接成“le”;而沒有推理的就直接給出“le”這個結果。

這種推理過程和人類的思維過程無關,而關鍵在于生成了大量的中間內容。

那為什么中間思考步驟很重要呢?

一個原因是它可以讓復雜問題變得可解

簡單來說,對于能用布爾電路解決的問題,假設電路規模是T,哪怕是固定大小的Transformer模型,生成O(T)個中間步驟就能搞定。

但如果跳過中間步驟,直接讓模型輸出最終答案,要么需要極深的模型層數(增加計算成本),要么根本無法解決。

Denny Zhou和馬騰宇等人的著作《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》提到如果給Transformer引入思維鏈,就能大大提高模型推理能力。

這篇論文說明了只要引入思維鏈,那么無需擴展模型的規模就能讓Transformer變得強大到能解決任何問題。

理論上來說,只要有足夠的CoT步驟,Transformer就可以模擬多項式大小電路可以執行的任何計算,從而縮小了Transformer與圖靈機之間的差距。



另一方面是中間步驟可以提升答案的準確性和可靠性

沒有推理步驟時,模型可能靠“瞎猜”給出答案。

例如問:

我有3個蘋果,爸爸比我多2個,一共多少個?”

直接輸出的答案可能是錯誤的“5個”;

但有推理步驟的回答就是“爸爸有3+2=5個,總共3+5=8個”),答案更可能正確。



這是因為推理步驟迫使模型有理有據地推導,尤其是對需要邏輯鏈條的問題(如數學、因果分析),減少了隨機猜測的概率。

就像做數學題一樣,一步步推導可比瞎蒙準確率高多了。

并且,對于有推理過程的答案會讓模型更有信心

Denny Zhou還強調預訓練模型即使沒有經過任何微調,也具備推理能力

只不過,基于推理的輸出通常不會出現在輸出分布的優先級部分,因此無法通過貪婪解碼(選擇概率最高的輸出)輸出。



那么我們如何讓它輸出推理后的答案呢?

一種方法是提示

既然模型對于有推理過程的答案更有信心,那么我們可以通過思維鏈提示或者加上提示詞來讓模型進行推理。

比如思維鏈提示,你可以給它一個帶步驟的例子,給它打個樣。或者你可以告訴它:讓我們一步步想。

不過,Denny Zhou和Xuezhi Wang在《Chain-of-Thought Reasoning Without Prompting》一文中提出其實不用這些提示,只要改變模型的解碼方式,就能讓預訓練的語言模型展現出推理能力。



原來模型在生成答案時,通常只用最可能的那個詞(貪心解碼),但如果看看排在后面的幾個可能的詞(top-k替代詞),會發現里面藏著一步步推理的路徑。

而且當有這種推理路徑時,模型對答案的信心也更高。

于是他們提出了CoT-decoding方法,就是從這些top-k的解碼路徑中,選出那些有推理過程且模型信心高的路徑,這樣能讓模型在各種推理任務上表現得更好,甚至能接近經過指令微調的模型效果

不過,另一種方法就是監督微調(SFT)

監督微調就是用人類寫的帶步驟的題和答案訓練模型,讓模型學著生成類似的步驟。

但這種方法有個問題是泛化性不太好,換個新場景可能就不靈了,而且模型做大了也沒用。

于是,研究人員對監督微調進行了改進,一種是自我改進,讓模型自己生成步驟和答案,然后用正確的那些訓練自己,有點像學生自己做題糾錯。

另一種是強化學習微調,反復讓模型生成答案,多練正確的,少練錯誤的。這里面,能判斷答案對不對的“驗證器”很重要。



現在,強化學習微調已成為了引出推理的最強大的方法。

并且,Denny Zhou認為擴展強化學習應該專注于生成長響應,也就是《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》這篇文章中的觀點。

另外,進一步的重大改進是聚合和檢索的方法

LLM是概率模型,其解碼時追求的是在給定問題下推理和最終答案的聯合概率最大,而我們想要的是給定問題下最終答案的概率最大,兩者并不一致。



于是有了以下改進方法:

  • 邊緣化和自一致性:生成多個回答,選擇出現最頻繁的答案。
  • 通用自一致性:讓LLM自己選擇最一致的答案,適用于非唯一答案的問題,比如“哪些國家的人比墨西哥人喝咖啡少”。
  • 檢索+推理:結合檢索和推理的方法,先回憶相關問題,再解決當前問題。比如計算正方形面積的問題,先回憶兩點間距離公式,再計算邊長,進而得到面積。

最后,Denny Zhou總結了提升LLM推理能力的要點

  • 推理比不推理好
  • 強化學習微調比監督微調好
  • 聚合多個答案比單個答案好
  • 檢索+推理比僅推理好



并指出未來的突破方向是解決非唯一可驗證答案的任務,以及構建實際應用而非僅解決基準測試問題。

Denny Zhou介紹

Denny Zhou是中科院博士,2017年加入Google前在微軟擔任了11年的高級研究員。



他創立并領導了Google Brain中的推理團隊,Google Brain現已成為Google DeepMind的一部分。

他的研究目標是通過構建具備推理能力的大型語言模型解決人工通用智能(AGI)問題,核心方向包括思維鏈、自洽性、任務分解、零樣本學習、組合泛化及大語言模型理論等,追求實現完美泛化。

在2022年,他榮獲谷歌研究技術影響力獎、2022年WSDM時間考驗獎等。

近年來,他多次受邀在耶魯大學、哈佛大學、斯坦福大學等多所高校和機構進行主題為語言模型推理的演講。

這次Denny Zhou在斯坦福大學CS25課程上用的課件已附在文末~

完整版pdf:https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf


[1]https://x.com/denny_zhou/status/1948499173986201915
[2]https://dennyzhou.github.io/

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2025上海養老金調整方案,定額調整高達50元,工齡單價跌至5毛錢

2025上海養老金調整方案,定額調整高達50元,工齡單價跌至5毛錢

社保精算師
2025-07-26 09:33:08
全部飛機停航!中國重拳出擊!日本提要求被拒絕“完全無法接受”

全部飛機停航!中國重拳出擊!日本提要求被拒絕“完全無法接受”

健身狂人
2025-07-22 10:56:19
新加坡世錦賽游泳賽:中國軍團史上“最年輕”,百米飛魚大戰潘展樂贏面不大?

新加坡世錦賽游泳賽:中國軍團史上“最年輕”,百米飛魚大戰潘展樂贏面不大?

上觀新聞
2025-07-26 06:42:03
芬森:拿了錢就躺了有些后悔 若當時繼續拼現在就能更好享受

芬森:拿了錢就躺了有些后悔 若當時繼續拼現在就能更好享受

直播吧
2025-07-26 12:44:03
印度對中國玩“鬼把戲”?將棉花低價賣給中國,再高價買回去

印度對中國玩“鬼把戲”?將棉花低價賣給中國,再高價買回去

大道無形我有型
2025-07-25 20:45:06
這是我國連續八年向塔克拉瑪干沙漠輸水后的成果!

這是我國連續八年向塔克拉瑪干沙漠輸水后的成果!

老友科普
2025-07-21 08:31:01
廣東養老金調整細則出爐,三降低一不變,企退養老金3600元漲多少

廣東養老金調整細則出爐,三降低一不變,企退養老金3600元漲多少

小嵩
2025-07-25 17:44:26
非常罕見!馬斯克致歉

非常罕見!馬斯克致歉

觀察者網
2025-07-26 08:59:04
在日本鸚鵡學舌,捷克總統妄言:臺灣有事,歐洲也會有事

在日本鸚鵡學舌,捷克總統妄言:臺灣有事,歐洲也會有事

觀察者網
2025-07-26 11:30:05
郭德綱說的“旗袍開叉到胳肢窩”穿上啥效果?看了妹子上身實拍我秒懂哈哈

郭德綱說的“旗袍開叉到胳肢窩”穿上啥效果?看了妹子上身實拍我秒懂哈哈

王根基
2025-06-15 20:43:43
你身上的"還債痣"正在吸走運氣!這4種痣是前世欠債的紅色警報

你身上的"還債痣"正在吸走運氣!這4種痣是前世欠債的紅色警報

山九觀主
2025-07-25 08:10:03
油價大跌超0.51元/升后,7月29日油價再調整,油價下跌倒計時!

油價大跌超0.51元/升后,7月29日油價再調整,油價下跌倒計時!

油價早知道
2025-07-26 01:08:14
美國接二連三在安理會對中國無端發難,耿爽現場駁斥

美國接二連三在安理會對中國無端發難,耿爽現場駁斥

政知新媒體
2025-07-26 08:40:00
體檢是一場巨大的“人間騙局”!

體檢是一場巨大的“人間騙局”!

功夫財經
2025-07-23 08:37:29
四地凌晨突發地震!

四地凌晨突發地震!

魯中晨報
2025-07-26 07:46:01
博主做一年“流動麻將”后患癌

博主做一年“流動麻將”后患癌

大象新聞
2025-07-25 16:33:39
局勢已惡化,中國少將拜會泰軍高層,48小時后,泰國婉拒中方調停

局勢已惡化,中國少將拜會泰軍高層,48小時后,泰國婉拒中方調停

林子說事
2025-07-26 12:09:50
全是反轉!《掃毒風暴》大結局,是我今年看過最震撼的大結局!

全是反轉!《掃毒風暴》大結局,是我今年看過最震撼的大結局!

古木之草記
2025-07-25 22:11:59
4家A股公司,被證監會立案!

4家A股公司,被證監會立案!

格隆匯
2025-07-26 01:02:02
首例5胞胎長大了,父親已勞累去世,母親直言:如能重來一個也不要

首例5胞胎長大了,父親已勞累去世,母親直言:如能重來一個也不要

柳絮憶史
2025-07-22 07:15:03
2025-07-26 13:48:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10928文章數 176198關注度
往期回顧 全部

科技要聞

AI教父辛頓現身上海:人類如何不被AI殺掉

頭條要聞

俄羅斯官媒"尋人" 25年前與普京合影的中國男孩找到了

頭條要聞

俄羅斯官媒"尋人" 25年前與普京合影的中國男孩找到了

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

王菲近況惹人憂!謝霆鋒重操老本行?

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

"得房率"超90% 全新嵐圖知音空間信息曝光

態度原創

親子
本地
時尚
旅游
健康

親子要聞

孩子撒謊?別急著生氣,先聽聽TA用謊言說的"真心話"

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

被她們美到了!緞面裙還可以這樣搭

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 曲阜市| 栖霞市| 东乡县| 宁波市| 沁源县| 若尔盖县| 隆昌县| 五寨县| 清丰县| 盐津县| 西乌| 张家界市| 雅安市| 泸水县| 西畴县| 韩城市| 阳原县| 扎鲁特旗| 土默特右旗| 交口县| 松江区| 兴国县| 南乐县| 徐州市| 肃北| 新巴尔虎右旗| 赤峰市| 巧家县| 青岛市| 吉林省| 南昌县| 三江| 克拉玛依市| 鲁山县| 青冈县| 四子王旗| 麻栗坡县| 望江县| 牙克石市| 从江县| 卫辉市|