網易首頁 > 網易號 > 正文申請入駐

斯坦福大模型推理課免費了，谷歌推理團隊創始人主講

2025-07-25 16:07:59　來源: 量子位

北京舉報

分享至

聞樂發自凹非寺
量子位 | 公眾號 QbitAI

干貨來了！

如何理解大模型推理能力？現在有來自谷歌DeepMind推理負責人Denny Zhou的分享了。

就是那位和清華姚班馬騰宇等人證明了只要思維鏈足夠長，Transformer就能解決任何問題的Google Brain推理團隊創建者。

Denny Zhou圍繞大模型推理過程和方法，在斯坦福大學CS25上講了一堂“LLM推理”課。

讓我們也來跟著大神學習一下。

有推理過程的答案會讓模型更自信

首先，什么是大模型推理呢？

其實就是大語言模型在給出最終答案前的中間思考步驟

比如問

“artificial intelligence”每個單詞的最后一個字母連起來是什么？

有推理過程的回答會先分別找出“artificial”的最后一個字母是“l”，“intelligence”的最后一個字母是“e”，再把它們拼接成“le”；而沒有推理的就直接給出“le”這個結果。

這種推理過程和人類的思維過程無關，而關鍵在于生成了大量的中間內容。

那為什么中間思考步驟很重要呢？

一個原因是它可以讓復雜問題變得可解

簡單來說，對于能用布爾電路解決的問題，假設電路規模是T，哪怕是固定大小的Transformer模型，生成O(T)個中間步驟就能搞定。

但如果跳過中間步驟，直接讓模型輸出最終答案，要么需要極深的模型層數（增加計算成本），要么根本無法解決。

Denny Zhou和馬騰宇等人的著作《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》提到如果給Transformer引入思維鏈，就能大大提高模型推理能力。

這篇論文說明了只要引入思維鏈，那么無需擴展模型的規模就能讓Transformer變得強大到能解決任何問題。

理論上來說，只要有足夠的CoT步驟，Transformer就可以模擬多項式大小電路可以執行的任何計算，從而縮小了Transformer與圖靈機之間的差距。

另一方面是中間步驟可以提升答案的準確性和可靠性

沒有推理步驟時，模型可能靠“瞎猜”給出答案。

例如問：

我有3個蘋果，爸爸比我多2個，一共多少個？”

直接輸出的答案可能是錯誤的“5個”；

但有推理步驟的回答就是“爸爸有3+2=5個，總共3+5=8個”），答案更可能正確。

這是因為推理步驟迫使模型有理有據地推導，尤其是對需要邏輯鏈條的問題（如數學、因果分析），減少了隨機猜測的概率。

就像做數學題一樣，一步步推導可比瞎蒙準確率高多了。

并且，對于有推理過程的答案會讓模型更有信心

Denny Zhou還強調預訓練模型即使沒有經過任何微調，也具備推理能力

只不過，基于推理的輸出通常不會出現在輸出分布的優先級部分，因此無法通過貪婪解碼（選擇概率最高的輸出）輸出。

那么我們如何讓它輸出推理后的答案呢？

一種方法是提示

既然模型對于有推理過程的答案更有信心，那么我們可以通過思維鏈提示或者加上提示詞來讓模型進行推理。

比如思維鏈提示，你可以給它一個帶步驟的例子，給它打個樣。或者你可以告訴它：讓我們一步步想。

不過，Denny Zhou和Xuezhi Wang在《Chain-of-Thought Reasoning Without Prompting》一文中提出其實不用這些提示，只要改變模型的解碼方式，就能讓預訓練的語言模型展現出推理能力。

原來模型在生成答案時，通常只用最可能的那個詞（貪心解碼），但如果看看排在后面的幾個可能的詞（top-k替代詞），會發現里面藏著一步步推理的路徑。

而且當有這種推理路徑時，模型對答案的信心也更高。

于是他們提出了CoT-decoding方法，就是從這些top-k的解碼路徑中，選出那些有推理過程且模型信心高的路徑，這樣能讓模型在各種推理任務上表現得更好，甚至能接近經過指令微調的模型效果

不過，另一種方法就是監督微調（SFT）

監督微調就是用人類寫的帶步驟的題和答案訓練模型，讓模型學著生成類似的步驟。

但這種方法有個問題是泛化性不太好，換個新場景可能就不靈了，而且模型做大了也沒用。

于是，研究人員對監督微調進行了改進，一種是自我改進，讓模型自己生成步驟和答案，然后用正確的那些訓練自己，有點像學生自己做題糾錯。

另一種是強化學習微調，反復讓模型生成答案，多練正確的，少練錯誤的。這里面，能判斷答案對不對的“驗證器”很重要。

現在，強化學習微調已成為了引出推理的最強大的方法。

并且，Denny Zhou認為擴展強化學習應該專注于生成長響應，也就是《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》這篇文章中的觀點。

另外，進一步的重大改進是聚合和檢索的方法

LLM是概率模型，其解碼時追求的是在給定問題下推理和最終答案的聯合概率最大，而我們想要的是給定問題下最終答案的概率最大，兩者并不一致。

于是有了以下改進方法：

邊緣化和自一致性：生成多個回答，選擇出現最頻繁的答案。
通用自一致性：讓LLM自己選擇最一致的答案，適用于非唯一答案的問題，比如“哪些國家的人比墨西哥人喝咖啡少”。
檢索+推理：結合檢索和推理的方法，先回憶相關問題，再解決當前問題。比如計算正方形面積的問題，先回憶兩點間距離公式，再計算邊長，進而得到面積。

最后，Denny Zhou總結了提升LLM推理能力的要點

推理比不推理好
強化學習微調比監督微調好
聚合多個答案比單個答案好
檢索+推理比僅推理好

并指出未來的突破方向是解決非唯一可驗證答案的任務，以及構建實際應用而非僅解決基準測試問題。

Denny Zhou介紹

Denny Zhou是中科院博士，2017年加入Google前在微軟擔任了11年的高級研究員。

他創立并領導了Google Brain中的推理團隊，Google Brain現已成為Google DeepMind的一部分。

他的研究目標是通過構建具備推理能力的大型語言模型解決人工通用智能（AGI）問題，核心方向包括思維鏈、自洽性、任務分解、零樣本學習、組合泛化及大語言模型理論等，追求實現完美泛化。

在2022年，他榮獲谷歌研究技術影響力獎、2022年WSDM時間考驗獎等。

近年來，他多次受邀在耶魯大學、哈佛大學、斯坦福大學等多所高校和機構進行主題為語言模型推理的演講。

這次Denny Zhou在斯坦福大學CS25課程上用的課件已附在文末～

完整版pdf：https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf

[1]https://x.com/denny_zhou/status/1948499173986201915
[2]https://dennyzhou.github.io/

— 完 —

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0
GPT-5終極版爆8月初上線，奧特曼親證AI秒殺人類時刻降臨！

新智元 2025-07-25 08:09:41
15 跟貼 15

類比的長河，為何流到大模型就被截流？

鈦媒體APP 2025-04-30 16:09:25
0 跟貼 0

CVPR 2025 多模態大一統：斯坦福 x 復旦符號主義建模生成式任務

機器之心Pro 2025-06-13 10:11:44
0 跟貼 0
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0

騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
0 跟貼 0

創智「小紅書」震撼上線(1)

機器之心Pro 2025-07-22 17:16:40
0 跟貼 0
階躍發布會劃重點：全新基模推理效率可達DeepSeek 300%、芯片大佬站臺、神秘資方簽約

智東西 2025-07-26 12:34:38
0 跟貼 0

上交校友發現AI思考越久輸出越差，挑戰推理越多輸出更好傳統觀點

DeepTech深科技 2025-07-25 18:24:38
0 跟貼 0
Muon作者僅用一篇博客，就被OpenAI看中了

機器之心Pro 2025-06-16 14:27:12
1 跟貼 1
辛頓歷史性首訪中國，再次警告人類重視AI風險：AI就像一只幼虎

DeepTech深科技 2025-07-26 13:19:55
0 跟貼 0
【WAIC2025】MiniMax創始人閆俊杰：AI公司不是重新復制一個互聯網公司

經濟觀察報 2025-07-26 13:16:39
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
統一框架下的具身多模態推理

機器之心Pro 2025-06-18 14:49:46
0 跟貼 0
小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
670 跟貼 670
“趙少康臺積電只是配菜！日本完全退讓換來15%？”

阿爾米修斯 2025-07-24 09:01:26
0 跟貼 0
何小鵬和雷軍真正的塑料兄弟

雷科技 2025-06-06 21:23:05
67 跟貼 67
AI理解語言的終極密碼，千問3向量模型開源，性能超谷歌OpenAI

機器之心Pro 2025-06-11 19:17:56
0 跟貼 0
比亞迪李云飛：要忙在正道上，拒絕陰陽

每日經濟新聞 2025-06-06 17:55:12
0 跟貼 0
美股三大指數集體收漲，道指漲0.47%，納指漲0.24%，標普500指數漲0.4%，熱門科技股多數上漲，特斯拉漲超3%，微軟、谷歌、博通漲幅不足1%

財聯社 2025-07-26 04:01:04
1 跟貼 1
勁道爽口家常炒面萬用公式｜一鍋出全營養！

任蕓麗 2025-07-25 13:06:29
12 跟貼 12
黃仁勛：中國的AI市場無論有沒有英偉達都會進步與華為是競爭對手不是敵人

財聯社 2025-07-21 10:22:14
0 跟貼 0
比亞迪版圖大起底，實力超乎你的想象

華商韜略 2025-02-11 17:11:11
127 跟貼 127
靜悄悄的餓了么，戰斗力到底有多強？

華商韜略 2025-04-30 14:18:35
0 跟貼 0
帥化民說到“三哥”滿臉嫌棄！全部加起來都不如一家豐田！

社會判官 2025-07-25 09:09:10
0 跟貼 0
吉利控股副總裁楊學良：長城汽車魏建軍是行業吹哨人

每日經濟新聞 2025-06-07 16:30:19
163 跟貼 163
數學真理的極限在哪里？希爾伯特第十問題擴展版得到證明

機器之心Pro 2025-02-06 10:40:08
4 跟貼 4
記住翻袋公式讓你關鍵時刻不掉鏈子

何坤翼 2025-07-23 14:13:42
1 跟貼 1
中國大買巴西大豆給底氣了！華為孟晚舟大仇得報！

青梔科普 2025-07-25 08:24:08
0 跟貼 0
蒲實 | 哈佛大學：處于守勢的帝國

尚曦讀史 2025-07-23 11:01:12
0 跟貼 0
黃金界愛馬仕，老鋪黃金憑啥爆火？

華商韜略 2025-05-07 16:05:00
36 跟貼 36
免費、開源！谷歌Gemini CLI

機器之心Pro 2025-06-26 14:16:59
0 跟貼 0
谷歌CEO：中國在AI前沿競爭力不容忽視

財聯社 2025-05-19 17:56:27
0 跟貼 0
谷歌走在通往AGI的路上，哈薩比斯：一個艱難但正確的決定

機器之心Pro 2025-05-23 13:40:49
0 跟貼 0
比亞迪王傳福：做大產業，做出中國制造業應有的位置

每日經濟新聞 2025-07-22 17:51:59
0 跟貼 0
余承東：我有一個夢想馬路上的所有車里都有華為的技術

每日經濟新聞 2025-07-23 17:06:16
22 跟貼 22
大家注意看！朝鮮高官開奔馳豪車開會的真實影像

大國說軍武 2025-07-25 11:39:27
0 跟貼 0
美國怕什么來什么！空客下定決心送份大禮，中方也撤銷一項制裁

驚覺慣例 2025-07-25 16:25:42
0 跟貼 0
黃仁勛：華為是一家非凡的科技公司他們的成就值得欽佩

每日經濟新聞 2025-07-24 17:15:31
0 跟貼 0
理想汽車李想：我們比傳統汽車廠商更懂大型軟件

每日經濟新聞 2025-03-29 12:03:06
50 跟貼 50

量子位

追蹤人工智能動態

10928文章數 176198關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

本地

時尚

旅游

健康

手機 / 數碼

房產 / 家居

斯坦福大模型推理課免費了，谷歌推理團隊創始人主講

有推理過程的答案會讓模型更自信

Denny Zhou介紹

AI教父辛頓現身上海：人類如何不被AI殺掉

俄羅斯官媒"尋人" 25年前與普京合影的中國男孩找到了

俄羅斯官媒"尋人" 25年前與普京合影的中國男孩找到了

3年過去了，她還是歐洲杯上最酷的姐

王菲近況惹人憂！謝霆鋒重操老本行？

劉煜輝:當下重要不是找確定性而是轉折點

"得房率"超90% 全新嵐圖知音空間信息曝光

態度原創

孩子撒謊？別急著生氣，先聽聽TA用謊言說的"真心話"

換個城市過夏天|風拂鹽湖，躲進格爾木的盛夏清涼

被她們美到了！緞面裙還可以這樣搭

熱聞|清明假期將至，熱門目的地有哪些?

呼吸科專家破解呼吸道九大謠言！