聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
干貨來了!
如何理解大模型推理能力?現在有來自谷歌DeepMind推理負責人Denny Zhou的分享了。
就是那位和清華姚班馬騰宇等人證明了只要思維鏈足夠長,Transformer就能解決任何問題的Google Brain推理團隊創建者。
Denny Zhou圍繞大模型推理過程和方法,在斯坦福大學CS25上講了一堂“LLM推理”課。
讓我們也來跟著大神學習一下。
有推理過程的答案會讓模型更自信
首先,什么是大模型推理呢?
其實就是大語言模型在給出最終答案前的中間思考步驟
比如問
“artificial intelligence”每個單詞的最后一個字母連起來是什么?
有推理過程的回答會先分別找出“artificial”的最后一個字母是“l”,“intelligence”的最后一個字母是“e”,再把它們拼接成“le”;而沒有推理的就直接給出“le”這個結果。
這種推理過程和人類的思維過程無關,而關鍵在于生成了大量的中間內容。
那為什么中間思考步驟很重要呢?
一個原因是它可以讓復雜問題變得可解
簡單來說,對于能用布爾電路解決的問題,假設電路規模是T,哪怕是固定大小的Transformer模型,生成O(T)個中間步驟就能搞定。
但如果跳過中間步驟,直接讓模型輸出最終答案,要么需要極深的模型層數(增加計算成本),要么根本無法解決。
Denny Zhou和馬騰宇等人的著作《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》提到如果給Transformer引入思維鏈,就能大大提高模型推理能力。
這篇論文說明了只要引入思維鏈,那么無需擴展模型的規模就能讓Transformer變得強大到能解決任何問題。
理論上來說,只要有足夠的CoT步驟,Transformer就可以模擬多項式大小電路可以執行的任何計算,從而縮小了Transformer與圖靈機之間的差距。
另一方面是中間步驟可以提升答案的準確性和可靠性
沒有推理步驟時,模型可能靠“瞎猜”給出答案。
例如問:
我有3個蘋果,爸爸比我多2個,一共多少個?”
直接輸出的答案可能是錯誤的“5個”;
但有推理步驟的回答就是“爸爸有3+2=5個,總共3+5=8個”),答案更可能正確。
這是因為推理步驟迫使模型有理有據地推導,尤其是對需要邏輯鏈條的問題(如數學、因果分析),減少了隨機猜測的概率。
就像做數學題一樣,一步步推導可比瞎蒙準確率高多了。
并且,對于有推理過程的答案會讓模型更有信心
Denny Zhou還強調預訓練模型即使沒有經過任何微調,也具備推理能力
只不過,基于推理的輸出通常不會出現在輸出分布的優先級部分,因此無法通過貪婪解碼(選擇概率最高的輸出)輸出。
那么我們如何讓它輸出推理后的答案呢?
一種方法是提示
既然模型對于有推理過程的答案更有信心,那么我們可以通過思維鏈提示或者加上提示詞來讓模型進行推理。
比如思維鏈提示,你可以給它一個帶步驟的例子,給它打個樣。或者你可以告訴它:讓我們一步步想。
不過,Denny Zhou和Xuezhi Wang在《Chain-of-Thought Reasoning Without Prompting》一文中提出其實不用這些提示,只要改變模型的解碼方式,就能讓預訓練的語言模型展現出推理能力。
原來模型在生成答案時,通常只用最可能的那個詞(貪心解碼),但如果看看排在后面的幾個可能的詞(top-k替代詞),會發現里面藏著一步步推理的路徑。
而且當有這種推理路徑時,模型對答案的信心也更高。
于是他們提出了CoT-decoding方法,就是從這些top-k的解碼路徑中,選出那些有推理過程且模型信心高的路徑,這樣能讓模型在各種推理任務上表現得更好,甚至能接近經過指令微調的模型效果
不過,另一種方法就是監督微調(SFT)
監督微調就是用人類寫的帶步驟的題和答案訓練模型,讓模型學著生成類似的步驟。
但這種方法有個問題是泛化性不太好,換個新場景可能就不靈了,而且模型做大了也沒用。
于是,研究人員對監督微調進行了改進,一種是自我改進,讓模型自己生成步驟和答案,然后用正確的那些訓練自己,有點像學生自己做題糾錯。
另一種是強化學習微調,反復讓模型生成答案,多練正確的,少練錯誤的。這里面,能判斷答案對不對的“驗證器”很重要。
現在,強化學習微調已成為了引出推理的最強大的方法。
并且,Denny Zhou認為擴展強化學習應該專注于生成長響應,也就是《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》這篇文章中的觀點。
另外,進一步的重大改進是聚合和檢索的方法
LLM是概率模型,其解碼時追求的是在給定問題下推理和最終答案的聯合概率最大,而我們想要的是給定問題下最終答案的概率最大,兩者并不一致。
于是有了以下改進方法:
- 邊緣化和自一致性:生成多個回答,選擇出現最頻繁的答案。
- 通用自一致性:讓LLM自己選擇最一致的答案,適用于非唯一答案的問題,比如“哪些國家的人比墨西哥人喝咖啡少”。
- 檢索+推理:結合檢索和推理的方法,先回憶相關問題,再解決當前問題。比如計算正方形面積的問題,先回憶兩點間距離公式,再計算邊長,進而得到面積。
最后,Denny Zhou總結了提升LLM推理能力的要點
- 推理比不推理好
- 強化學習微調比監督微調好
- 聚合多個答案比單個答案好
- 檢索+推理比僅推理好
并指出未來的突破方向是解決非唯一可驗證答案的任務,以及構建實際應用而非僅解決基準測試問題。
Denny Zhou介紹
Denny Zhou是中科院博士,2017年加入Google前在微軟擔任了11年的高級研究員。
他創立并領導了Google Brain中的推理團隊,Google Brain現已成為Google DeepMind的一部分。
他的研究目標是通過構建具備推理能力的大型語言模型解決人工通用智能(AGI)問題,核心方向包括思維鏈、自洽性、任務分解、零樣本學習、組合泛化及大語言模型理論等,追求實現完美泛化。
在2022年,他榮獲谷歌研究技術影響力獎、2022年WSDM時間考驗獎等。
近年來,他多次受邀在耶魯大學、哈佛大學、斯坦福大學等多所高校和機構進行主題為語言模型推理的演講。
這次Denny Zhou在斯坦福大學CS25課程上用的課件已附在文末~
完整版pdf:https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf
[1]https://x.com/denny_zhou/status/1948499173986201915
[2]https://dennyzhou.github.io/
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.