新智元報道
編輯:定慧
【新智元導讀】AI是否真正在「思考」乃至產生意識,正成為科學和哲學交匯的核心議題。前OpenAI負責人翁荔認為,增加模型的「思考時間」有助突破復雜推理瓶頸;哈佛等機構則指出思維鏈可能導致「降智」;而生物學家Mallavarapu斷言數字計算機永不可能擁有意識。
以推理模型為代表的AI是否真在思考?未來的它們會進化出意識嗎?
在模型——思考——意識這種終極問題面前,有下面三個觀點:
模型增加「思考時間」(即測試時計算)能提升其性能和推理能力。
推理模型思考太多不僅無法提升能力,還會「降智」。
(跑在)數字計算機(上的推理模型)永遠不可能具有意識
這三個截然相反又似乎相互聯系的觀點,來自最近關于AI的三篇論文/博客:
第1個觀點來自前OpenAI應用AI研究負責人,北大畢業的LilianWeng(翁荔)
讓模型在預測之前有更多的時間思考,比如通過思路鏈推理等,對于解除下一層次的智能障礙非常有效。
翁荔最新關于推理模型《Why we think》的文章一度出圈
第2個觀點來自(2025年5月16日),通訊作者Xiaomin Li,是一位在哈佛大學攻讀應用數學博士學位的學生。
思維鏈(Chain-of-Thought)并不總是錦上添花,有時候,它會讓大模型越想越錯!
當思考失效:大語言模型在執行指令時陷入推理陷阱
第3個觀點來自加州大學舊金山分校博士,哈佛醫學院系統生物學系虛擬細胞計劃創建者Aneil Mallavarapu,同時也是企業家和投資者。
從物理學和復雜性理論出發,可以推斷出數字計算機永遠不可能具有意識。
如果AI最終沒有意識,那么現在針對推理的模型努力是「鏡中花,水中月」嗎?
給推理模型更多時間去「思考」,到底是在幫助它突破瓶頸,還是在把它推向自我迷惑的深淵?
或者,基于數字計算機的推理模型,真的無法達到「意識」境界?
思考有用嗎?來自翁荔的總結
翁荔的觀點是:多給模型「思考」時間,可以大幅提升復雜任務中的表現。
首先她用人類思維類比,大模型也需要從「快系統(System1)直覺」轉向「慢系統(System2)理性思考」。
這個概念來自于那本著名的《思考,快與慢》,對于復雜問題,人類通常傾向于花時間思考和分析后,逐步得出結論。
翁荔認為如果將計算能力當做一種資源,神經網絡的能力大小在于其能夠調動的計算資源有多大。
模型本質上是通過計算的排列組合,構成了一個「電路」,類似各種神經元之間的聯結。
訓練過程(梯度下降)不僅是學習任務本身,更是在「探索」如何以最有效的方式使用已有計算資源。
模型在訓練過程中自行發現如何在給定資源約束下,建立高效的信息處理和存儲結構。
如果模型被訓練成一種能夠適應不同計算資源水平的架構,那么在測試時允許模型使用更多計算(如CoT推理),等價于給了模型更多資源去充分發揮潛能。
增加測試時計算(比如CoT)可以提高模型在復雜推理任務中的表現,尤其是數學、代碼、邏輯等任務。
CoT提高了數學問題的解決成功率
測試時計算的基本目的是在「思考」中自適應的修改模型的輸出分布。有多種方式可以利用測試時資源進行解碼,達到選擇更好的樣本的目的。
改進解碼過程主要有兩種方法:并行采樣和順序修正。
并行采樣簡單、直觀易于實現,但是受限于模型能否一次性得出正確解的能力。
順序采樣則明確要求模型反思錯誤,但速度就慢了,甚至有可能將正確的預測修改為錯誤。
根據這些特點,簡單的任務就并行,對于較難的問題,通常使用順序計算。(關于并行和順序具體的方法本文就略過,感興趣可看原博客)
最近比較火的是使用強化學習來獲得更好的推理能力,比如DeepSeek-R1和OpenAI的o系列模型。
以開源的DeepSeek-R1為例,它經歷了兩輪SFT-RL訓練,先監督微調確保基本格式和可讀性,然后就直接上RL。R1訓練過程如下圖所示,R1最終是由V3生成的SFT數據結合純RL訓練的一個節點而創造出來的。
在這個過程中,最有趣的要數DeepSeek公布的模型自己的「啊哈」時刻。
完全使用強化學習(RL)的方法,無需監督微調(SFT)階段,仍然可以學習到諸如反思和回溯等高級推理能力。
在RL訓練過程中,模型自然學會了在解決推理任務時分配更多的思考Token。
頓悟時刻由此產生,指的是模型能夠反思之前的錯誤,并嘗試替代方法予以糾正。
隨后,出現了多個開源項目嘗試復現R1的成果,例如Open-R1、SimpleRL-reason和TinyZero,它們均基于Qwen模型。
這些嘗試也證實了純強化學習在數學問題上具有出色的性能,同時也再次驗證了頓悟時刻的出現。
以上內容都表明,只要給足思考時間,模型就會變得更聰明。
翁荔也提到了一些其他的促進模型思考的方法,比如:
外部工具(比如專業用來計算33/8=?)的使用來促使模型更好思考;
監控CoT的過程,讓模型更加忠實的思考,因為監控可以發現比如獎勵黑客攻擊等行為;
翁荔還探討了在連續空間中思考、將思考視為潛在變量和思考時間的Scaling Law等方法,限于篇幅就不展開。
ChatGPT給出的關于在「連續空間中思考」的直覺理解
思考時間的Scaling Law類似于大模型參數Scaling Law,并且有研究發現優化 LLM 測試時的計算可能比擴大模型參數更有效。
給模型額外「思考輪次」(修訂或搜索)確實能顯著提高解題正確率,且隨預算遞增呈邊際遞減但仍穩步上升。
翁荔最后的結論其實就是對測試時計算和思維鏈推理的探索為增強模型能力提供了新的機會。
更有趣的是,通過測試時思維,我們正朝著構建未來人工智能系統的方向邁進,這些系統能夠模仿人類思維的最佳實踐,包括適應性、靈活性、批判性反思和錯誤糾正。
簡單地說,翁荔認可現在推理模型走上這條進化之路,并且給于模型越多的時間和資源進行思考,模型越有可能模仿人類思維。
正所謂Why we think——因為想的越多,越聰明。
從這個角度來看,推理模型還真挺像人的。
思考多了,反而降智?
哈佛/亞馬遜團隊挑戰主流
大部分人和翁荔的看法是一致的,畢竟DeepSeek-R1和OpenAI o系列證明了推理模型的有效性。
但一篇來自哈佛/亞馬遜團隊的論文提出一個觀點:
思維鏈(Chain-of-Thought)并不總是錦上添花,有時候,它會讓大模型越想越錯、越幫越忙!
在需要遵守指令或格式的任務中,使用CoT推理,模型遵守指令的準確率會下降!
在文章中展示了研究人員對具體模型的測評結果。
其中綠色與紅色分別標識原始模式與CoT模式的性能。
各改進方法列同時報告絕對準確率及相對于CoT模式的變化(↑表示提升,↓表示下降),最優改進方案用加粗字體標出。
結果是,幾乎全部CoT模型都不如原始模型,可以說推理越多,表現越差!
研究團隊給出的結論是,CoT會分散模型「注意力」,模型有時候會「越想越偏」,甚至可能自信地犯錯。
比如,如果你讓模型執行「XXXX,結果只輸出選項A或B」,那它的注意力就應該聚焦在指令里的關鍵約束詞上,比如「A或B」。
然而,CoT推理的引入卻改變了這種聚焦機制:當你讓模型「一步步來思考」時,它反而會被自己的推理內容吸引,逐漸忽略最開始的指令約束。
這里我們不關注后續研究團隊提出的改進辦法,而是將「注意力」放在CoT會分散模型注意力。
在哈佛的這篇研究中,「CoT會分散模型注意力」這個結論和人類也非常的像。
很多時候,我們在思考一個難題,難免思維會發散,就像一棵不斷分叉的樹,越思考枝叉越多,也離最開始的目標越遠。
CoT能幫助模型思考,CoT太多又會分散模型注意力,不論從正反哪個角度看,似乎推理模型都有了那么點「人味」。
難道推理模型再進化下去——也許是OpenAI的o10,或者DeepSeek-R5——一定能夠產生意識嗎?
AI終點是意識嗎?
Aneil Mallavarapu的反問
在討論大模型能否產生意識前,讓我們往后退一步,回到目前承載數萬億參數的計算機形態以及為何頂尖科學家,比如辛頓,大部分都相信「AI有意識」。
首先關于人類意識還沒有一個非常權威的結論。
許多科學家和工程師認為,意識是從計算機和大腦中的離散相互作用的部分產生的。
Aneil Mallavarapu從物理學和復雜性理論論證了意識可能源于非經典物理現象,所以馮諾依曼的經典結構計算機不可能產生意識。
作為科學家,Aneil Mallavarapu主張重回以人類和生物系統為基礎的科學研究路徑。
技術可以塑造我們的思想。
當電被發現時,理論家和作家們抓住了「電是驅動生命的力量」這一觀點不放。
這啟發了瑪麗·雪萊創作出一道閃電賦予弗蘭肯斯坦怪物生命的場景。
當一項強大的新技術出現時,它會重塑文化,并成為一種思維方式。
這個過程被稱為技術框架效應。
過去,猜測計算機是否有意識只是大學宿舍里閑聊的話題,但現在,許多人工智能領域的領導者認為,在他們所創造的智能體中,蘊含著某種答案。
Open AI的前首席技術官Ilya Sutskever曾表示,他認為自己公司的產品ChatGPT可能「稍微有意識」。
2023年的一次研究人員會議上,Ilya說他們將在通用人工智能 (AGI) 出現之前建造一座(地堡)掩體——當然,你是否想進入掩體是可選的。
圖靈獎得主、Meta 人工智能部門負責人Yann LeCun則認為還需要做更多工作,但只要有了正確的算法,就一定能實現。
LeCun諷刺了那些不相信計算會導致意識的人,稱他們就像18世紀認為生命只能通過神秘的「活力論」來解釋的思想家一樣。
以上兩人的觀點絕非個別——他們代表著一股日益壯大的思潮,尤其是在科技工作者、哲學家和未來主義者當中,甚至連科學家也持此觀點。
物理學家薩賓娜·赫森費爾德(Sabine Hossenfelder)最近評論說,她「看不出計算機無法擁有意識」的理由。
這些觀點并不僅僅是邊緣信念。
一項近期民意調查顯示,許多人預計AI將在五年內獲得自我意識,其中38%的人支持賦予Ai法律權利,69%的人贊成禁止具有自我意識的AI。
但是Aneil Mallavarapu認為似乎人類走在錯誤的道路上:
我在哈佛大學系統生物學系從事構建復雜生物系統數學模型的語言方面的工作,這使我具備了跨越計算機科學、數學和生物學的視角,而我的研究生工作則專注于神經元。
出于好奇,我參加了第二屆意識科學會議,那已經是30年前的事了。
從那時起,我一直有一種揮之不去的懷疑,即純粹哲學和計算方法在意識研究上走錯了方向,我們需要以嚴謹的科學和數學分析來解決這個問題。
對于AI能力的期待,人們似乎喜歡用名字賦予它生命感,通用人工智能AGI、還是超級人工智能ASI,或者強人工智能Strong AI,但不論是哪一種,都會最終回到同一個問題:意識是什么,它是如何產生的?
哲學家Thomas Nagel曾思考過「成為一只蝙蝠的感覺是什么」,以此來強調主觀體驗無法被外部觀察和直接理解。
另一個挑戰ASI/AGI/Strong AI的例子就是著名的「中文屋」實驗,從外部看,這個房間似乎完全理解中文并能作出合適的反應;但房間內的人其實根本不理解中文,他只是在機械地執行規則。
一個計算機系統,即使表現出智能行為,也并不意味著它真正具備「理解」或「意識」。
計算機不過是通過操縱符號并執行規則來工作,它們并不真正具備人類所擁有的主觀體驗或意義理解。
如果將這個結論繼續下放到翁荔和哈佛團隊所討論的CoT,那就是數字計算機即使擁有無限的CoT,仍無法產生主觀體驗——也就是AI無法產生意識。
意識作為一種獨特的自然現象,無法適用于傳統的科學方法。
Aneil Mallavarapu認為基于物理學、復雜性和可計算性理論的基本原理——數字計算機若不違反科學家和AI支持者所珍視的觀念,就永遠無法擁有意識。
我們并不完全了解大腦是如何運作的,但數字計算機是由我們設計的,因此我們知道它們的確切工作原理。
它們的行為源于一套簡單的特性:讀寫內存的能力、條件邏輯、一組有限的規則以及執行順序操作的能力。
AI也一樣,只不過是將token轉化為一系列的詞向量,最終變成計算機中的二進制代碼。
如果經典科學無法產生意識,自然而然地,我們會想到量子力學/量子糾纏。
而人類的大腦中產生的意識是通過經典科學還是量子糾纏產生的?
有一種大腦的雙重模型模型,大腦黑暗的部分以經典方式計算,但無意識,然后將結算結果傳遞給明亮的、有意識的、非經典的腦區。
然而,如果意識與量子糾纏態相關,那么大腦的許多部分為何看起來卻是一個經典的信息處理網絡——人類以此為啟發創造出當下的大模型AI,并且還發明了大模型的Scaling Law。
這個問題依然有待腦科學的進步來回答。
從翁荔的總結,到哈佛團隊的最新發現,再到Aneil Mallavarapu的思考,不難發現——
推理模型引發的關于AI與意識的爭論,已不僅僅是技術路線之爭,更是關于人類認知邊界的深刻反思。
在大模型技術的高歌猛進中,創造出的AI越來越像人,它會規劃、會反思、甚至還有頓悟般的「啊哈」時刻。
這也是當技術、資本和大眾都在為之狂歡時,為何AI之父辛頓等人會表現出對人類擔憂的根本原因吧。
對于「AI思考」的思考,不會止于AI,更歸于人類自身的未來。
參考資料:
https://substack.com/home/post/p-160203367
https://lilianweng.github.io/posts/2025-05-01-thinking/
https://arxiv.org/abs/2505.11423
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.