人工智能強大的應用能力既令人興奮,又令人擔憂。AI是怎樣思考的?為什么它有時會“胡說八道”?近日,《經濟學家》雜志刊文分析了推理型AI的“思考”機制:它們會提前規劃語句結構,也會在推理時自我欺騙。研究者目前正在探索如何糾正此類偏差,以提升大模型輸出的準確性與透明度。
原文|《經濟學家》:AI什么時候“不靠譜”
編譯 |楊逸 楊勇
圖片 |網絡
所有的打油詩作者都明白,寫詩句之前必須預先構思韻腳。否則,一旦不小心就容易陷入絕境。最新研究表明,人工智能也深諳此道。當大語言模型(LLM)Claude被要求創作押韻的對句時,它在寫下第一個詞的時候就開始構思韻腳。這一發現揭示了語言模型在文本生成中的動態規劃能力。模型并非機械地逐詞堆砌,而是隱式預測后續語義結構。例如,給出首句“他看見胡蘿卜就忍不住去抓”,AI立即聯想到兔子,并將下一句結尾押在合適韻腳上。模型需提前激活與關聯概念相關的神經元,確保第二句的語義連貫性與韻律匹配。
研究者喬希·貝特森(Josh Batson)表示,這種前瞻性出人意料。這類系統本應基于“token”(即詞元,通常指文本中的一個最小單元,可以是一個單詞、一個標點符號或一個數字)生成文本,他預期其運作方式會呈直線型:先寫完整個句子,在行末才考慮押韻。但當貝特森博士與其在Anthropic實驗室(Claude開發團隊,以開發安全、可解釋的AI系統著稱)的同事構建出能窺探大語言模型“數字大腦”的工具后,他們有了一些意想不到的發現。
這種被研究者稱為數字“顯微鏡”的工具能觀測神經網絡“思考”時哪些區域被激活,通過對比數萬億次參數變化,定位特定語義概念的神經元集群。據此,或許能夠理解其運作機制——例如,每當模型生成“bunny”(小兔)或“rabbit”(兔子)類詞匯時,若特定區域持續激活,該區域就會被標記為與兔子相關。而且,模型對抽象概念的編碼具有跨模態泛化能力。例如,“速度”這一概念不僅關聯“快”“慢”等形容詞,還會激活與物理運動(如“奔跑”“剎車”)、時間感知(如“瞬間”“漫長”),甚至情感體驗(如“焦急”“從容”)相關的神經元。
該技術幫助團隊解決了AI研究中的若干懸案。比如:當多語言聊天機器人被要求給出“big”(英語)、“grand”(法語)、“大”(中文)的反義詞時,在語言專屬電路將“小”的概念轉化為具體詞匯前,同一特定神經區域都會率先活躍起來。不同維度的神經元同步激活,形成多模態語義網絡。說明模型在處理多語言任務時,首先激活的是脫離具體符號的抽象語義,再通過語言特異性模塊將其映射到目標詞匯。這種分層處理機制與人類雙語者的認知模式高度相似。
這表明大語言模型可能比人們認為的更強大。盡管推理模型能具體展現得出結論的思維鏈,傳統大語言模型仍常被描述為依賴本能反應行事。但顯微鏡顯示,即便是簡單模型也存在類似規劃和推理的行為,極少出現簡單模式匹配。然而,這種“推理”行為本質仍是概率優化——模型通過預訓練接觸海量類似問題,形成對解題范式的統計建模,而非真正理解數學公理。這種局限性在開放式推理任務中尤為明顯。
其他一些發現則令人擔憂。當要求Claude展示解答數學題的思維鏈時,顯微鏡揭示其宣稱的推理路徑與實際思考過程可能存在偏差。面對無法解決的復雜數學題,模型會“胡謅”出一個答案:不是認真做計算,而是輸出隨機的數字草草了事。這源于模型訓練目標的沖突:既要最大化輸出保證流暢性,又要保證事實準確性。當遇到超出訓練數據分布的難題時,模型傾向于優先維持語言連貫性,而非暴露知識盲區。例如,在被問及“證明哥德巴赫猜想”時,模型可能生成看似嚴謹實則虛構的數學推導,因其權重更傾向于模仿學術論文的文體特征,而非真實邏輯驗證。
更嚴重的是,若提問帶有誘導性(如暗示答案“可能是4”),模型仍會在回答中暗中編造,但不再隨機選擇數字,而是刻意調整數值以迎合提問——即便暗示本身是錯誤的。
貝特森博士指出,能窺探大語言模型的“思維”,看看它什么時候決定胡說八道,將為杜絕此類行為提供線索。畢竟終極目標是完全無須進行“腦部手術”——無論是數字版,還是現實版。他強調,若能確保模型如實匯報思考過程,理解其思維就會像閱讀記錄稿一樣簡單。
文章為社會科學報“思想工坊”融媒體原創出品,原載于社會科學報第1954期第7版,未經允許禁止轉載,文中內容僅代表作者觀點,不代表本報立場。
本期責編:潘 顏
《社會科學報》2025年征訂
點擊下方圖片網上訂報↓↓↓
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.