網易首頁 > 網易號 > 正文申請入駐

朱松純：大模型為什么不是AGI？

2025-03-04 10:51:12　來源: 知識分子

江蘇舉報

分享至

3.4?知識分子The Intellectual

圖源：pixabay

編者按

今年年初，國產大模型DeepSeek憑借低成本和優秀的推理能力震動了業界，但對普通人來說，恐怕給人更深刻的是它犀利的語言風格。看慣了GPT-4百科式精準而波瀾不驚的語言風格，DeepSeek的嬉笑怒罵讓人親切得多，甚至有時會讓人覺得恍惚。AI似乎早已躍出了我們對工具的固有認知，我們對話的，是不是已經是一個具有智能的硅基生命？

在新書《為機器立心》中，北京通用人工智能研究院院長、北京大學智能學院院長、北京大學人工智能研究院院長、清華大學基礎科學講席教授朱松純就為我們講述了和AI的“相處之道”，我們應該如何和AI共生，又如何讓AI理解人類的善與美。

本書是朱松純教授對通用人工智能的深刻思考與實踐總結，解答了什么是通用人工智能、如何認清智能的本質、如何為人工智能找到統一理論與認知架構，進而為機器立“心”等重要問題。旨在為AI賦予“心”與“魂”，開啟智能時代的“中國時刻”。

書中不僅直面當下AI的迷思——如“ChatGPT是否只是‘缸中之腦’”“如何超越‘鸚鵡學舌’式的智能”，還提出了獨到的“1238”路線圖：一個統一框架、兩大系統完備性、三項基本特征、八大關鍵問題，為通用人工智能的研究提供了系統性思路。書中還介紹了四大研究成果：通用智能體“通通”、大任務仿真平臺“通界”、評級標準“通智測試”、科研平臺“通境”，并探討了AI與產業結合的可能性。

以下內容出自該書第一章。朱松純指出，我們對于大模型的能力仍然存在高估，更關鍵的是，大模型的雖然出色，但仍然是缸中之腦，不具備真正的智能。若AI無法建立符號與實在的實質性聯結，它的“智能”可能終將困于語言的鏡廳之中。

撰文 |朱松純

01 大模型與缸中之腦

缸中之腦是由哲學家希拉里·帕特南（Hilary Putnam）提出的一個著名思想實驗。如圖 1-1 所示，該實驗假設將人的大腦與身體剝離，大腦被放入一個能夠維持其機能的盛有營養液的容器中，一臺聯結大腦神經元的超級計算機負責制造出各種幻象，讓大腦誤以為一切仍保持正常，就像《黑客帝國》所演繹的那樣。那么，人類該怎么知道自己不是 “缸中之腦”呢？

圖1-1 "缸中之腦"

基于語義學的分析，帕特南指出，當處于缸中大腦狀態的人聲稱自己是“缸中之腦”時，“缸”和“腦”的所指已經發生了變化。如何理解這一觀點呢？

舉個簡單的例子：假設存在一個孿生地球，其居民的生活方式、語言均與人類相同，但他們的水分子構成為 XYZ，而不是 H2O。兩種“水”在外觀、用途和名稱上并無差異，且兩地居民對“水”的心理感知相同，但它們指向的實質卻不同，因此其含義也應有所區別。這也啟示研究者要從符號落地（symbol grounding）的視角看待大模型[1]。

我們研究團隊的成員前段時間發表了一篇論文：Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models(《缸中之腦：關于大語言模型建立的通用人工智能的一些缺失》)。該論文指出大模型無異于“缸中之腦”，因為大模型本身并不存在于真實世界中，無法像人一樣實現從“詞語（word）”到“世界（world）”的聯結。

這一點是由它的內在構造機制所決定的，即通過統計建模在大量文本上進行訓練，學習文本之間的語言學相關關系，從而根據上一個詞語預測下一個詞語。缺乏符號落地使得大模型很容易陷入無限循環，如圖 1-2 所示，用戶啟動了一個話題，讓兩個 GPT-4 進行對話，它們在只進行一輪對話后，就開始對彼此表示感謝，并且無限重復“感謝”。這與符號落地理論相呼應，即當不能建立從詞語到世界的聯結時，對話將進入無限循環。

圖 1-2 兩個 GPT-4 無限循環的對話

大模型的智能與其說是內在的，不如說是人類智能的投影。大模型生成的文本本身并不具有意義，其意義完全取決于人類用戶對文本的闡釋。美國語言學家諾姆·喬姆斯基（Noam Chomsky）曾經嘗試挑戰語言學界，構造了一個符合語法規范但無意義的句子：無色的綠思狂暴地沉睡（Colorless green ideas sleep furiously）。中國語言學之父趙元任在《從胡說中尋找意義》一文中，以一種充滿哲思的方式闡釋了這個句子：

我有一個朋友，總是充滿各種想法，好的和壞的，精致的和粗糙的，陳舊的和新穎的。在付諸實踐之前，他通常會把新的想法放在心里，讓它們成熟和發酵。然而，當他匆忙時，有時會在想法完全成熟之前就付諸實踐，換句話說，當它們還很 “生”的時候。他的一些“生綠”想法非常生動且豐富多彩，但并非總是如此，有些則相當樸素和無色。當他想起一些無色的想法仍然太不成熟，以至于無法使用時，他會再次考慮，或者讓它們“睡覺”，正如他所說的那樣。但是，其中一些想法可能彼此沖突和矛盾，當它們在同一晚上一起“睡覺”時，它們會爆發激烈的爭斗，將整個夜晚變成一場噩夢。因此，我的朋友經常抱怨說，他那些無色的“生綠”想法睡得很狂暴。

這段充滿哲思的闡釋讓我們深刻理解到，文字本身并不攜帶固有的意義，而是人類賦予了它們意義。這種意義既可以是字詞本身的含義，也可以是結合了現實生活體驗，從而超越單個字詞而在語境中創造出來的新的含義。因此，意義的前提是符號落地。

現在的大模型更多的是在純符號空間中進行符號組合，即使它們生成了諸如“我愛你”這樣的語句，也不過是另一種形式的“缸中之腦”。這種表達缺乏對人類真實生活體驗的深刻理解，因此與我們所認同和期待的“我愛你”有著本質的不同。

02 是真的掌握了概念，還是僅僅形成了“隱藏記憶”

大模型訓練數據集的不透明性，以及人類評估時所采取的指標差異，可能導致人類高估了大模型的真實性能。

大模型通常利用龐大且容易獲取的互聯網數據進行訓練，而訓練數據中可能包括了用于后續評估的數據集。由于我們目前無法確切了解 GPT-4 等大模型訓練數據集的構成，“泛化”這一概念變得模糊不清。我們難以判斷這些模型是真的掌握了核心概念，還是僅僅在從訓練過程中形成的“隱藏記憶”中進行檢索。這種不透明性阻礙了學術界對這些模型進行公正和可靠的評估。

圖 1-3 顯示的是一道連掌握加減進位運算的小學生都能正確解答的數學題，但是 GPT-4 大模型卻算錯了。這說明大模型沒有掌握哪怕最簡單的加減法運算規則。

圖 1-3 GPT-4 大模型出現的計算錯誤

圖 1-4 顯示的是 GPT-4 大模型未經事實驗證，就胡亂編造地生成 “林黛玉倒拔垂楊柳”的事實性錯誤內容。這說明大模型雖然通過海量文本數據分別學到了“林黛玉在大觀園”和“魯智深倒拔垂楊柳”的內容，但是本質上并不具備事實判斷的能力。它所表現出的乃是一種“知識幻象”。

圖 1-5 顯示的是 GPT-4 大模型編造的宋江、吳用、花榮“桃園三結義”的故事。這同樣說明了大模型本質上不具備事實判斷的能力，而只表現出一種“知識幻象”。

圖 1-4 GPT-4 大模型杜撰的“林黛玉倒拔垂楊柳”

圖1-5　GPT-4 大模型自行更換了“桃園三結義”中的人物

圖1-6 顯示的是當輸入“馬騎著宇航員”的英文“A horse is ridingan astronaut”時，某文生圖大模型生成的結果。生成的圖像是宇航員騎著馬，而不是馬騎著宇航員。這表明該模型在理解自然語言的字面含義方面存在局限，并不能準確地解析和生成與輸入語句含義相符的圖像。

圖1-6　某文生圖大模型生成的錯誤圖像

此外，大模型的一個重要問題是嘗試將本身不屬于語言范疇的問題轉化為語言問題。然而，在這一轉化下，本身不使用語言而使用計算模型的問題自然變得漏洞百出。比如，經過統計，在處理一個小學難度的數據集時，即使是采用了多步迭代策略的大模型，其正確率也難以超過 50%。大模型在處理數據集時的正確率見表 1-1。

在傳統邏輯推理任務中，大模型的準確度往往依賴于語言的清晰度和具體性。一旦我們將原本具有明確語義的詞匯替換為抽象的符號，大模型的推理能力就會急劇下降。

大模型做不好抽象推理，在那些僅依賴于從幾個小樣本中找到潛在規律的任務中，大模型的表現較為一般。如圖1-7 所示，在以英國學者約翰·C. 瑞文（John C. Raven）命名的瑞文標準推理測驗中，測試者需要根據已有的8 個圖形的形狀、數量、大小等，尋找隱含的規律，然后推理出最后一個圖形。大模型在瑞文標準推理測驗中的表現較差。

圖1-7　瑞文標準推理測驗中的圖形推理問題

大模型在創造力方面的表現也遠遠不如人類，甚至在某些方面達不到兒童的水平。最近，研究人員提出一種創造力測試方法，靈感源于歐美廣受歡迎的電視節目中的游戲環節。這項測試要求參與者對一組單詞進行分類，并說明其分類的邏輯依據。實驗結果顯示，與人類參與者相比，大模型在解決此類問題時遇到了顯著的困難。

大模型雖然在某些方面表現出色，但它們并不具備真正的“智能”，更像是一種新型的“數據庫”。在實際應用中，大模型最常面臨的問題之一是所謂的“幻覺”現象。這些模型在海量文本數據上進行訓練，因此在回答問題時，它們往往會搜索所有訓練數據，尋找與問題在統計意義上相似的內容來回答。然而，這種回答僅僅基于問題和數據之間的 “相似性”，并不是真正的“相關性”。

數據價值趨于飽和，學術界普遍認為大模型不是通用人工智能。OpenAI 的首席執行官山姆·奧爾特曼（Sam Altman）曾公開表示，目前大模型所使用的數據量已經接近公開可獲取數據的極限，盲目提升規模并不會帶來可預見的突破。

數據是大模型訓練中的關鍵要素。在微軟的加持下，OpenAI 得以利用先進的搜索技術，其訓練數據集已經非常廣泛，幾乎涵蓋了互聯網上所有可公開訪問的信息，數據的價值幾乎已經被耗盡。

GPT-4 在很大程度上代表了在當前數據集規模下所能達到的性能極限。在這種情況下，單純增加數據量或模型規模，將難以在人工智能領域再次實現質的飛躍。

03 為什么大模型不是AGI

在圖靈獎得主楊立昆（Yann LeCun）看來，大模型研究是在走人工智能的下坡道。現有的研究缺乏對于認知推理模型的構建，而單純的數據驅動無法達成人類級別的智能。楊立昆同時表示，ChatGPT 缺乏創新，沒什么革命性，ChatGPT 推出的 GPT-3.5 模型在很多方面綜合了這些年來多方所開發的多種技術。

加州大學伯克利分校認知心理學教授艾利森·戈爾尼克（Alison Gopnik）在近期的文章中指出，大模型是一種模仿機器，缺乏認知推理所需的創造力。許多嬰兒都能完成的任務，大模型至今無法完成。

首先，大模型語言空間無法覆蓋所有智能任務。由于大模型對于符號數據的依賴性，其性能僅表達符號層面的“知”，卻無法完成操作層面的“行”，不滿足對于通用智能體“知行合一”的要求。

現實生活中存在大量符號數據難以表達的任務，比如，炒菜的時候如何把握火候、駕駛的時候如何控制方向等。這一類任務無法利用符號化的文字進行表達，也無法利用大模型進行學習。同時，大模型由于沒有“行”，沒有動機、目標，也沒有操作的具身空間，完全無法像人類一樣，在一個實體空間中進行主動探索、發現知識和積累知識。這使得大模型只能被動獲取內容，而無法主動掌握技能。

麥克阿瑟“天才獎”得主、華盛頓大學教授、美國阿蘭圖靈研究中心研究員葉因·蔡（Yejin Choi）在 TED 大會上公開表示，大模型缺乏常識概念，不具備人類主動探索的能力。

其次，大模型具有虛假涌現及不可控的特性。斯坦福大學的研究者們最近發現，大模型所謂的涌現能力并非真實存在，而是衡量標準的結果。他們采用了非線性衡量標準，如采用指數標準 xn。隨著 x 的線性增長，模型的表現似乎呈現出指數爆炸式的涌現現象。然而，如果采用線性衡量標準，大模型的表現僅呈現線性增長，不存在性能提升越來越快的情況，更不存在量變到質變的可能。

此外，基于神經網絡的大模型有巨大的不可控性。作為一個黑盒模型，我們無法預測其輸出內容，尤其是在輸入大量錯誤信息后，模型很容易產生不可控的輸出。

[1]《知識分子》編者注：帕特南認為，詞語的意義不僅依賴心理狀態或語言規則，更取決于其與外界的實際指稱關聯。若一個人是缸中大腦，其感官經驗完全由計算機模擬，那么“缸”和“腦”所指的并非真實對象，而是虛擬信號；同樣，孿生地球上的“水”雖與地球水外觀相同，但因化學成分為XYZ而非H?O，其意義已悄然分化。這引出了符號落地問題：語言符號需通過與現實世界的直接關聯獲得意義。而當前大語言模型雖能通過文本數據生成語言，卻缺乏與現實經驗的直接錨定。

BOOK TIME

《通用人工智能的中國藍圖系列（套裝2冊）》

朱松純著

浙江科學技術出版社

2024年12月出版

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.