大模型的“三重門”，AI的盡頭是什么？

2025-03-05 16:05:06　來源: 極智GeeTech

北京舉報

分享至

我們通向AGI的巔峰之旅，恐非一點之極，而似層巒疊嶂、地形錯綜的高原。

1956年夏天，新罕布什爾州達特茅斯學院迎來了一場特殊的學術聚會。當數(shù)學教授約翰·麥卡錫在會議提案中首次寫下“Artificial Intelligence”這個術語時，或許未曾料到，這場原本計劃用兩個月時間“徹底解決機器模擬智能問題”的討論，竟開啟了一場跨越世紀的認知革命。

阿里巴巴集團CEO吳泳銘在財報會議上語氣鏗鏘，仿佛預見到歷史轉(zhuǎn)折的關鍵瞬間：“一旦AGI真正實現(xiàn)，其所催生的產(chǎn)業(yè)規(guī)模，極有可能問鼎全球之首，甚至有可能深刻地影響、乃至部分取代當下全球經(jīng)濟構(gòu)成中近半壁江山的產(chǎn)業(yè)形態(tài)。”

在驚喜與擔憂之間，人們正學著接納和擁抱人工智能，惴惴不安地揣測著通用人工智能（AGI）何時到來。然而，作為掀起本輪AI熱潮的主角，大語言模型或許還只是一個探路者，離真正的AGI仍相距甚遠，甚至根本不是通達AGI的正途。對此，人們不免心生疑問，我們離實現(xiàn)真正的AGI還有多遠？

誰是AGI的起點？

“通用人工智能（Artificial General Intelligence）”一詞最初出現(xiàn)在北卡羅萊納大學物理學家Mark Gubrud于1997年發(fā)表的一篇有關軍事技術的文章中，其中將AGI定義為“在復雜性和速度上與人腦相媲美或超越的AI系統(tǒng)，可以獲取一般性知識，并以其為基礎進行操作和推理，可以在任何工業(yè)或軍事活動中發(fā)揮人類智力的作用。”

一直以來，AGI被視為人工智能領域的“圣杯”，它意味著機器能夠像人類一樣，在多種任務中自主學習、推理并適應復雜環(huán)境。從GPT-4的對話能力到Sora的視頻生成，盡管近年來AI技術突飛猛進，但AGI的實現(xiàn)仍面臨多重鴻溝。

AI的核心就是把現(xiàn)實世界的現(xiàn)象翻譯成為數(shù)學模型，通過語言讓機器充分理解現(xiàn)實世界和數(shù)據(jù)的關系。而AGI更進一步，讓AI不再局限于單一任務，而是具備跨領域?qū)W習和遷移能力，因此具有更強的通用性。

如果比較AGI的特征，就會發(fā)現(xiàn)當前AI系統(tǒng)雖然在特定任務上超越人類（如文本生成、圖像識別），但本質(zhì)上仍是“高級模仿”，缺乏對物理世界的感知和自主決策能力，依然不符合AGI的要求。

首先，大模型在處理任務方面的能力有限，它們只能處理文本領域的任務，無法與物理和社會環(huán)境進行互動。這意味著像ChatGPT、DeepSeek這樣的模型不能真正“理解”語言的含義，因為它們沒有身體來體驗物理空間。

其次，大模型也不是自主的，它們需要人類來具體定義好每一個任務，就像一只“鸚鵡”，只能模仿被訓練過的話語。真正自主的智能應該類似于“烏鴉智能”，能夠自主完成比現(xiàn)如今AI更加智能的任務，當下的AI系統(tǒng)還不具備這種潛能。

第三，雖然ChatGPT已經(jīng)在不同的文本數(shù)據(jù)語料庫上進行了大規(guī)模訓練，包括隱含人類價值觀的文本，但它并不具備理解人類價值或與人類價值保持一致的能力，即缺乏所謂的道德指南針。

但這些并不妨礙科技巨頭對于大模型的推崇。OpenAI、谷歌在內(nèi)的科技巨頭，都將大模型視為邁向AGI的關鍵一步。OpenAI CEO薩姆·奧特曼（Sam Altman）就曾多次表示，GPT模型是朝著AGI方向發(fā)展的重要突破。

根據(jù)OpenAI提出的AGI五級標準：L1是聊天機器人（Chatbots），具備基本的會話語言能力；L2是推理者（Reasoners），能夠解決人類級別的問題，處理更復雜的邏輯推理、問題解決和決策制定任務；L3是智能主體（Agents），能夠代表用戶采取行動，具備更高的自主性和決策能力；L4是創(chuàng)新者（Innovators），能夠助力發(fā)明和創(chuàng)新，推動科技進步和社會發(fā)展；L5是組織者（Organizations），能夠執(zhí)行復雜的組織任務，具備全面管理和協(xié)調(diào)多個系統(tǒng)和資源的能力。

當前，AI技術正從L2“推理者”向L3“智能體”階段躍遷，而2025年成為Agent（智能體）應用爆發(fā)之年是業(yè)內(nèi)共識，我們已經(jīng)看到像ChatGPT、DeepSeek、Sora這類應用開始進入普及階段，融入人們的工作生活。

但通往AGI的道路仍布滿認知陷阱，大模型偶爾出現(xiàn)的“幻覺輸出”，暴露出當前系統(tǒng)對因果關系的理解局限；自動駕駛汽車面對極端場景的決策困境，折射出現(xiàn)實世界的復雜性與倫理悖論。

就像人類智能進化塑造的是多層架構(gòu)，既有本能層面的快速反應，也有皮層控制的深度思考。要讓機器真正理解蘋果落地背后的萬有引力，不僅需要數(shù)據(jù)關聯(lián)，更需要建立物理世界的心智模型。這種根本性的認知鴻溝，可能比我們想象中更難跨越。

通向AGI的必經(jīng)之路

大模型的演進將會經(jīng)歷三個階段：單模態(tài)→多模態(tài)→世界模型。

早期階段是語言、視覺、聲音各個模態(tài)獨立發(fā)展，當前階段是多模融合階段，比如GPT-4V可以理解輸入的文字與圖像，Sora可以根據(jù)輸入的文字、圖像與視頻生成視頻。

但現(xiàn)階段的多模態(tài)融合還不徹底，“理解”與“生成”兩個任務是分開進行的，造成的結(jié)果是GPT-4V理解能力強但生成能力弱，Sora生成能力強但理解能力有時候很差。多模態(tài)理解與生成的統(tǒng)一是走向AGI的必經(jīng)之路，這是一個非常關鍵的認知。

無論通過哪種路徑實現(xiàn)AGI，多模態(tài)模型都是不可或缺的一部分。人與現(xiàn)實世界的交互涉及多種模態(tài)信息，因此，AI必須處理和理解多種形式的數(shù)據(jù)，這意味著其必須具備多模態(tài)理解能力。

多模態(tài)模型能夠處理和理解不同模態(tài)數(shù)據(jù)的機器學習模型，如圖像、文本、音頻和視頻，能夠提供比單一模態(tài)更全面、更豐富的信息表達。此外，模擬動態(tài)環(huán)境變化并做出預測和決策，也需要強大的多模態(tài)生成能力。

不同模態(tài)的數(shù)據(jù)往往包含互補的信息，多模態(tài)學習能夠有效地融合這些互補信息，提高模型的準確性和魯棒性。例如，在圖像標注任務中，文本信息可以幫助模型更好地理解圖像內(nèi)容；而在語音識別中，視頻信息有助于模型捕捉說話者的唇動，從而提高識別準確率。

通過學習和融合多種模態(tài)的數(shù)據(jù)，模型能夠建立更加泛化的特征表示，從而在面對未見過的、復雜的數(shù)據(jù)時表現(xiàn)出更好的適應性和泛化能力。這對于開發(fā)通用智能系統(tǒng)和提高模型在現(xiàn)實世界應用中的可靠性具有重要意義。

多模態(tài)模型的研究大致可以分為幾種技術途徑：對齊、融合、自監(jiān)督和噪聲添加。基于對齊的方法將不同模態(tài)的數(shù)據(jù)映射到一個共同的特征空間進行統(tǒng)一處理。融合方法將多模態(tài)數(shù)據(jù)整合到不同的模型層中，充分利用每個模態(tài)的信息。自監(jiān)督技術在未標記的數(shù)據(jù)上對模型進行預訓練，從而提高各種任務的性能。噪聲添加通過在數(shù)據(jù)中引入噪聲來增強模型的魯棒性和泛化能力。

結(jié)合這些技術，多模態(tài)模型在處理復雜的現(xiàn)實世界數(shù)據(jù)方面表現(xiàn)出強大的能力。它們可以理解和生成多模態(tài)數(shù)據(jù)，模擬和預測環(huán)境變化，并幫助智體做出更精確和有效的決策。因此，多模態(tài)模型在發(fā)展世界模型中起著至關重要的作用，標志著邁向AGI的關鍵一步。

比如微軟近日開源了多模態(tài)模型Magma，不僅具備跨數(shù)字、物理世界的多模態(tài)能力，能自動處理圖像、視頻、文本等不同類型數(shù)據(jù)，還能夠推測視頻中人物或物體的意圖和未來行為。

階躍星辰兩款Step系列多模態(tài)大模型Step-Video-T2V、Step-Audio已與吉利汽車星睿AI大模型完成了深度融合，推動AI技術在智能座艙、高階智駕等領域的普及應用。

蘑菇車聯(lián)深度整合物理世界實時數(shù)據(jù)的AI大模型MogoMind，具備多模態(tài)理解、時空推理與自適應進化三項能力，不僅能夠處理文本、圖像等數(shù)字世界數(shù)據(jù)，還能通過城市基礎設施（如攝像頭、傳感器）、車路云系統(tǒng)以及智能體（如自動駕駛車輛）實現(xiàn)對物理世界的實時感知、認知和決策反饋，突破了傳統(tǒng)模型依賴互聯(lián)網(wǎng)靜態(tài)數(shù)據(jù)訓練、無法反映物理世界實時狀態(tài)的局限。同時，該大模型還重構(gòu)視頻分析范式，使普通攝像頭具備行為預測、事件溯源等高級認知能力，為城市和交通管理者提供流量分析、事故預警、信號優(yōu)化等服務。

不過，多模態(tài)在發(fā)展過程中，還需要面臨數(shù)據(jù)獲取和處理的挑戰(zhàn)、模型設計和訓練的復雜性，以及模態(tài)不一致和不平衡的問題。

多模態(tài)學習需要收集和處理來自不同源的數(shù)據(jù)，不同模態(tài)的數(shù)據(jù)可能有著不同的分辨率、格式和質(zhì)量，需要復雜的預處理步驟來確保數(shù)據(jù)的一致性和可用性。此外，獲取高質(zhì)量、標注精確的多模態(tài)數(shù)據(jù)往往成本高昂。

其次，設計能夠有效處理和融合多種模態(tài)數(shù)據(jù)的深度學習模型比單模態(tài)模型更加復雜。需要考慮如何設計合適的融合機制、如何平衡不同模態(tài)的信息貢獻、以及如何避免模態(tài)間的信息沖突等問題。同時，多模態(tài)模型的訓練過程也更為復雜和計算密集，需要更多的計算資源和調(diào)優(yōu)工作。

在多模態(tài)學習中，不同模態(tài)之間還可能存在顯著的不一致性和不平衡性，如某些模態(tài)的數(shù)據(jù)可能更豐富或更可靠，而其他模態(tài)的數(shù)據(jù)則可能稀疏或含噪聲。處理這種不一致和不平衡，確保模型能夠公平、有效地利用各模態(tài)的信息，也是多模態(tài)學習中的一個重要挑戰(zhàn)。

當前，大語言模型、多模態(tài)大模型對人類思維過程的模擬還存在天然的局限性。從訓練之初就打通多模態(tài)數(shù)據(jù)，實現(xiàn)端到端輸入和輸出的原生多模態(tài)技術路線給出了多模態(tài)發(fā)展的新可能。基于此，訓練階段即對齊視覺、音頻、3D等模態(tài)的數(shù)據(jù)實現(xiàn)多模態(tài)統(tǒng)一，構(gòu)建原生多模態(tài)大模型，成為多模態(tài)大模型進化的重要方向。

將AI拉回現(xiàn)實世界

Meta人工智能首席科學家楊立昆（Yann LeCun）認為，目前的大模型路線無法通往AGI。現(xiàn)有的大模型盡管在自然語言處理、對話交互、文本創(chuàng)作等領域表現(xiàn)出色，但其仍只是一種“統(tǒng)計建模”技術，通過學習數(shù)據(jù)中的統(tǒng)計規(guī)律來完成相關任務，本質(zhì)上并非具備真正的“理解”和“推理”能力。

他認為，“世界模型”更接近真正的智能，而非只學習數(shù)據(jù)的統(tǒng)計特征。以人類的學習過程為例，孩童在成長過程中，更多是通過觀察、交互和實踐來認知這個世界，而非被單純“注入”知識。

例如，第一次開車的人在過彎道的時候會自然地“知道”提前減速；兒童只需要學會一小部分（母語）語言，就掌握了幾乎這門語言的全部；動物不會物理學，但會下意識地躲避高處滾落的石塊。

世界模型之所以引起廣泛關注，原因在于其直接面對了一個根本性的難題：如何讓AI真正理解和認識世界。它正試圖通過對視頻、音頻等媒體的模擬與補全，讓AI也經(jīng)歷這樣一個自主學習的過程，從而形成“常識”，并最終實現(xiàn)AGI。

世界模型和多模態(tài)大模型主要有兩方面不同之處，一是世界模型主要通過包括攝像頭在內(nèi)的傳感器直接感知外部環(huán)境信息，相比于多模態(tài)大模型，其輸入的數(shù)據(jù)形式以實時感知的外部環(huán)境為主，而多模態(tài)大模型則是以圖片、文字、視頻、音頻等信息交互為主。

另一方面，世界模型輸出的結(jié)果，更多的是時間序列數(shù)據(jù)（TSD），并通過這個數(shù)據(jù)可以直接控制機器人。同時物理智能需要與現(xiàn)實世界進行實時、高頻交互，其對時效性要求較高，而多模態(tài)大模型更多是與人交互，輸出的是過往一段時間的靜態(tài)沉淀信息，對時效性要求較低。

也正因此，世界模型也被行業(yè)人士看作是實現(xiàn)AGI的一道曙光。

世界模型的發(fā)展雖然取得了顯著進展，但仍面臨多方面的挑戰(zhàn)。挑戰(zhàn)之一是在模擬環(huán)境動態(tài)及因果關系方面的能力，以及進行反事實推理的能力。反事實推理要求模型能夠模擬如果環(huán)境中的某些因素發(fā)生變化，結(jié)果會如何不同，這對于決策支持和復雜系統(tǒng)模擬至關重要。

例如，在自動駕駛中，模型需要能夠預測如果某個交通參與者的行為發(fā)生變化，車輛的行駛路徑會受到怎樣的影響。然而，當前的世界模型在這一領域的能力有限，未來需要探索如何讓世界模型不僅反映現(xiàn)實狀態(tài)，還能根據(jù)假設的變化做出合理的推斷。

物理規(guī)則的模擬能力是世界模型面臨的另一大挑戰(zhàn)，尤其是如何讓模型更加精確地模擬現(xiàn)實世界中的物理規(guī)律。盡管現(xiàn)有的視頻生成模型如Sora可以模擬一定程度的物理現(xiàn)象（如物體運動、光反射等），但在一些復雜的物理現(xiàn)象（如流體動力學、空氣動力學等）中，模型的準確性和一致性仍然不足。

為了克服這一挑戰(zhàn)，研究人員需要在模擬物理規(guī)律時，考慮更精確的物理引擎與計算模型，確保生成的場景能夠更好地遵循真實世界中的物理定律。

評估世界模型性能的關鍵標準之一是泛化能力，其強調(diào)的不僅是數(shù)據(jù)內(nèi)插，更重要的是數(shù)據(jù)外推。例如，真實的交通事故或異常的駕駛行為是罕見事件。那么，學習得到的世界模型能否想象這些罕見的駕駛事件，這要求模型不僅要超越簡單地記憶訓練數(shù)據(jù)，而且要發(fā)展出對駕駛原理的深刻理解。通過從已知數(shù)據(jù)進行外推，并模擬各種潛在情況，使其可以更好地應用于現(xiàn)實世界之中。

對于AI而言，讓機器人親自擰開瓶蓋獲取的數(shù)據(jù)，比觀看百萬次操作視頻更能建立物理直覺。通過在模型訓練過程中加入更多真實場景的實時動態(tài)數(shù)據(jù)，可以讓AI更好理解三維世界的空間關系、運動行為、物理規(guī)律，從而實現(xiàn)對物理世界的洞察和理解。最終，AGI的到來可能不像奇點理論預言的那般石破天驚，而會像晨霧中的群山，在數(shù)據(jù)洪流的沖刷下漸次顯形。

AI的盡頭并非一個固定終點，而是人類與技術共同書寫的未來敘事。它可能是工具、伙伴、威脅，或是超乎想象的形態(tài)。關鍵問題或許不是“AI的盡頭是什么”，而是“人類希望以何種價值觀引導AI的發(fā)展”。正如斯蒂芬·霍金所警示：“AI的崛起可能是人類最好或最糟的事件。”答案取決于我們今天的決策與責任，屆時AI將重新認識世界，并完成對未來人機交互方式的重新想象。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.