99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AGI幻滅,LeCun觀點得證?哈佛研究實錘AI不懂因果,世界模型神話破滅

希望AI能挑戰我的觀點

0
分享至


文章轉載于新智元

我們離人類智能水平的AI還遠嗎?

如果你問OpenAI、Anthropic、Google等頂尖AI公司的CEO,他們肯定是信心滿滿,認為就在眼前。

但現實是,越來越多的人認為,AI的思維方式跟人類完全不同。

研究者們發現,如今的AI模型在底層架構上就存在根本性的局限。

AI本質上是通過學習海量的經驗規則,然后把這些規則套用到它們所接觸到的信息上,進而模擬智能。

這與人類,甚至動物對世界的理解方式大不相同。

生物體會構建一個關于世界是如何運轉的「世界模型」,這里面會包含因果關系,能讓我們預測未來。

很多AI工程師會宣稱,他們的模型也在其龐大的人工神經網絡中構建出了類似的「世界模型」。

證據是這些模型能夠寫出流暢的文章,并能表現出明顯的推理能力。

尤其是最近推理模型取得的進展,更加讓人相信我們已經走在了通向AGI的正確道路上。

「關于這些模型到底在干什么,以及人們用來描述它們的那些擬人化說法(比如『學習』、『理解』之類的),現在爭議挺大的。」Santa Fe研究所研究AI的教授Melanie Mitchell說。


Melanie Mitchell,Santa Fe研究所教授

1

一堆經驗法則

Mitchell認為,越來越多的研究表明,這些模型似乎發展出了海量的「經驗法則」,而不是構建更高效的心理模型來理解情境,然后通過推理完成任務。

哈佛大學的AI研究員Keyon Vafa首次聽到「一堆經驗法則」這個提法時表示「感覺一下子點醒了我——這就是我們一直想描述的東西。」

Vafa的研究試圖搞清楚:當AI被輸入數百萬條類似谷歌地圖的逐步導航指令后,會構建出怎樣的認知地圖。他和團隊以曼哈頓錯綜復雜的街道網絡作為測試樣本。

結果呢,AI畫的看起來根本不像曼哈頓的街道地圖。

仔細檢查發現,AI竟然推演出各種離譜路線——比如橫穿中央公園的直線,或者斜著連跨好幾個街區。

但詭異的是,這個模型給出的分步導航指令在99%的情況下居然能用。


AI在接受了數百萬條逐向導航指令的訓練后,在它自己的「腦子」里勾勒出了一張曼哈頓地圖,來自論文「Evaluating the World Model Implicit in a Generative Model」

Vafa解釋說,雖然這張亂七八糟的地圖能讓司機崩潰,但AI本質上是從所有可能的起點出發,為各種路況學了一大堆獨立的導航規則。

AI龐大的「腦容量」加上超強算力,讓它能用人類根本想不到的野路子解決問題。

1

真會思考,還是死記硬背?

有些研究表明,模型會為不同數字范圍(比如200到210)專門學一套乘法規則。你覺得這種方法做數學不太靠譜?沒錯,你想對了。

現在的AI本質上是一堆復雜、拼湊的「奇葩機器」,充滿了各種臨時湊合的解決方案來應對我們的指令。

Vafa說,理解這一點能很好地解釋為什么AI在面對稍稍超出其訓練范圍的任務時就會掉鏈子。

比如,當團隊僅封鎖虛擬曼哈頓1%的道路時,AI的繞行表現就直線暴跌。

Vafa表示,這體現了當今AI與人類的巨大差異。

一個人可能無法記住99%的導航路線,但他有足夠的靈活性,來輕松繞過一點道路施工路段。

這也解釋了為什么模型需要那么大:它們得記住一大堆經驗法則,沒法像人類一樣把知識壓縮成一個心理模型。

人類可能試幾次就理解了,但AI需要學習海量的數據。

為了推導出那些零散的規則,AI得看到所有可能的單詞、圖像、棋盤位置等組合。而且為了訓練得更好,它們得反復看這些組合無數次。

或許這也能解釋:為什么不同公司的AI「思考」方式如出一轍,連性能表現都趨于接近——而這種性能,可能已經觸頂了。


截至每年第二季度的各家模型最高智力分數

1

AGI未取得任何進展

今年3月,Anthropic 發布了一篇新論文「On the Biology of a Large Language Model」,以前所未有的方式揭示了這些AI模型內部的「想法」。

由此,我們不再需要通過分析外部行為來猜測,而是可以窺視LLM黑盒中發生的推理過程,并檢查LLM在多大程度上可解釋。

結果表明,這些模型根本沒有像許多人認為的那樣進行推理。

內部發生的事情看起來不像人類進行推理時所采取的步驟,而且,當模型告訴我們它們如何推理時,這完全是捏造的。這與我們觀察到的它們內部正在做的事情并不相符。


所有LLM在AGI方面取得的所謂「進展」,實際上都歸功于構建了規模極其龐大的統計模型,這些模型制造出了一種智能的假象。

每一次性能的提升并沒有讓它們變得更聰明;它只是讓它們在輸入機器的數據范圍內,成為了更好的啟發式預測器。

智能和大型統計模型之間的能力差異通常難以察覺,但它仍然是一個重要的本質區別,因為它將顯著改變可實現的應用場景。

我們知道LLM的基礎是統計模型,那么智能本身是否只是統計模式分析?

確實如此,智能包含了從統計模式匹配中獲得的能力,兩者看似有重疊,但反過來卻不成立。

統計模型沒法完全復制智能的所有功能。即使在看似重疊的領域,統計模型的效率也低得離譜,還不靠譜。

統計模型就像信息的靜態快照,基于現實的規則生成,但它不是現象本身,所以沒法從基本原理創造新信息。

所謂模型的「涌現行為」,其實就是各種模式的組合。模型越大,找到的模式越多,組合出的模式也越多。歸根結底,一切都是模式。

Anthropic等機構的研究進一步表明,LLM確實能通過統計分析得出正確答案,但它的推理方式跟智能推理完全不同。

這種本質上的差異,對LLM最終能實現的目標影響巨大。

如何檢查LLM的「想法」?

Anthropic使用歸因圖譜工具檢查了LLM用于執行簡單數學加法的過程。

結果表明,這是一個復雜的啟發式網絡,而不是一個已定義和理解的加法算法。

LLM用來解決以下問題的過程:36+59 = 95

我們現在重現算式36+59=的歸因圖。「接近57的數相加」這一低精度特征,被用于查詢「接近36的數與接近60的數相加」的查找表特征,而這個查找表特征又影響著「和接近92」這一特征。 這種低精度路徑,補充了右側的高精度模塊化特征(「左操作數以9結尾」 影響 「加上一個以9結尾的數」,后者又影響 「以6結尾的數加上以9結尾的數」,最終影響 「和以5結尾」)。 這些特征組合在一起,最終給出了正確的和95。


這個過程代表了一系列啟發式方法和記憶模式的查找表。因此,當要求LLM描述它用來解決計算的方法時,它會這樣回答:

我將個位數相加 (6+9=15),進位1,然后將十位數相加 (3+5+1=9),結果為95。

但是,我們可以看到LLM根本沒有做任何類似的事情。LLM提供的答案與內部過程不匹配。

它只是提供了與我們在訓練數據中找到的答案模式相匹配的文本。

AI對推理的解釋純屬虛構

Anthropic的Claude 3.7系統卡也得出結論,模型產生的思維鏈在描述構建輸出的過程時并不可靠。

這些結果表明,模型利用了提示,但沒有在思維鏈中明確說明,這表明CoT可能無法可靠地揭示模型的真實推理過程。

另一篇論文「Reasoning Models Don’t Always Say What They Think」進一步研究了思維鏈,并且還確定推理步驟并不代表模型的內部過程。

……模型可以從人類文本的預訓練或監督微調中學習表達他們的推理,這些人類文本闡明了人類的思維鏈。

另一方面,來自人類反饋的強化學習(RLHF)可能會激勵模型從CoT中隱藏不良推理。

……更令人擔憂的是,我們發現模型有時會生成與其內部知識相矛盾的不可靠的CoT。

這些結果表明,思維鏈要么主要是在思維鏈訓練中學習到的模式,要么是RLHF教會了模型如何迎合我們的期望。

但這兩種情況都不能代表模型實際在內部做什么。

如果「思考」過程的思維鏈不是源自該過程本身,那么這一切都是100%的幻覺。

它看似符合推理步驟,但這只是因為它匹配了我們期待的模式,而不是因為它能真正理解或感知自己的行為。

這些機器其實就像「制造幻覺」的裝置,靠著復雜的模式匹配技巧來給出正確答案。

換句話說就是,思維鏈不能代表推理步驟。


AI智能體的作用有限

AI智能體被認為是解決許多場景中幻覺問題的一種辦法。

比如,如果LLM不擅長數學,它可以直接用工具來搞定。

但事情沒那么簡單。

Transluce的另一項調查發現,LLM有時候會「編造」自己使用了工具。

也就是說,它們會說自己用了工具,但其實根本沒用,而且越新的模型在這方面表現越差。

在OpenAI的o3模型預發布測試期間,我們發現o3經常捏造它為滿足用戶請求而采取的操作,并在用戶質問時詳細地為這些捏造辯解。

……o系列模型(o3、o1和o3-mini)比GPT系列模型(GPT-4.1和GPT-4o)更頻繁地錯誤聲稱使用代碼工具。

……o3聲稱通過在編碼環境中運行Python代碼來滿足用戶的請求。鑒于o3無法訪問代碼工具,因此所有此類操作都是由模型捏造的。

當用戶追問其虛構的代碼執行時,該模型會死不承認,并為其不準確的代碼輸出提供借口……

如果LLM產生幻覺,那么整個工具流程基本上都被污染了。只要LLM是信息處理流程的一部分,這個問題就無法解決。

它可以在任何步驟中產生幻覺。這包括不運行工具、運行不應運行的工具、捏造工具的參數或虛構工具的結果。

LLM不可能成為可靠自動化的基礎。


現在每天都有數十篇關于LLM架構的論文發表,對所有可能的問題提出改進方案和解決方案。

似乎每個問題都已經有了解決方案,而所有這些研究成果被整合到模型中只是時間問題。


然而,這些架構的每一個「調整」都是孤立地進行研究的。

可以將這些大型統計模型想象成一個擁有大量全局變量的龐大代碼庫。

從本質上講,對模型的許多這些「改進」可能會在某種程度上互不兼容,因為它們會引入副作用,從而削弱模型在其他領域的表現。


AGI遙遙無期,LLM不過是「一根筋」

這些模型只不過是統計模型。

它們無法判斷什么是對,什么是錯。只能通過啟發式方法來判斷什么可能是對的,什么可能是錯的。因此,無法通過推理來構建世界的客觀規律。

在追求類人推理機器的道路上,我們已經多次犯錯。我們現在錯了,而且可能還會再錯。

人類的推理遠比統計模型復雜得多。

我們每次都錯了!

——Yann Lecun

這就是為什么AI需要海量的例子才能提高其在任何任務上的能力。

AI的任何成就都只是基于歷史數據的總結。沒有推理能力,就必須不斷地進行訓練才能保持相關性。

有些人會說:「但是看看所有這些強大的能力,難道它不是在推動我們更接近AGI嗎?」

不,它正在通過不同的方式實現目標。

這種區別很重要,因為徒有智能表象,而缺乏真正理解的系統,總是會遭受不可預測的失敗,這使得它們不適合用于可信賴的系統。

毫無疑問,大規模擴展統計模型所能做的事情令人印象深刻,它們也有其用途。

高級的模式匹配本質上有點像算法,但它還是靠統計數據堆出來的算法,只能處理訓練數據里的關聯,永遠沒法在專門的訓練集和測試基準之外表現得特別優秀。

這意味著LLM將繼續改進基準測量和其他抽樣測試,與此同時,「AGI已經到來」的說法會越來越多。

但問題是,這些測試根本反映不了AI在現實中的真實水平。

當LLM實際上并不像我們以為的那樣「理解」世界時,現實環境對它來說,到處都是坑——稍不留神,它就會犯錯。

我們可以繼續擴大它們的規模,而且我們也會這樣做,但這非常低效。

與此同時,人腦以12 ~ 20瓦的功率運行,但在產生新穎的語義數據方面,仍然沒有AI可以與之競爭。

所有當前的架構都只是蠻力模式匹配。

如果我們走在通往智能的道路上,那么訓練數據量和功率需求都應該減少,而不是增加。


功耗和數據需求與能力的比率可能是一個更有價值的啟發式方法,可以用來確定我們是否正在走向真正的智能。

參考資料:

https://www.mindprison.cc/p/no-progress-toward-agi-llm-braindead-unreliable

https://www.wsj.com/tech/ai/how-ai-thinks-356969f8

點個“愛心”,再走吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今日金價崩盤了!

今日金價崩盤了!

戶外釣魚哥阿旱
2025-05-04 01:56:09
巴基斯坦成功試射一枚短程彈道導彈

巴基斯坦成功試射一枚短程彈道導彈

新華社
2025-05-03 19:22:04
美軍司令警告:若菲律賓有一人被擊斃,美軍將介入

美軍司令警告:若菲律賓有一人被擊斃,美軍將介入

起喜電影
2025-05-04 03:08:43
林志玲天使隕落:51歲回娘家撈金畏畏縮縮 明顯“日本化了”

林志玲天使隕落:51歲回娘家撈金畏畏縮縮 明顯“日本化了”

明月聊史
2025-05-03 22:40:06
CBA罰單:北京主場球迷瘋狂辱罵劉傳興 罰款5萬取消賽區評獎資格

CBA罰單:北京主場球迷瘋狂辱罵劉傳興 罰款5萬取消賽區評獎資格

醉臥浮生
2025-05-03 21:58:26
立陶宛為何被稱為“歐洲淫窟”?帶你去看看中歐這個可悲的小國

立陶宛為何被稱為“歐洲淫窟”?帶你去看看中歐這個可悲的小國

舊時樓臺月
2025-04-23 16:52:08
為什么沒有國家趁著中國過節的時候,攻打中國?看看網友們的說法

為什么沒有國家趁著中國過節的時候,攻打中國?看看網友們的說法

賤議你讀史
2025-03-14 16:44:45
詹姆斯:東契奇需要為自己的生涯未來做決定 我在這待不了多久了

詹姆斯:東契奇需要為自己的生涯未來做決定 我在這待不了多久了

直播吧
2025-05-03 00:44:09
又美又颯!吳艷妮12秒96奪第八:扮戰斗天使秀肌肉,燦爛微笑真甜

又美又颯!吳艷妮12秒96奪第八:扮戰斗天使秀肌肉,燦爛微笑真甜

李喜林籃球絕殺
2025-05-03 21:40:20
林徽因年輕時真實照片,顏值完勝太多網紅,怪不得徐志摩一見鐘情

林徽因年輕時真實照片,顏值完勝太多網紅,怪不得徐志摩一見鐘情

詩意世界
2025-05-02 22:38:31
耐克、阿迪達斯、斯凱奇、安德瑪等集體發聲:可能倒閉!

耐克、阿迪達斯、斯凱奇、安德瑪等集體發聲:可能倒閉!

新民晚報
2025-05-03 11:32:44
中國正在靜靜地等著美國跪下!

中國正在靜靜地等著美國跪下!

談芯說科技
2025-05-03 04:01:30
笑死!主裁判受傷倒地,38歲瓦爾迪吹停比賽,球迷:以后會成經典

笑死!主裁判受傷倒地,38歲瓦爾迪吹停比賽,球迷:以后會成經典

側身凌空斬
2025-05-04 05:42:43
“一代鞋王”跌落神壇:200億暴跌至2億,中產不愛窮鬼不穿

“一代鞋王”跌落神壇:200億暴跌至2億,中產不愛窮鬼不穿

白宸侃片
2025-04-29 06:13:39
最新研究發現,經常吃雞、鴨肉,竟與死亡、胃腸道癌風險增加有關

最新研究發現,經常吃雞、鴨肉,竟與死亡、胃腸道癌風險增加有關

醫諾維
2025-05-03 17:43:35
俄精英在資源協議背景下施壓普京,要求其在烏克蘭問題上做出讓步

俄精英在資源協議背景下施壓普京,要求其在烏克蘭問題上做出讓步

仗劍看世界
2025-05-03 23:55:53
和張一山同居,和鹿晗傳緋聞,她連楊迪都不放過?

和張一山同居,和鹿晗傳緋聞,她連楊迪都不放過?

In風尚
2025-05-01 12:04:25
32個選秀權+新雷霆三少!普雷斯蒂封神:7年內全聯盟都得看他臉色

32個選秀權+新雷霆三少!普雷斯蒂封神:7年內全聯盟都得看他臉色

籃球小布丁
2025-05-03 09:51:21
不準進入中國市場?庫克做夢都沒想到,“制裁”會來得這如此之快

不準進入中國市場?庫克做夢都沒想到,“制裁”會來得這如此之快

小宇宙雙色球
2025-05-04 02:31:41
F1:大雨攪局,現場一片混亂!維斯塔潘爆冷墊底,諾里斯意外奪冠

F1:大雨攪局,現場一片混亂!維斯塔潘爆冷墊底,諾里斯意外奪冠

體育妞世界
2025-05-04 04:18:53
2025-05-04 06:52:49
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
2156文章數 10335關注度
往期回顧 全部

科技要聞

特朗普下手,英偉達對華“特供版”要改

頭條要聞

澤連斯基:自上個月與特朗普在梵蒂岡會晤 特朗普變了

頭條要聞

澤連斯基:自上個月與特朗普在梵蒂岡會晤 特朗普變了

體育要聞

北京請神馬布里?許利民真有“玄學”!

娛樂要聞

金秀賢遭多家品牌起訴 索賠近60億韓元

財經要聞

巴菲特談貿易、AI、股市、房地產!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態度原創

時尚
手機
家居
本地
公開課

這4條裙子太火了,今年流行的風格都離不開它

手機要聞

消息稱iPhone 17 Air超薄犧牲續航,蘋果或“復活”智能電池殼

家居要聞

意式輕奢 低飽和質感美學

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 云安县| 米脂县| 青阳县| 保定市| 鸡西市| 封开县| 沭阳县| 关岭| 中阳县| 尉犁县| 扎兰屯市| 芦溪县| 略阳县| 论坛| 称多县| 屏东市| 金门县| 司法| 渝北区| 天长市| 房山区| 达州市| 昔阳县| 册亨县| 辽阳市| 宁南县| 浑源县| 合山市| 乌苏市| 巴彦淖尔市| 大庆市| 蒙自县| 江永县| 元江| 潮安县| 云林县| 疏勒县| 杭锦旗| 确山县| 遂宁市| 双江|