大數據文摘出品
來自哥倫比亞大學、Vector人工智能研究所以及南洋理工大學的一個聯合研究團隊發現:人工智能模型在處理意外事件時的推理能力存在嚴重缺陷。
即便是如GPT-4o和Gemini 1.5 Pro這樣的頂尖視覺語言模型(VLM),其表現也遠遜于人類,差距最高可達32%。
論文地址:https://arxiv.org/pdf/2412.05725
這篇名為《黑天鵝》的研究指出,當前主流的AI評估方式普遍存在一個根本性問題:大多數基準測試圍繞“常規模式”構建,也就是說,它們聚焦于可預測、規律清晰的視覺場景。
但現實世界不按套路出牌。意外、突變和違反常識的“黑天鵝事件”無處不在。而人類之所以能處理這些狀況,依靠的是兩種核心推理能力。
第一種是溯因推理(abductive reasoning),即從有限的觀察中推斷出最可能的解釋。 例如,觀察到路口有兩輛撞壞的汽車,人們會推測是一名司機闖了紅燈。
第二種是可廢止推理(defeasible reasoning),即在新證據出現時修正最初的結論。 比如,當發現路口的交通信號燈發生故障時,人們會放棄“司機闖紅燈”的假設,轉而認為是信號燈的問題。
如果AI要成為自動駕駛汽車等領域的可靠決策者,這兩種推理能力至關重要。
“黑天鵝套件”:一個專為意外設計的考場
為了準確評估AI在意外情況下的推理能力,研究團隊構建了一個全新的基準測試,名為“BlackSwanSuite”(黑天鵝套件)。
這個基準測試包含1655個視頻,內容涵蓋了各種打破常規的真實場景,例如這些視頻涵蓋了交通事故、兒童失誤、泳池滑倒等。
研究者將每個視頻精心劃分為三個部分:事發前 (Vpre)、事發時 (Vmain)和事發后 (Vpost)。
這種結構化的處理方式,為設計針對性的推理任務奠定了基礎。 基于此,團隊設計了三大核心任務,共計超過15000個問題。
第一個任務是“預測者”(Forecaster),模型僅觀看視頻的開頭,然后被要求預測接下來會發生什么。
第二個任務是“偵探”(Detective),模型會看到事件的開頭和結尾,但中間的關鍵部分被隱藏,模型需要推斷出中間發生了什么。這項任務直接考驗模型的溯因推理能力。
第三個任務是“報告者”(Reporter),模型可以觀看完整的視頻,然后需要描述整個事件的來龍去脈。 同時,模型還需要重新評估之前基于不完整信息做出的判斷是否依然成立。這直接測試了模型的可廢止推理能力。
嚴峻的現實:頂尖模型的顯著短板
所有頂尖的AI模型,包括GPT-4o、Gemini 1.5 Pro,以及多種開源系統(如LLaVA-Video、VILA、VideoLLaMA 2),在三類任務中全面落后于人類。
在多項選擇題上,最好的模型落后人類多達25%。 在是非判斷題上,這個差距進一步擴大到了32%。
具體來看,在考驗溯因推理的“偵探”任務中,表現最好的GPT-4o,其準確率也比人類低了24.9%。
而在考驗可廢止推理的“報告者”任務中,GPT-4o與人類的差距更是達到了驚人的32%。
32個百分點的差距說明一個問題:AI不僅“看錯”,更“改不了”。
模型往往會在最初判斷后“鎖定思路”,拒絕基于新證據進行推理更新。這在自動駕駛等領域,可能帶來致命后果。
例如,論文中展示:垃圾車應該是“裝垃圾”的,但當視頻中垃圾車卻“掉下了一棵樹”,AI模型當場宕機。
再例如:一段視頻中,一名男子手持枕頭在圣誕樹旁揮舞。
GPT-4o判斷他想攻擊身邊的人。但實際情況是:枕頭碰到了圣誕樹,裝飾物從樹上掉落,砸中了旁邊的女性。
視頻結尾已清晰展示全過程,但GPT-4o依然堅持“男子攻擊他人”的原始判斷。
即便事實已推翻原猜測,模型也不做修正。這種“第一印象即終審判”的僵化思維,成了AI在現實世界中的最大隱患。
因為它找不到這個“異常行為”的參考模式。根源在于,AI模型依賴的是海量訓練樣本的“統計模式”。
它們在訓練中學習的是“什么事發生過很多次”,而不是“這事的因果關系是什么”。
所以,只要場景偏離了“常規軌跡”,它們就無法處理。為了進一步探究問題的根源,研究團隊進行了一項關鍵實驗。
他們直接向AI模型提供由人類撰寫的、對視頻內容的文字描述,從而繞過模型自身的視覺感知環節。
結果顯示,在獲得了人類級別的感知和理解輸入后,模型的推理準確率提升了高達10%。
這一發現表明,當前AI的核心短板不僅在于高級推理,更在于基礎的感知和理解能力。
注:頭圖AI生成
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.