99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<label id="njxs3"><track id="njxs3"></track></label>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

“我沒錯！”GPT-4o嘴硬翻車，AI在黑天鵝事件面前集體宕機

2025-07-16 17:56:50　來源: 大數據文摘

北京舉報

0

分享至

大數據文摘出品

來自哥倫比亞大學、Vector人工智能研究所以及南洋理工大學的一個聯合研究團隊發現：人工智能模型在處理意外事件時的推理能力存在嚴重缺陷。

即便是如GPT-4o和Gemini 1.5 Pro這樣的頂尖視覺語言模型（VLM），其表現也遠遜于人類，差距最高可達32%。

論文地址：https://arxiv.org/pdf/2412.05725

這篇名為《黑天鵝》的研究指出，當前主流的AI評估方式普遍存在一個根本性問題：大多數基準測試圍繞“常規模式”構建，也就是說，它們聚焦于可預測、規律清晰的視覺場景。

但現實世界不按套路出牌。意外、突變和違反常識的“黑天鵝事件”無處不在。而人類之所以能處理這些狀況，依靠的是兩種核心推理能力。

第一種是溯因推理（abductive reasoning），即從有限的觀察中推斷出最可能的解釋。例如，觀察到路口有兩輛撞壞的汽車，人們會推測是一名司機闖了紅燈。

第二種是可廢止推理（defeasible reasoning），即在新證據出現時修正最初的結論。比如，當發現路口的交通信號燈發生故障時，人們會放棄“司機闖紅燈”的假設，轉而認為是信號燈的問題。

如果AI要成為自動駕駛汽車等領域的可靠決策者，這兩種推理能力至關重要。

“黑天鵝套件”：一個專為意外設計的考場

為了準確評估AI在意外情況下的推理能力，研究團隊構建了一個全新的基準測試，名為“BlackSwanSuite”（黑天鵝套件）。

這個基準測試包含1655個視頻，內容涵蓋了各種打破常規的真實場景，例如這些視頻涵蓋了交通事故、兒童失誤、泳池滑倒等。

研究者將每個視頻精心劃分為三個部分：事發前 (Vpre)、事發時 (Vmain)和事發后 (Vpost)。

這種結構化的處理方式，為設計針對性的推理任務奠定了基礎。基于此，團隊設計了三大核心任務，共計超過15000個問題。

第一個任務是“預測者”（Forecaster），模型僅觀看視頻的開頭，然后被要求預測接下來會發生什么。

第二個任務是“偵探”（Detective），模型會看到事件的開頭和結尾，但中間的關鍵部分被隱藏，模型需要推斷出中間發生了什么。這項任務直接考驗模型的溯因推理能力。

第三個任務是“報告者”（Reporter），模型可以觀看完整的視頻，然后需要描述整個事件的來龍去脈。同時，模型還需要重新評估之前基于不完整信息做出的判斷是否依然成立。這直接測試了模型的可廢止推理能力。

嚴峻的現實：頂尖模型的顯著短板

所有頂尖的AI模型，包括GPT-4o、Gemini 1.5 Pro，以及多種開源系統（如LLaVA-Video、VILA、VideoLLaMA 2），在三類任務中全面落后于人類。

在多項選擇題上，最好的模型落后人類多達25%。在是非判斷題上，這個差距進一步擴大到了32%。

具體來看，在考驗溯因推理的“偵探”任務中，表現最好的GPT-4o，其準確率也比人類低了24.9%。

而在考驗可廢止推理的“報告者”任務中，GPT-4o與人類的差距更是達到了驚人的32%。

32個百分點的差距說明一個問題：AI不僅“看錯”，更“改不了”。

模型往往會在最初判斷后“鎖定思路”，拒絕基于新證據進行推理更新。這在自動駕駛等領域，可能帶來致命后果。

例如，論文中展示：垃圾車應該是“裝垃圾”的，但當視頻中垃圾車卻“掉下了一棵樹”，AI模型當場宕機。

再例如：一段視頻中，一名男子手持枕頭在圣誕樹旁揮舞。

GPT-4o判斷他想攻擊身邊的人。但實際情況是：枕頭碰到了圣誕樹，裝飾物從樹上掉落，砸中了旁邊的女性。

視頻結尾已清晰展示全過程，但GPT-4o依然堅持“男子攻擊他人”的原始判斷。

即便事實已推翻原猜測，模型也不做修正。這種“第一印象即終審判”的僵化思維，成了AI在現實世界中的最大隱患。

因為它找不到這個“異常行為”的參考模式。根源在于，AI模型依賴的是海量訓練樣本的“統計模式”。

它們在訓練中學習的是“什么事發生過很多次”，而不是“這事的因果關系是什么”。

所以，只要場景偏離了“常規軌跡”，它們就無法處理。為了進一步探究問題的根源，研究團隊進行了一項關鍵實驗。

他們直接向AI模型提供由人類撰寫的、對視頻內容的文字描述，從而繞過模型自身的視覺感知環節。

結果顯示，在獲得了人類級別的感知和理解輸入后，模型的推理準確率提升了高達10%。

這一發現表明，當前AI的核心短板不僅在于高級推理，更在于基礎的感知和理解能力。

注：頭圖AI生成

作者長期關注 AI 產業與學術，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業動態與技術趨勢！

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
0 跟貼 0
如果GPT-4還只是阿米巴原蟲，未來的霸王龍會是什么樣？

量子位 2025-02-28 13:32:13
0 跟貼 0

GPT-4o驚現自我意識！自主激活「后門」，告訴人類自己在寫危險代碼

新智元 2025-02-02 12:33:58
86 跟貼 86

科學家撰文：AI能使用人類語言模擬思考，監控AI推理僅剩短暫窗口

DeepTech深科技 2025-07-16 18:46:51
1 跟貼 1
VLA 推理新范式！一致性模型 CEED-VLA 實現四倍加速！

機器之心Pro 2025-07-16 18:31:44
0 跟貼 0

下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
13 跟貼 13

宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
199 跟貼 199
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0

騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
0 跟貼 0
AI的母語是什么？人類進化花了200萬年，AI只需一個晚上

量子位 2025-05-23 19:24:56
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
AI的母語是什么？不是英語，不是漢語

量子位 2025-05-23 17:58:54
0 跟貼 0
網友實測Veo3視頻旋風：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0
4o生圖前端效果騙了太多人，網友扒出逐行生成的演示當不得真

量子位 2025-04-02 21:22:14
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
Le Chat全方面對標ChatGPT，歐洲AI新貴窮追不舍

機器之心Pro 2025-07-18 10:40:10
0 跟貼 0
AI開發圈地震！Cursor多款模型在中國大陸不能用了，程序員要求退錢

智東西 2025-07-18 12:52:19
0 跟貼 0
大模型轉行土木工程！首個「打灰人」評估基準：檢驗讀、改工程圖紙能力

新智元 2025-07-18 06:27:15
0 跟貼 0
OpenAI發布ChatGPT Agent：AI"代理人"已至，人類準備好交出操作權了嗎？

鈦媒體APP 2025-07-18 12:44:12
0 跟貼 0
天橋腦科學研究院與AAAS宣布 2024 年 AI 驅動科學大獎獲獎名單

鈦媒體APP 2025-07-18 12:53:07
0 跟貼 0
黃仁勛對話王堅：開源不僅僅是開放研究，還要開放工程

每日經濟新聞 2025-07-18 12:57:13
0 跟貼 0
十年怪病求醫無果，GPT一眼看穿基因突變

機器之心Pro 2025-07-07 19:48:49
0 跟貼 0
阿里發布信息檢索Agent，可自主上網查資料，GAIA基準超越GPT-4o

量子位 2025-06-27 14:00:19
48 跟貼 48
暴露嚴重缺陷，臺偽軍舉行大規模演習，事故不斷啼笑皆非

軍事作家陳曦 2025-07-17 16:35:56
0 跟貼 0
軍演突發事故，賴清德“以武拒統”沒戲！中美同時“暴擊”

谷火平 2025-07-15 15:39:31
1 跟貼 1
自我進化的人工智能，找到拯救人類的方法，卻被人類囚禁50年

白鴿電影 2025-07-17 18:48:08
4 跟貼 4
就因為姓“空”，他們生活中處處BUG！干啥都能讓電腦宕機，簡直電子柯南

英國那些事兒 2025-02-24 23:18:08
73 跟貼 73
財政部調整超豪華小汽車消費稅政策

財聯社 2025-07-17 17:53:18
16126 跟貼 16126
Meta華裔首席AI官汪滔：我出身物理世家，爸媽都是給美國造核彈的！

盧菁老師 2025-07-15 13:54:45
0 跟貼 0
澳專家：一旦中美開戰，山東、遼寧號航母將被摧毀！存在重大缺陷

大地解密站 2025-07-17 13:06:13
0 跟貼 0
港中文&華為聯合提出首個大模型推理可靠性評估基準

機器之心Pro 2025-07-16 18:13:44
0 跟貼 0
【MCP教程】mcp實戰：50行代碼讓大模型秒變萬能管家！MCP統一調用標準！大模型微調 agen

盧菁老師 2025-07-14 15:51:49
0 跟貼 0
真正的智能體軟件工程師：OpenAI研發A-SWE能寫代碼、測試質量、修復Bug

量子位 2025-04-14 19:04:43
0 跟貼 0
《完蛋2》官宣聯動TT語音！甜到AI宕機

游民星空 2025-07-17 15:31:00
1 跟貼 1
用物理學改進深度學習，AI大模型的新突破

量子位 2025-05-05 13:12:31
0 跟貼 0
生成式AI的架構設計需確保支撐十萬至千萬級DAU

量子位 2025-04-23 17:09:24
0 跟貼 0
河北邯鄲初中數學求值題，構造零零模型來解題！

三樂大掌柜 2025-07-17 07:48:11
5 跟貼 5
AGI的關鍵在于怎樣把智能體組織起來

量子位 2025-04-22 12:59:08
0 跟貼 0

不是蘋果！也不是華為！英偉達CEO黃仁勛本人用的手機是這款！

不是蘋果！也不是華為！英偉達CEO黃仁勛本人用的手機是這款！

王爺說圖表

2025-07-18 09:01:14

邱會作晚年曾預言，中國老百姓將面臨新的三座大山，如今一語中的

邱會作晚年曾預言，中國老百姓將面臨新的三座大山，如今一語中的

z千年歷史老號

2025-07-16 12:50:34

呂麗萍：杜蘭特開二手特斯拉吃五塊錢漢堡每天生活費99

呂麗萍：杜蘭特開二手特斯拉吃五塊錢漢堡每天生活費99

直播吧

2025-07-18 12:10:33

《掃毒風暴》陪酒女大肚腩被吐槽，網友：沒去過夜總會就別亂說

《掃毒風暴》陪酒女大肚腩被吐槽，網友：沒去過夜總會就別亂說

崽下愚樂圈

2025-07-17 11:06:24

25歲小伙娶65歲老太，一起生活10年，老太臨終遺言令他落淚

25歲小伙娶65歲老太，一起生活10年，老太臨終遺言令他落淚

第四思維

2025-07-16 13:06:40

2025年養老金調整：多數人上漲難以超過70元，比例卻超過2%！

2025年養老金調整：多數人上漲難以超過70元，比例卻超過2%！

社保小龍蝦

2025-07-17 19:14:30

香港黑人球員辱罵中國球迷，霍啟剛評論區淪陷，傳內地俱樂部解約

香港黑人球員辱罵中國球迷，霍啟剛評論區淪陷，傳內地俱樂部解約

萌神木木

2025-07-17 11:11:23

都被騙了！宗老不是色令智昏，21億信托就是他畫的一張大餅！

都被騙了！宗老不是色令智昏，21億信托就是他畫的一張大餅！

阿傖說事

2025-07-18 09:08:43

700億元收入的娃哈哈遺產爭奪大戰進入高潮！正是用錢關鍵時刻，“影子夫人”杜建英資金卻出狀況，旗下三捷系被執行3005萬，究竟發生了啥？

700億元收入的娃哈哈遺產爭奪大戰進入高潮！正是用錢關鍵時刻，“影子夫人”杜建英資金卻出狀況，旗下三捷系被執行3005萬，究竟發生了啥？

金融界

2025-07-17 20:17:05

黑猩猩的新時尚：往菊花里插草棍？？大明猩起頭，剩下都學會“攪屎棍”了...

黑猩猩的新時尚：往菊花里插草棍？？大明猩起頭，剩下都學會“攪屎棍”了...

英國那些事兒

2025-07-16 23:27:33

印媒：4年前，要不是中國99A坦克在路上，印軍就動真格了

印媒：4年前，要不是中國99A坦克在路上，印軍就動真格了

浩舞默畫

2025-07-18 11:01:39

每體：特爾施特根將缺席4-6個月，巴薩可用他80%薪水額度注冊新援

每體：特爾施特根將缺席4-6個月，巴薩可用他80%薪水額度注冊新援

直播吧

2025-07-18 12:23:10

直沖40℃！川渝高溫強勢霸榜全國最熱前十占據7席

直沖40℃！川渝高溫強勢霸榜全國最熱前十占據7席

封面新聞

2025-07-17 15:48:09

不明數量美戰機赴韓，俄方承諾保朝，中方：若半島生戰將別無選擇

不明數量美戰機赴韓，俄方承諾保朝，中方：若半島生戰將別無選擇

近史博覽

2025-07-15 16:27:53

離開大巴黎1年！恩里克棄將爆發：22球12助，1500萬身價變7500萬

離開大巴黎1年！恩里克棄將爆發：22球12助，1500萬身價變7500萬

球場沒跑道

2025-07-18 11:58:42

楊瀚森半場4+4+5+3帽全能：得分創半場新低卻獻全能數據閃耀

楊瀚森半場4+4+5+3帽全能：得分創半場新低卻獻全能數據閃耀

醉臥浮生

2025-07-18 09:19:52

國乒洛杉磯奧運人選初步浮現！王勵勤或有大動作，兩名球員受關注

國乒洛杉磯奧運人選初步浮現！王勵勤或有大動作，兩名球員受關注

章媸解說體育

2025-07-17 17:12:43

10年內入獄2次，爆火后“包一晚”40萬，如今的她過得怎么樣？

10年內入獄2次，爆火后“包一晚”40萬，如今的她過得怎么樣？

混沌錄

2025-07-17 22:33:44

中國小伙進阿富汗村子被一堆小孩扔石頭，被砸到襠部后暴怒反擊

中國小伙進阿富汗村子被一堆小孩扔石頭，被砸到襠部后暴怒反擊

興史興談

2025-07-16 17:02:59

被傳拒絕出席93閱兵后，李在明打破沉默，希望美別誤解他“親華”

被傳拒絕出席93閱兵后，李在明打破沉默，希望美別誤解他“親華”

掌青說歷史

2025-07-18 11:41:58

大數據文摘

專注大數據，每日有分享！

6702文章數 94441關注度

往期回顧全部

科技要聞

凌晨，OpenAI重磅更新，Manus們算白忙活嗎

頭條要聞

宗慶后三弟:宗馥莉就是她自己根本不和宗家人來往

頭條要聞

宗慶后三弟:宗馥莉就是她自己根本不和宗家人來往

體育要聞

楊瀚森4戰43+20+15+9帽：開拓者4戰3勝

娛樂要聞

演員曹駿被曝新戀情？和女生舉止親密

財經要聞

美國國會正式批準穩定幣法案

汽車要聞

哈弗大狗2026款上市限時權益價9.89萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

藝術

本地

教育

軍事航空

“Polo衫+牛仔褲”今年火爆了，這樣穿時髦松弛又減齡！

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤？

教育要聞

學簽放寬+工簽延長！新西蘭悄悄成為留學性價比新黑馬！

軍事要聞

美國稱不支持以色列近期在敘利亞的行動

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：高清| 吉首市| 抚宁县| 蒲城县| 河间市| 新郑市| 保定市| 德惠市| 遂平县| 锦屏县| 思茅市| 麻阳| 五常市| 广水市| 洱源县| 贡嘎县| 湟源县| 喀什市| 瑞丽市| 长垣县| 合江县| 洪湖市| 赣州市| 漠河县| 包头市| 班玛县| 姚安县| 富裕县| 陕西省| 卫辉市| 荃湾区| 钦州市| 临安市| 贵南县| 淮安市| 连山| 宁陵县| 阳泉市| 呈贡县| 射阳县| 威信县|

<sub id="fbjx6"><p id="fbjx6"></p></sub>