99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

WWDC前夕,蘋果論文“炮轟”AI推理模型“假思考”,測試方法遭質(zhì)疑

0
分享至

當(dāng)?shù)貢r間6月6日,蘋果機器學(xué)習(xí)研究中心發(fā)表論文《思考的幻象:通過問題復(fù)雜性的視角理解推理模型的優(yōu)勢與局限》。論文作者包括谷歌大腦聯(lián)合創(chuàng)始人Samy Bengio(圖靈獎得主Yoshua Bengio的弟弟)。

該論文認為,現(xiàn)有的推理模型看似會“思考”,但其實并沒有穩(wěn)定、可理解的思維過程,所謂的推理思考只是一種“幻象”。

論文發(fā)布后引發(fā)AI圈熱議,被部分觀點解讀為“蘋果否定所有大模型的推理能力”。也有研究人員提出反駁,認為蘋果的測試方法存在問題。AI研究者Lisan al Gaib在復(fù)現(xiàn)論文中的漢諾塔測試后發(fā)現(xiàn),模型根本不是因為推理能力不佳而失敗,而是因為輸出token限制。


圖片來源:論文《思考的幻象:通過問題復(fù)雜性的視角理解推理模型的優(yōu)勢與局限》

蘋果“炮轟”AI推理模型:所謂的思考只是一種“幻象”

論文指出,OpenAI、Anthropic、谷歌和DeepSeek等公司紛紛推出帶有“鏈?zhǔn)剿伎肌保–hain-of-Thought,CoT)能力的模型,并聲稱它們更接近“類人思維”。

然而,該論文認為,現(xiàn)有的推理模型看似會“思考”,但其實并沒有穩(wěn)定、可理解的思維過程,所謂的推理思考只是一種“幻象”

蘋果團隊認為,在實驗設(shè)計上,現(xiàn)有評估主要集中在既定的數(shù)學(xué)和編碼基準(zhǔn)上,通過判斷模型最終答案是否正確來評估其能力,這種方式可能存在數(shù)據(jù)污染,即模型在訓(xùn)練時可能見過類似題目。此外,這些評估大都缺乏對“思考過程質(zhì)量”的分析。

為此,蘋果團隊設(shè)計了四類謎題環(huán)境,包括漢諾塔、跳棋交換、過河問題和積木世界,通過精確控制謎題難度,來測試推理模型的推理能力


圖片來源:《思考的幻象:通過問題復(fù)雜性的視角理解推理模型的優(yōu)勢與局限》

推理模型并未解決模型能力瓶頸

實驗結(jié)果顯示,面對低復(fù)雜度任務(wù),非推理模型比與之對應(yīng)的推理模型更準(zhǔn)確高效。當(dāng)問題復(fù)雜度適度增加,推理模型優(yōu)勢顯現(xiàn),性能超過非推理模型。

當(dāng)問題難度超過一定臨界點時,兩類模型性能均嚴重下降,準(zhǔn)確率為零。這表明,推理模型并沒有實際性地解決模型的能力瓶頸。


圖片來源:《思考的幻象:通過問題復(fù)雜性的視角理解推理模型的優(yōu)勢與局限》

面對難題,直接“躺平”

同時,研究還發(fā)現(xiàn),隨著問題復(fù)雜度的增加,推理模型在初期會投入更多的思考token。然而,當(dāng)問題難度達到某個臨界點時,模型推理能力就會發(fā)生崩潰,思考不增反降。

這表明,推理模型似乎存在一個內(nèi)在的“縮放限制”。當(dāng)它預(yù)感到問題過于困難無法解決時,即便有充足的計算預(yù)算(token limit),它也會選擇“躺平”,減少思考的努力。

過度思考,連“抄作業(yè)”都不會

此外,研究人員不僅關(guān)注最終答案,還分析了推理痕跡——即給出答案之前生成的逐步“思考”過程。他們發(fā)現(xiàn),在簡單的問題中,模型往往在早期就找到了正確的解決方案,但隨后繼續(xù)進行不必要的思考

在中等復(fù)雜度的問題中,模型往往在推理過程中走錯路徑,最終在“思考”的后期才找到正確的答案。但在高復(fù)雜度的問題中,準(zhǔn)確度為零,推理變得混亂或不連貫。

更令人擔(dān)憂的是,在漢諾塔任務(wù)中,研究人員直接在提示詞中提供了完整的解題算法,要求模型僅僅是“執(zhí)行”這個算法。但模型的表現(xiàn)沒有任何改善,依然在相同的復(fù)雜度上崩潰。

蘋果論文引爭議:測試設(shè)計存在缺陷?

蘋果此次發(fā)布的論文在AI圈引發(fā)了不小的爭議。

AI研究者Lisan al Gaib在復(fù)現(xiàn)論文中的漢諾塔測試后發(fā)現(xiàn),模型根本不是因為推理能力不佳而失敗,而是因為輸出token限制

也就是說,不是模型不會解答,而是無法輸出如此多的內(nèi)容。

GitHub軟件工程師Sean Goedecke稱,存在復(fù)雜性閾值并不意味著推理模型“實際上并不推理”

Sean表示,即使沒有推理到第十一步,但前十步仍是在推理。“根據(jù)我自己測試的結(jié)果,模型很早就決定數(shù)百個算法步驟太多了,根本無法嘗試,因此它們干脆不開始。”

Sean舉了一個例子,“有多少人能坐下來正確地算出一千步漢諾塔?有很多人能做到,但也有很多做不到。那么,那些算不出答案的人就沒有推理能力嗎?當(dāng)然有!他們只是沒有足夠的認真和耐心去手動完成一千次算法的迭代。”

著名AI越獄提示詞專家Plenny the Liberator直言,如果我是蘋果CEO,看到我的團隊發(fā)表一篇只專注于記錄當(dāng)前方法局限性的論文,我會當(dāng)場解雇所有參與者。

AI博主henry表示,“蘋果作為世界上最富有的公司,擁有無與倫比的優(yōu)勢,全力押注人工智能,許下無數(shù)承諾,但被所有人瞬間超越。賽程已進行兩年,卻一無所獲,于是寫了這篇論文說這一切都是不重要的。”

WWDC在即,蘋果“酸了”?


圖片來源:蘋果官網(wǎng)截圖

部分觀點認為,蘋果發(fā)布質(zhì)疑推理模型能力的論文是“吃不到葡萄說葡萄酸”。

北京時間6月10日凌晨1點,蘋果年度開發(fā)者大會(WWDC 2025)即將拉開帷幕。然而,外界普遍認為,這次活動在AI方面的進展可能有限,備受期待的Siri升級也將繼續(xù)缺席。

據(jù)外媒報道,此次WWDC上蘋果在AI方面的更新不會帶來太多驚喜。科技記者馬克·古爾曼發(fā)文透露,蘋果今年WWDC中關(guān)于AI的內(nèi)容預(yù)計會比較少,甚至可能“令人失望”

在去年WWDC上發(fā)布蘋果智能(Apple Intelligence)時,蘋果曾高調(diào)宣布對語音助手Siri進行“徹底重構(gòu)”,新Siri應(yīng)該更聰明、更懂用戶、能夠理解并執(zhí)行復(fù)雜任務(wù)。然而,一年過去,Siri的升級卻遲遲未見實質(zhì)性進展。

據(jù)多位前蘋果員工透露,蘋果AI領(lǐng)域的進展不順,部分原因在于公司內(nèi)部領(lǐng)導(dǎo)風(fēng)格的差異和組織間的協(xié)作問題

另一方面,蘋果在AI領(lǐng)域的探索,也受到了技術(shù)路線選擇和隱私政策帶來的雙重影響。蘋果一直以來引以為傲的“隱私至上”原則,在AI時代給其帶來了一些新的負擔(dān)。一位熟悉蘋果AI和軟件開發(fā)工作的人表示:“在蘋果公司開發(fā)AI的過程中,做任何事情都可能遇到很多‘不’,你必須與負責(zé)隱私的部門反復(fù)溝通協(xié)調(diào)才能推進工作。”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
震驚!南方醫(yī)科大學(xué),塌方式腐敗!

震驚!南方醫(yī)科大學(xué),塌方式腐敗!

柳葉刀學(xué)術(shù)
2025-06-07 20:38:43
“印度恒河以北歸中國!”中國學(xué)者發(fā)表罕見言論,印度人集體破防

“印度恒河以北歸中國!”中國學(xué)者發(fā)表罕見言論,印度人集體破防

一個有靈魂的作者
2025-06-09 08:33:10
奇葩一幕!輸球后女排一人抱著主任哭,領(lǐng)導(dǎo)兩手插褲兜反應(yīng)冷冰冰

奇葩一幕!輸球后女排一人抱著主任哭,領(lǐng)導(dǎo)兩手插褲兜反應(yīng)冷冰冰

南海浪花
2025-06-09 07:19:04
村超官方聲明:由衷祝賀蘇超爆火出圈,村超被足協(xié)叫停為謠言

村超官方聲明:由衷祝賀蘇超爆火出圈,村超被足協(xié)叫停為謠言

直播吧
2025-06-09 23:59:41
屢查屢犯!中央督察組點名通報山西晉中呂梁

屢查屢犯!中央督察組點名通報山西晉中呂梁

政知新媒體
2025-06-09 10:55:04
尼日爾頂不住了!油井快廢,回頭又找中國談合作幫忙了

尼日爾頂不住了!油井快廢,回頭又找中國談合作幫忙了

特特農(nóng)村生活
2025-06-09 11:53:53
多地發(fā)文鼓勵推行2.5天休假模式

多地發(fā)文鼓勵推行2.5天休假模式

中國能源網(wǎng)
2025-06-09 12:41:15
如果一個國家強盛的目的不以老百姓福祉為宗旨,它的強盛毫無意義

如果一個國家強盛的目的不以老百姓福祉為宗旨,它的強盛毫無意義

逍遙論經(jīng)
2025-05-21 11:15:02
油價大降超0.53元/升,斷崖大跌的油價,6月17日調(diào)整“越漲越多”

油價大降超0.53元/升,斷崖大跌的油價,6月17日調(diào)整“越漲越多”

油價早知道
2025-06-09 09:28:10
25歲小伙與52歲大媽結(jié)婚,洞房那天聽到大媽的要求后,小伙人懵了

25歲小伙與52歲大媽結(jié)婚,洞房那天聽到大媽的要求后,小伙人懵了

嘮叨情感屋
2025-06-04 18:41:09
首次披露,張益山已被查

首次披露,張益山已被查

新京報
2025-06-09 21:49:31
卡佩羅:意大利現(xiàn)狀讓我憤怒;拉涅利是執(zhí)教意大利最合適的人選

卡佩羅:意大利現(xiàn)狀讓我憤怒;拉涅利是執(zhí)教意大利最合適的人選

懂球帝
2025-06-09 20:04:15
哭成淚人!40歲C羅再奪歐國聯(lián),扛起獎杯慶祝,36冠+刷爆5大紀錄

哭成淚人!40歲C羅再奪歐國聯(lián),扛起獎杯慶祝,36冠+刷爆5大紀錄

侃球熊弟
2025-06-09 06:19:22
馬筱梅回應(yīng),玥兒補習(xí)班嫌貴事件!是一小時2000!不是一天!

馬筱梅回應(yīng),玥兒補習(xí)班嫌貴事件!是一小時2000!不是一天!

鑫鑫說說
2025-06-09 09:16:54
男籃全運一夜三大慘案!遼籃44分大勝晉級 一隊遭60分大敗!

男籃全運一夜三大慘案!遼籃44分大勝晉級 一隊遭60分大敗!

籃球快餐車
2025-06-09 05:34:42
突發(fā)!俄軍挺進烏重要礦業(yè)和工業(yè)中心!“烏方愿意停火!”澤連斯基:美將2萬枚援烏導(dǎo)彈調(diào)往中東,系專為攔截俄“見證者”無人機設(shè)計

突發(fā)!俄軍挺進烏重要礦業(yè)和工業(yè)中心!“烏方愿意停火!”澤連斯基:美將2萬枚援烏導(dǎo)彈調(diào)往中東,系專為攔截俄“見證者”無人機設(shè)計

每日經(jīng)濟新聞
2025-06-09 01:09:14
反轉(zhuǎn)!高考女子酒后赴考后續(xù),酒氣熏天路都走不穩(wěn),當(dāng)事人回應(yīng)

反轉(zhuǎn)!高考女子酒后赴考后續(xù),酒氣熏天路都走不穩(wěn),當(dāng)事人回應(yīng)

曉肂愛八卦
2025-06-09 11:10:27
登記為70年產(chǎn)權(quán),賣房時少40年,惠城:當(dāng)年錄入錯誤

登記為70年產(chǎn)權(quán),賣房時少40年,惠城:當(dāng)年錄入錯誤

南方都市報
2025-06-09 20:22:10
最快下個月,中方或訂購百架空客,波音也重獲訂單,美國突然變卦

最快下個月,中方或訂購百架空客,波音也重獲訂單,美國突然變卦

boss外傳
2025-06-09 15:50:03
45歲張柏芝美得不像真人!顏值逆生長,網(wǎng)友:這狀態(tài)合理嗎?

45歲張柏芝美得不像真人!顏值逆生長,網(wǎng)友:這狀態(tài)合理嗎?

木子愛娛樂大號
2025-06-09 20:38:55
2025-06-10 07:11:00
每日經(jīng)濟新聞 incentive-icons
每日經(jīng)濟新聞
中國主流財經(jīng)全媒體平臺。
1260614文章數(shù) 2714614關(guān)注度
往期回顧 全部

科技要聞

一文看懂WWDC:蘋果發(fā)布"十年一遇"設(shè)計革命

頭條要聞

特朗普:不清楚馬斯克是否在白宮使用過毒品

頭條要聞

特朗普:不清楚馬斯克是否在白宮使用過毒品

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經(jīng)要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態(tài)度原創(chuàng)

健康
藝術(shù)
旅游
房產(chǎn)
軍事航空

減重專家破解減肥九大謠言!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

海南地王,方案曝光!三亞灣豪宅,神仙打架!

軍事要聞

烏方稱俄發(fā)動沖突以來最大空襲

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 望奎县| 翁源县| 厦门市| 南皮县| 隆昌县| 金山区| 辉县市| 平利县| 扎囊县| 布拖县| 绥宁县| 贡嘎县| 庆阳市| 泰兴市| 襄汾县| 张北县| 乌恰县| 安康市| 鱼台县| 保康县| 遂川县| 抚顺县| 巴里| 沂水县| 远安县| 沁阳市| 彭泽县| 洮南市| 托里县| 宜宾市| 江山市| 会宁县| 东源县| 泗洪县| 武宣县| 闻喜县| 灵山县| 宁强县| 新河县| 通辽市| 讷河市|