99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LLM推理能力盲區(qū):從《愛麗絲夢游仙境》測試看AI的局限與未來方向

0
分享至

LAION研究機構(gòu)最近進行的一項研究,當前大型語言模型(LLM)在基準測試中的一個重大盲區(qū)。研究人員受到經(jīng)典故事《愛麗絲夢游仙境》的啟發(fā),設計了一系列推理問題,以挑戰(zhàn)當前最先進的人工智能模型。這個名為“愛麗絲夢游仙境”(AIW,Artificial Intelligence Wisdom)的測試提出了一個簡單但深具挑戰(zhàn)性的問題:“愛麗絲有N個兄弟,她還有M個姐妹。愛麗絲的兄弟有多少個姐妹?”對于人類來說,這個問題的答案顯而易見是M+1(愛麗絲的姐妹數(shù)量加上愛麗絲自己),然而,當前的主流模型,包括GPT-3.5/4、Claude、Gemini、Llama、Mistral等,在回答時卻頻頻出錯,只有OpenAI的最新模型GPT-4o勉強答對。


這些模型不僅答案錯誤,還在解釋其推理過程時顯得荒謬。當被告知答案不準確時,它們甚至會固執(zhí)己見,堅持錯誤的結(jié)論。LAION由此得出結(jié)論:即使是最先進的模型,在推理能力上仍遠不及小學生。著名學者LeCun也強調(diào),推理能力和常識不能與存儲和大致檢索大量事實的能力混為一談。


ICLR 2024的一篇論文進一步證實了AI在推理能力方面的局限性,發(fā)現(xiàn)大型語言模型在學習完“A是B”后,常常無法泛化到“B是A”,這種缺陷被稱為“逆轉(zhuǎn)詛咒”,凸顯了AI在邏輯推理上的不足。

為了更好地評估LLM在無需復雜知識但需要邏輯思維和基本推理的情境下的表現(xiàn),研究團隊選擇了為7-10歲低年級學生設計的奧數(shù)題目作為測試材料。這些題目易于理解,但需要多種邏輯思維方式來解答。通過將《愛麗絲夢游仙境》中的元素融入測試題目,團隊提出了AIW測試集。結(jié)果表明,即便是大多數(shù)成年人和一定年齡以上的兒童都能輕松解答的問題,當前的SOTA LLM模型卻表現(xiàn)不佳,甚至在簡單的邏輯推理任務中表現(xiàn)得像是在“蒙”。


當研究人員改變題目的表述方式或調(diào)整“N”和“M”的具體數(shù)值時,模型的回答正確率出現(xiàn)了大幅波動,表明這些模型更傾向于“猜測”答案,而非基于邏輯推理得出結(jié)論。為了更深入地探索這一現(xiàn)象,研究團隊為AIW問題設計了四個不同版本的變體。實驗顯示,大多數(shù)LLM在AIW問題上的正確響應率不足0.2,僅有少數(shù)模型的表現(xiàn)超過了0.3的閾值,其中GPT-4o和Claude 3 Opus的均值接近0.6。


這一結(jié)果與在MMLU、ARC-c等基準測試中取得的高分形成了鮮明對比。在AIW測試中,表現(xiàn)優(yōu)異的GPT-4-0613模型在更換問題后準確率急劇下降,即使是高分模型如GPT-4o、GPT-4 Turbo、Claude 3 Opus和Llama2-70B也未能幸免。研究團隊還嘗試通過restricted模式的提示來強迫模型輸出簡短答案,但不同模型在這種模式下的正確率有升有降。


通過對比MMLU和AIW測試的結(jié)果,研究團隊發(fā)現(xiàn)大多數(shù)模型在AIW測試中表現(xiàn)欠佳,而少數(shù)模型如Llama2-70B、GPT-4、GPT-4o和Claude 3在AIW測試中的得分較高。盡管如此,這些模型在AIW+測試中表現(xiàn)仍然不盡如人意。例如,GPT-4o在AIW+測試中的準確率驟降至0.015。

研究發(fā)現(xiàn),LLM在錯誤答案上表現(xiàn)出強烈的自信,即便在明顯錯誤的推理中也聲稱邏輯成立,并堅持其錯誤結(jié)論。為了提高模型的正確率,研究人員嘗試了多種提示工程方法,包括Scientist類型的prompt和Confidence型prompt,但效果并不顯著。

研究人員觀察到,LLM在面對錯誤時,會編造各種有說服力的解釋。例如,某些模型會提供一堆毫無意義的計算或邏輯陳述來支持其錯誤結(jié)論,而另一些模型則可能選擇拒絕回答,并通過道德議題進行“道德綁架”。例如,CodeLlama模型可能會以“作為一個負責任的AI模型,我不可以歧視唐氏綜合癥患者”為理由拒絕回答與唐氏綜合癥無關的問題。

研究團隊還嘗試了多種LLM調(diào)優(yōu)技巧,包括定制prompt以啟用多輪自我驗證、將自然語言形式的AIW問題轉(zhuǎn)化為SQL語句或參數(shù)化版本,以及利用上下文學習等技術,但這些策略都未能顯著提升模型的正確率。


為了顯著改善當前LLM的推理能力,研究團隊呼吁積極借助開源社區(qū)的力量。他們強調(diào),LLM的模型創(chuàng)建流程,包括數(shù)據(jù)集的精心構(gòu)建、訓練源代碼的透明度、訓練后模型的完整性,以及標準化的基準測試程序,都必須實現(xiàn)完全的開放和可重復性。團隊指出,僅開放模型權(quán)重的方法存在局限性,因為它無法讓研究人員和開發(fā)者洞察到訓練過程中可能存在的潛在問題。

團隊還呼吁業(yè)界開源LLM的完整訓練流程,特別是數(shù)據(jù)集的組成。他們認為,數(shù)據(jù)集的多樣性、質(zhì)量和合理性對于模型的推理能力至關重要,同時也強調(diào)了標準化基準測試程序的重要性,認為這有助于評估模型的性能并推動AI技術的不斷進步。

為了實現(xiàn)LLM推理能力的革新,必須在開源和透明的原則下,依靠開源社區(qū)的力量,共同推動AI技術的發(fā)展和創(chuàng)新。

論文鏈接:https://arxiv.org/abs/2406.02061

項目地址:https://github.com/LAION-AI/AIW

▲ 滑動查看往期內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中方向全世界宣布:對美合作終止,不接受任何談判請求

中方向全世界宣布:對美合作終止,不接受任何談判請求

詩詞中國
2025-06-26 13:02:25
小米首款小尺寸!小米手表S4 41mm發(fā)布:999元起

小米首款小尺寸!小米手表S4 41mm發(fā)布:999元起

快科技
2025-06-26 20:07:11
陰毛有什么作用?要刮掉嗎?陰毛變白預示著什么?很多人還不知道

陰毛有什么作用?要刮掉嗎?陰毛變白預示著什么?很多人還不知道

醫(yī)者榮耀
2025-06-22 12:05:07
太陽成選秀大會最忙碌球隊,先后達成4筆關于選秀權(quán)交易

太陽成選秀大會最忙碌球隊,先后達成4筆關于選秀權(quán)交易

雷速體育
2025-06-27 07:20:08
這種離譜沒底線的軍事專家,可真是令人擔憂后怕

這種離譜沒底線的軍事專家,可真是令人擔憂后怕

雪中風車
2025-06-24 08:21:17
社保局不會告訴你:親人離世,除了喪葬費,還有這9筆錢可以領

社保局不會告訴你:親人離世,除了喪葬費,還有這9筆錢可以領

阿傖說事
2025-06-25 08:05:30
南航空少靜江去世,年僅38歲!吃生腌引發(fā)病情,最后畫面讓人破防

南航空少靜江去世,年僅38歲!吃生腌引發(fā)病情,最后畫面讓人破防

壹月情感
2025-06-24 23:07:16
俄烏戰(zhàn)爭特別報道:偉大的投降者

俄烏戰(zhàn)爭特別報道:偉大的投降者

西樓飲月
2025-02-27 21:04:55
被男友拋棄的玩偶姐姐,為生活費露臉急尋男主,遭遇威脅身家破產(chǎn)

被男友拋棄的玩偶姐姐,為生活費露臉急尋男主,遭遇威脅身家破產(chǎn)

每日一見
2025-06-25 15:21:47
特朗普:以伊沖突或許很快再次爆發(fā)

特朗普:以伊沖突或許很快再次爆發(fā)

政知新媒體
2025-06-26 06:53:20
蘇群揭秘楊瀚森被開拓者選中:富保羅曾致電詢問 網(wǎng)鷹雷也想要他

蘇群揭秘楊瀚森被開拓者選中:富保羅曾致電詢問 網(wǎng)鷹雷也想要他

直播吧
2025-06-26 18:00:12
全透明觀光廊中層玻璃現(xiàn)裂紋,東方明珠塔:內(nèi)外層玻璃完好,將定制更新

全透明觀光廊中層玻璃現(xiàn)裂紋,東方明珠塔:內(nèi)外層玻璃完好,將定制更新

澎湃新聞
2025-06-26 22:10:29
開拓者總經(jīng)理:對楊瀚森的培養(yǎng)計劃包括去G聯(lián)賽歷練

開拓者總經(jīng)理:對楊瀚森的培養(yǎng)計劃包括去G聯(lián)賽歷練

懂球帝
2025-06-27 00:42:27
江蘇高考“文科狀元”,691分被南大強基鎖檔,無緣清華、北大

江蘇高考“文科狀元”,691分被南大強基鎖檔,無緣清華、北大

愛下廚的阿椅
2025-06-27 02:53:27
媒體人:足協(xié)對沒看見進球裁判長期停哨,但因裁判不夠又解禁

媒體人:足協(xié)對沒看見進球裁判長期停哨,但因裁判不夠又解禁

懂球帝
2025-06-26 10:47:13
從特種兵到性感尤物,牟星私下身材曝光,簡直是行走的荷爾蒙

從特種兵到性感尤物,牟星私下身材曝光,簡直是行走的荷爾蒙

橙星文娛
2025-06-26 14:13:44
選秀大會撿漏最成功的球隊?交易拿下MOP,截胡本屆選秀最強天賦

選秀大會撿漏最成功的球隊?交易拿下MOP,截胡本屆選秀最強天賦

你的籃球頻道
2025-06-26 14:14:12
日本肺都要氣炸了

日本肺都要氣炸了

牛彈琴
2025-06-27 07:19:05
補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

每日經(jīng)濟新聞
2025-06-26 21:32:42
出大事了!以魏茨曼科學研究所被導彈擊中,45個頂尖實驗室被毀

出大事了!以魏茨曼科學研究所被導彈擊中,45個頂尖實驗室被毀

小笛科技
2025-06-25 12:02:39
2025-06-27 08:15:00
小微模型 incentive-icons
小微模型
一起探索AGI世界,解鎖AI實用技能,伴您步入智能生活!
139文章數(shù) 9關注度
往期回顧 全部

科技要聞

小米YU7價格來了!標準版起售價25.35萬元

頭條要聞

隱居深山10年后61歲韋唯重返舞臺: 我險些失去了生命

頭條要聞

隱居深山10年后61歲韋唯重返舞臺: 我險些失去了生命

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經(jīng)要聞

央視再揭茅臺鎮(zhèn)“年份酒”造假黑幕

汽車要聞

智界全系2萬元現(xiàn)金減免 豪華智能限時普惠

態(tài)度原創(chuàng)

教育
房產(chǎn)
親子
時尚
數(shù)碼

教育要聞

從特殊到一般 求角度 有多重要?看這個視頻!

房產(chǎn)要聞

最強黑馬殺出!海南這些區(qū)域,教育正悄悄崛起!

親子要聞

王詩齡的成長,李湘的陪伴

感覺生活停滯不前的時候,試試這5個小方法獲得能量

數(shù)碼要聞

視熙發(fā)布Aiboo便攜式直播一體機:售3980元 雙滾軸結(jié)構(gòu)攝像頭

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 饶阳县| 顺平县| 太湖县| 会东县| 依安县| 富民县| 新干县| 石阡县| 博罗县| 北安市| 陈巴尔虎旗| 济南市| 尚志市| 塘沽区| 清原| 东港市| 铜陵市| 扎鲁特旗| 宿迁市| 怀来县| 惠东县| 周宁县| 大埔区| 龙川县| 随州市| 乌拉特中旗| 岐山县| 邢台市| 双鸭山市| 辽源市| 米林县| 淮南市| 白水县| 康定县| 张家口市| 潮州市| 昌吉市| 聊城市| 通化县| 孟津县| 大埔区|