網易首頁 > 網易號 > 正文申請入駐

奧特曼ChatGPT用法錯了！最新研究：要求“直接回答”降低準確率

2025-06-10 14:32:58　來源: 量子位

北京舉報

分享至

克雷西發自凹非寺
量子位 | 公眾號 QbitAI

奧特曼使用大模型的方法，竟然是錯的？

來自沃頓商學院等機構的最新研究發現，備受奧特曼喜愛的“直接回答”提示，竟然會顯著降低模型準確率。

不過另一方面，這項研究也發現，在提示詞中加入思維鏈（CoT）命令同樣不好用——

CoT提示對于推理模型非但沒有效果提升，反而會增加時間和計算成本。

而一些前沿的非推理模型，CoT提示可以帶來效果提升，但答案的不穩定性也隨之增加了。

研究團隊使用GPQA Diamond數據集，針對現在主流的推理和非推理模型，分別在啟用和不啟用CoT的情況下進行了測試。

結果就是對于推理模型，CoT的作用十分有限，比如對于o3-mini，CoT帶來的準確率提升只有4.1%，但時間卻增加了80%。

非推理模型的結果則要復雜一些，但總之要不要用CoT，也需要對收益和投入進行仔細權衡。

所以CoT到底該不該用呢？

實際上，這項研究針對的是用戶提示詞中的CoT命令，并不包括系統提示詞設定，更不是CoT本身。

CoT提示詞作用有限，甚至還有反效果

這項研究使用GPQA Diamond數據集作為基準測試工具，該數據集包含了研究生水平的專家推理問題。

實驗過程中，研究團隊測試了這些模型：

推理模型：o4-mini、o3-mini、Gemini 2.5 Flash
非推理模型：Claude 3.5 Sonnet 3.5 、Gemini 2.0 Flash 、GPT-4o-mini、GPT-4o 、Gemini Pro 1.5

對于每個模型，研究團隊都設置了三種實驗環境：

強制推理：指示模型在提供答案前逐步思考（Think step by step）；
直接回答：明確指示模型不要進行任何解釋或思考，只提供答案；
默認：不提供任何特定的后綴指令，讓模型自行選擇如何回答問題。

為了確保結果的可靠性，每個問題在每種條件下都被測試了25次，也就是說每個模型針對同一個問題都要做出75次回答。

對于每種實驗設定，研究團隊一共統計了四個指標：

100%正確率：同一個問題的25次試驗中全部答對才算一次“成功”，“成功”次數除以題目數量即為100%正確率；
90%正確率：25次試驗中至少要答對23次，接近人類可接受的錯誤率；
51%正確率：采用簡單多數原則，25次試驗中答對至少13次就被認為是成功的；
平均評分：將正確答案直接計數，然后除以總試驗次數，也就是總的正確率。

結果，對于非推理模型，CoT提升相比于直接回答，所有模型的平均評分和“51%正確”指標都有所提升。

其中Gemini Flash 2.0的提升最為顯著，Claude 3.5 Sonnet緊隨其后，GPT-4o和4o-mini則提升不明顯。

但是在100%和90%正確率指標當中，相比于不推理，加入CoT提示后Gemini家族兩款模型和4o-mini的指標反而下降。

這意味著，CoT雖然從整體上提高了模型的準確率，但同時也增加了答案的不穩定性。

如果比較強制CoT和默認模式，可以看到CoT帶來的效果明顯比相對于直接回答更弱，造成這種結果的原因可能和部分模型已經內置了思維鏈相關。

而對于推理模型來說，CoT提示的效果就更有限了——

對于o3-mini和o4-mini，使用CoT提示相比要求模型直接回答提升非常少，對于Gemini 2.5 Flash更是所有指標全面下降。

例如在平均評分上，o3-mini僅提升2.9個百分點，o4-mini提升3.1個百分點。

但相比之下，消耗的時間卻是大幅增長，o4-mini大概漲了20%，o3-mini的漲幅更是超過了80%。

而效果好一些的非推理模型，時間的增加也更加明顯。

結合開頭作者打臉奧特曼的推文，可以看到模型依然是在“會思考”的時候表現最好，但是最前沿的模型當中，推理模型本就已經內置推理過程，一些非推理模型內置提示也包含了CoT相關內容，這種“思考”不再需要通過額外增加提示來實現。

所以，對于直接使用模型應用的用戶來說，默認設置就已經是一種很好的使用方式了。

報告地址：
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
0 跟貼 0
揭示顯式CoT訓練機制：思維鏈如何增強推理泛化能力

機器之心Pro 2025-03-12 10:44:56
2 跟貼 2

全面評測圖像編輯模型推理能力：所有模型在程序性推理方面表現差

量子位 2025-06-13 14:20:11
0 跟貼 0

一句話生成任務專屬LoRA！Transformer作者創業公司顛覆LLM微調

量子位 2025-06-13 17:23:47
0 跟貼 0
MCU：全球首個生成式開放世界基準，革新通用AI評測范式

機器之心Pro 2025-05-13 17:16:26
0 跟貼 0

Figure自曝完整技術：60分鐘不間斷打工，我們的機器人如何做到？

量子位 2025-06-13 16:20:17
2 跟貼 2

視頻擴散模型新突破！清華＆騰訊實現保真3D生成，告別多視圖依賴

量子位 2025-06-13 17:03:06
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

前智源團隊創業，聯想、智譜AI投了一家人形機器人大模型公司｜硬氪首發

36氪 2025-06-14 09:31:10
0 跟貼 0
“系統變革?智啟未來”2025傳媒年會召開共探AI時代主流媒體破局與革新之路

每日經濟新聞 2025-06-14 00:03:03
0 跟貼 0
豆包使用成本“卷”至1/3 火山引擎瞄準智能體“爆發” 催生智算一體機新需求

財聯社 2025-06-14 11:16:00
1 跟貼 1
這篇Nature論文僅有一個作者，MIT博士生業余愛好，為 AI 技術帶來全新應用方向

生物世界 2025-06-14 12:34:55
0 跟貼 0
AI在《我的世界》選秀，看得懂的基準，你也能投票

機器之心Pro 2025-03-21 21:22:31
0 跟貼 0
十大推理模型挑戰2025年高考數學題：DeepSeek-R1、騰訊混元T1并列第一，馬斯克的Grok 3遭遇“滑鐵盧”

每日經濟新聞 2025-06-10 21:04:19
36 跟貼 36
教育大模型在學習輔導和心理關懷方面進化，高考數學客觀題正確率超90%

多知 2025-06-11 19:04:46
0 跟貼 0
超越英偉達B200！AMD最強AI芯：1.6倍大內存、大模型推理快30%

量子位 2025-06-13 10:41:55
10 跟貼 10
看完當場手撕杠精的絕學秘籍

科學公園 2025-06-11 14:13:24
16 跟貼 16
提醒：遠離尿毒癥，這三個指標要關注

藥師方健 2025-06-13 22:15:34
5 跟貼 5
廣東佛山順德區高中數學題目求x+y+z的值

三樂大掌柜 2025-06-11 22:18:38
1 跟貼 1
我回國怎么辦啊！！！

多老師 2025-06-12 13:19:44
7097 跟貼 7097
伊朗任命新任革命衛隊司令、臨時總參謀長

環球網資訊 2025-06-13 15:30:18
6635 跟貼 6635
讓ChatGPT連讀“A”，直接崩潰到念廣告詞，網友：拿我們做測試？

量子位 2025-06-02 12:21:33
4 跟貼 4
伊朗對該國互聯網使用實施臨時限制

新京報 2025-06-13 19:26:01
5119 跟貼 5119
膽堿酯酶：肝臟健康的晴雨表，中毒診斷的金指標

普外耿醫生 2025-06-11 17:20:44
0 跟貼 0
這道題目全班一大半同學都失誤了，老師覺得非常可惜

公考客棧店小二 2025-06-11 21:14:42
0 跟貼 0
印度消防培訓，一頓操作猛如虎，直接將成本降到最低！

演說者搞笑 2025-06-13 09:17:29
2 跟貼 2
老狗也有幾顆新牙 ChatGPT在國際象棋比賽中不敵雅達利2600

3DM游戲 2025-06-12 14:57:11
3 跟貼 3
谷歌視頻模型Veo3正在顛覆好萊塢：星球大戰風暴兵系列之訓練新兵

鏈聞科技 2025-06-13 11:14:00
3 跟貼 3
當院長騎電驢摔傷住院醫護人員紛紛拍照

凌晨看看 2025-06-14 09:03:19
1900 跟貼 1900
采樣越多越聰明？隱式擴展顛覆認知，采樣搜索如何挑出完美解

新智元 2025-04-21 12:45:35
0 跟貼 0
絕望的器官

阿亮評論 2025-06-13 15:08:31
2712 跟貼 2712
脫鉤器一拉繩就完活，還用上炸藥了，一元成本一百萬效果！

搞笑的小虎 2025-06-13 02:33:50
0 跟貼 0
在奧斯卡和戛納狂卷6項題目，2025美國最新懸疑佳作，《回聲谷》

逐夢電影 2025-06-13 20:36:23
1 跟貼 1
高考已經結束了，考生感嘆生物題目太簡單，這就是學霸的世界！

森森愛搞笑 2025-06-12 13:36:50
1 跟貼 1
這是一道非常容易做錯的題目，7÷7÷7÷7等于多少？

公考客棧店小二 2025-06-11 22:34:20
19 跟貼 19
華國鋒1978年提出“4個一點”經濟政策，鄧公：指標過大

夜寒兮月孤靜 2025-06-10 05:41:36
0 跟貼 0
大神卡帕西親自演繹零基礎開發APP，ChatGPT四輪對話搞定

量子位 2025-03-24 16:04:01
0 跟貼 0
當全網都在玩梗的時候，江蘇人已經忙掙錢了

揚子晚報 2025-06-13 21:27:45
23 跟貼 23
3位90后抗美援朝志愿軍老兵，爺爺看著新型武器模型笑得合不攏嘴

生活幫 2025-06-09 18:26:13
0 跟貼 0
飛一次花普通人一輩子工資！為何B2越造越貴？印度也曾陷成本旋渦

濤觀世界 2025-06-13 20:19:05
1 跟貼 1

手機 / 數碼

房產 / 家居

奧特曼ChatGPT用法錯了！最新研究：要求“直接回答”降低準確率

CoT提示詞作用有限，甚至還有反效果

一輛新車比特斯拉FSD都便宜，全行業陪葬？

牛彈琴：中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

牛彈琴：中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

32隊爭10億獎金，全新世俱杯來了！

鳳凰傳奇曾毅手表引爭議 含性暗示元素

樓市權威發聲

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

在時尚中國之夜，共赴榮耀東方時刻

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

寶寶害怕吃藥怎么辦？爸爸傳授的冷靜

伊朗多名將領、核科學家遇襲身亡 身份披露

牛彈琴：中東大戰開啟以色列遭受幾十年來最猛烈攻擊

牛彈琴：中東大戰開啟以色列遭受幾十年來最猛烈攻擊

鳳凰傳奇曾毅手表引爭議含性暗示元素

伊朗多名將領、核科學家遇襲身亡身份披露