99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

奧特曼ChatGPT用法錯了!最新研究:要求“直接回答”降低準確率

0
分享至

  • 克雷西 發自 凹非寺
    量子位 | 公眾號 QbitAI

奧特曼使用大模型的方法,竟然是錯的?

來自沃頓商學院等機構的最新研究發現,備受奧特曼喜愛的“直接回答”提示,竟然會顯著降低模型準確率。



不過另一方面,這項研究也發現,在提示詞中加入思維鏈(CoT)命令同樣不好用——

CoT提示對于推理模型非但沒有效果提升,反而會增加時間和計算成本。

而一些前沿的非推理模型,CoT提示可以帶來效果提升,但答案的不穩定性也隨之增加了。



研究團隊使用GPQA Diamond數據集,針對現在主流的推理和非推理模型,分別在啟用和不啟用CoT的情況下進行了測試。

結果就是對于推理模型,CoT的作用十分有限,比如對于o3-mini,CoT帶來的準確率提升只有4.1%,但時間卻增加了80%。

非推理模型的結果則要復雜一些,但總之要不要用CoT,也需要對收益和投入進行仔細權衡。

所以CoT到底該不該用呢?

實際上,這項研究針對的是用戶提示詞中的CoT命令,并不包括系統提示詞設定,更不是CoT本身。

CoT提示詞作用有限,甚至還有反效果

這項研究使用GPQA Diamond數據集作為基準測試工具,該數據集包含了研究生水平的專家推理問題。

實驗過程中,研究團隊測試了這些模型:

  • 推理模型:o4-mini、o3-mini、Gemini 2.5 Flash
  • 非推理模型:Claude 3.5 Sonnet 3.5 、Gemini 2.0 Flash 、GPT-4o-mini、GPT-4o 、Gemini Pro 1.5

對于每個模型,研究團隊都設置了三種實驗環境:

  • 強制推理:指示模型在提供答案前逐步思考(Think step by step);
  • 直接回答:明確指示模型不要進行任何解釋或思考,只提供答案;
  • 默認:不提供任何特定的后綴指令,讓模型自行選擇如何回答問題。

為了確保結果的可靠性,每個問題在每種條件下都被測試了25次,也就是說每個模型針對同一個問題都要做出75次回答。

對于每種實驗設定,研究團隊一共統計了四個指標:

  • 100%正確率:同一個問題的25次試驗中全部答對才算一次“成功”,“成功”次數除以題目數量即為100%正確率;
  • 90%正確率:25次試驗中至少要答對23次,接近人類可接受的錯誤率;
  • 51%正確率:采用簡單多數原則,25次試驗中答對至少13次就被認為是成功的;
  • 平均評分:將正確答案直接計數,然后除以總試驗次數,也就是總的正確率。

結果,對于非推理模型,CoT提升相比于直接回答,所有模型的平均評分和“51%正確”指標都有所提升。

其中Gemini Flash 2.0的提升最為顯著,Claude 3.5 Sonnet緊隨其后,GPT-4o和4o-mini則提升不明顯。

但是在100%和90%正確率指標當中,相比于不推理,加入CoT提示后Gemini家族兩款模型和4o-mini的指標反而下降。

這意味著,CoT雖然從整體上提高了模型的準確率,但同時也增加了答案的不穩定性。



如果比較強制CoT和默認模式,可以看到CoT帶來的效果明顯比相對于直接回答更弱,造成這種結果的原因可能和部分模型已經內置了思維鏈相關。



而對于推理模型來說,CoT提示的效果就更有限了——

對于o3-mini和o4-mini,使用CoT提示相比要求模型直接回答提升非常少,對于Gemini 2.5 Flash更是所有指標全面下降。

例如在平均評分上,o3-mini僅提升2.9個百分點,o4-mini提升3.1個百分點。



但相比之下,消耗的時間卻是大幅增長,o4-mini大概漲了20%,o3-mini的漲幅更是超過了80%。



而效果好一些的非推理模型,時間的增加也更加明顯。



結合開頭作者打臉奧特曼的推文,可以看到模型依然是在“會思考”的時候表現最好,但是最前沿的模型當中,推理模型本就已經內置推理過程,一些非推理模型內置提示也包含了CoT相關內容,這種“思考”不再需要通過額外增加提示來實現。

所以,對于直接使用模型應用的用戶來說,默認設置就已經是一種很好的使用方式了。

報告地址:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
瓦爾迪:我也想去看村超加入他們,我踢草根足球時可沒這場面

瓦爾迪:我也想去看村超加入他們,我踢草根足球時可沒這場面

直播吧
2025-06-13 12:13:25
7換1?美媒提議:火箭拿下杜蘭特 送出格林+謝潑德+伊森+2首輪等

7換1?美媒提議:火箭拿下杜蘭特 送出格林+謝潑德+伊森+2首輪等

直播吧
2025-06-14 10:46:47
女跑者真實經歷分享:天熱跑步謹慎走光,小心“春光乍泄”

女跑者真實經歷分享:天熱跑步謹慎走光,小心“春光乍泄”

馬拉松跑步健身
2025-05-29 13:53:35
印度媒體稱,印度成為了全球第一個掌握中國武器參數的國家!

印度媒體稱,印度成為了全球第一個掌握中國武器參數的國家!

大道無形我有型
2025-06-10 12:31:37
雷霆2-2步行者!誕生3個不可思議和1個不爭事實,蘇群果然說對了

雷霆2-2步行者!誕生3個不可思議和1個不爭事實,蘇群果然說對了

浪子阿邴聊體育
2025-06-14 11:58:58
中國女籃最新大名單公布,宮魯明不留情面,李夢李月汝多主力缺席

中國女籃最新大名單公布,宮魯明不留情面,李夢李月汝多主力缺席

宗介說體育
2025-06-13 14:37:42
足球報:中國球員獨苗周通再戰世俱杯,首戰將碰拜仁

足球報:中國球員獨苗周通再戰世俱杯,首戰將碰拜仁

直播吧
2025-06-13 14:01:17
三分7中1+5失誤吞逆轉:哈利伯頓四戰僅1場20+ 得分能力再遭質疑

三分7中1+5失誤吞逆轉:哈利伯頓四戰僅1場20+ 得分能力再遭質疑

顏小白的籃球夢
2025-06-14 11:51:45
孫媳婦罵我老不死,我和老伴分居賣掉孫子的6棟別墅,孫子:奶奶高明

孫媳婦罵我老不死,我和老伴分居賣掉孫子的6棟別墅,孫子:奶奶高明

風起青萍之未
2025-06-12 17:39:42
伊朗伊斯蘭革命衛隊總司令:已為任何戰斗準備好升級版導彈

伊朗伊斯蘭革命衛隊總司令:已為任何戰斗準備好升級版導彈

財聯社
2025-06-12 00:08:14
導彈瞄準總統府,中國勸不住、美國攔不不住,中美同時發預警

導彈瞄準總統府,中國勸不住、美國攔不不住,中美同時發預警

不吃草de兔子
2025-06-09 19:27:15
伊朗被炸,美俄英法德選邊站,伊朗終于明白:最危險的敵人在身邊

伊朗被炸,美俄英法德選邊站,伊朗終于明白:最危險的敵人在身邊

行走的知識庫
2025-06-13 21:44:26
蔚來開始抓換電內鬼了

蔚來開始抓換電內鬼了

源Auto
2025-06-11 19:05:59
北京:王府井大街呈現莫斯科風情

北京:王府井大街呈現莫斯科風情

中國青年報
2025-06-12 21:17:15
北京老太癡呆30年,突然想起在地窖囤有茅臺,專家鑒定后倒吸涼氣

北京老太癡呆30年,突然想起在地窖囤有茅臺,專家鑒定后倒吸涼氣

秋風專欄
2025-05-21 15:18:45
F1加拿大:拉塞爾奇招出擊奪第一!維斯塔潘表現掙扎第1變第9

F1加拿大:拉塞爾奇招出擊奪第一!維斯塔潘表現掙扎第1變第9

體育妞世界
2025-06-14 08:10:50
獻血對身體有害嗎?中國工程院院士:適齡健康人群獻血400ml沒有危害

獻血對身體有害嗎?中國工程院院士:適齡健康人群獻血400ml沒有危害

極目新聞
2025-06-12 17:23:52
東京灣以南發生激烈對峙!815A艦不顧阻撓,強行加入華盛頓號編隊

東京灣以南發生激烈對峙!815A艦不顧阻撓,強行加入華盛頓號編隊

大道無形我有型
2025-06-10 21:38:09
羅帥宇事件剜了醫療界的心,決不能就此止步

羅帥宇事件剜了醫療界的心,決不能就此止步

Mr王的飯后茶
2025-06-13 09:04:12
一周打幾次110!上海老小區沖突頻發:出一樣的錢,憑什么搞“雙標”?法規出臺多年,如何破局

一周打幾次110!上海老小區沖突頻發:出一樣的錢,憑什么搞“雙標”?法規出臺多年,如何破局

上觀新聞
2025-06-13 16:53:01
2025-06-14 12:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10659文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

藝術
時尚
本地
親子
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

在時尚中國之夜,共赴榮耀東方時刻

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

親子要聞

寶寶害怕吃藥怎么辦?爸爸傳授的冷靜

軍事要聞

伊朗多名將領、核科學家遇襲身亡 身份披露

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 故城县| 张家界市| 临澧县| 东丰县| 虹口区| 天台县| 沙坪坝区| 罗田县| 游戏| 昆山市| 尤溪县| 安阳县| 象州县| 绵阳市| 南充市| 娄底市| 恩施市| 化州市| 泗阳县| 辽源市| 子长县| 聂拉木县| 桂东县| 中西区| 志丹县| 民权县| 木兰县| 双辽市| 华阴市| 西平县| 任丘市| 两当县| 祁阳县| 南投市| 梧州市| 承德县| 长顺县| 句容市| 扎鲁特旗| 延长县| 庐江县|