99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

strawberry單詞中一共有幾個 r ?去問你的DeepSeek,你會回來的

0
分享至

本文經授權轉載自夕小瑤科技說ID:xixiaoyaoQAQ

最近,我撞見了一個 DeepSeek 又“認真”又“擰巴”的怪異場景。

一切都從一個幼兒園級別的計數問題開始:

"Strawberry" 中有幾個字母'r'?

面對這個問題,DeepSeek 展現了它的“深度思考”。

首先一上來,它的策略是先檢查 Strawberry 拼寫是否正確,便開始逐個字母檢查,每個位置的字母它都能識別正確。

但是,這個時候,它開始第一次反思。


重新檢查一遍 Strawberry 的拼寫,然后它再次得出正確結論——“有 3 個 R”。

有趣的是,它竟然開始了第二次反思,懷疑數錯了位置。經過它的快速的確認后,它選擇了在兩個 R 還是三個 R 之間搖擺不定。


接下來,DeepSeek 徹底掉進了一個怪圈,反復去驗證 Strawberry 的拼寫,陷入了一種“驗證拼寫”->“懷疑結論”->“再驗證拼寫”->“再懷疑結論”的循環里了。

每一次檢查似乎都沒有給它帶來更強的信心,反而加劇了它的“選擇困難癥”。


中間它突然清醒,跳出了循環。再次認真地、一步一步地數。


但是,每當它得到 3 這個答案,它都會懷疑自己,好像 3 這個數字,它真的信不過。

再開始新一輪循環——


這次還是一樣,明明得到 3 的答案,心里還在想著 2個。

到這里還沒結束思考!deepseek 又開始了反思,反思再反思,在反思魔力轉圈圈。

此時,DeepSeek 就像一個過于謹慎的學生,考完試非要檢查八百遍答案。


明明,每次,都知道了 R 就在 3、8、9 位置上。

我眼冒金星,已經數不清它進行了多少輪的反思了。

以下是長圖警告(有人數得清它反思了多少輪嘛!!)


就好像AI被控制了一樣,必須完成多少輪反思才能結束。

反正我看中間的反思,沒有帶來新的信息和修正(因為它一開始就對了),都是重復、無用的檢查過程,反思變成了無效循環。

雖然,在經歷了漫長而“艱苦卓絕”的思考后,它給出了正確的答案:3。

但是看 deepseek 這個思考過程,它真的是正常的思考嗎?


在如此簡單的問題上,它過度使用了“反思”,而且,這種反思不總是有效的,反而顯得是不必要的“猶豫”。

接著,我又給它拋出了一個中文世界的經典難題——

“來到楊過曾經生活過的地方,小龍女動情的說:“我也想過過過兒過過的生活”

這句話有幾個“過”字

DeepSeek 的反應如出一轍。它先是正確地拆解、計數,得出答案:7。

然后,“0 幀起手”,光速進入反思模式,比男朋友認錯都快。


下面,似曾相識的推理過程開始了......

它重新檢查了一遍,還是 7 個。

接著,它開始糾結了,在 7 個和 8 個之間糾結。


這次糾結決斷,比上面草莓的題快。只經過了 3 次。


最后水靈靈地告訴我,有 8 個“過”字。


我直接懵掉。定睛一看它的推理過程,寫著 “1+1+1+2+2 = 8”?!

前面數對了每一部分的“過”字數量,最后一步簡單的加法居然算錯了!


“Strawberry”和“楊過”兩道題目類型一樣,而模型的推理表現也如出一轍。

過度反思。

它試圖模仿人類的驗證過程,但做得過度和無效

模型似乎被某種規則或模式“綁架”了,認為對于這類型的問題,必須得執行一套冗長、反復的驗證流程。

哪怕這個問題極其簡單,哪怕這個流程本身并不能提高準確率,甚至可能引入新的錯誤(比如那個離譜的加法)。

為什么 AI 會陷入這種“反思魔咒”?

回答這個問題之前,還有另一個問題——

AI 模型在輸出答案之前展示的“推理步驟”,真的是它們內部的思考過程嗎?

Anthropic 研究團隊把“這種反映真實過程的程度”,稱之為“忠實性”(Faithfulness)

前段時間 Anthropic 發表了一篇論文,專門研究了這個問題。Anthropic 是最注重 AI 安全的大模型公司之一,其創始人 Dario Amodei 曾因不滿 OpenAI 對安全的忽視而自立門戶,Claude 更是被《人工智能安全指數報告》(FLI AI Safety Index 2024)評為最高評級的模型。

所以這篇論文也是從 AI 安全的角度出發,研究推理大模型的“思考黑盒”。


論文標題:Reasoning Models Don’t Always Say What They Think

論文鏈接:https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf

機構:Anthropic 對齊團隊

研究人員設計了一種巧妙的方法來測試 CoT 的忠實性。他們給 AI 模型(Anthropic 自己的 Claude 3.7 Sonnet 和 DeepSeek R1 )做選擇題。


  • 有時只給普通問題;

  • 有時在問題中悄悄加入一個“提示”(hint),這個提示會指向某個特定答案(可能是正確或錯誤的)。

他們觀察:當模型因為這個“提示”而改變了最終答案時,它的 CoT(思考過程)中有沒有提到這個提示?

論文中有兩個神奇的發現:

1、CoT 經常不忠實:

在很多情況下,即使模型明顯是根據“提示”改變了答案,它的 CoT 里根本沒提這個提示。

雖然有時提到,但提到率很低(通常低于 20%),也就說模型會“偷偷地”利用了提示,卻沒有在“思考過程”中承認。

2、“獎勵作弊”時幾乎從不坦白:

比如,研究人員設計場景讓模型可以通過“作弊”(Reward Hacking,即利用規則漏洞獲得高分,即使答案錯誤)來獲得獎勵,模型 >99% 的情況下會作弊,但在其 CoT 中卻幾乎從不(<2% 的情況下)提及作弊行為,甚至它們會編造理由讓回答看起來合理。

這說明什么?

大模型的“說法”和“想法”并不總是一致。

所以,它展示的推理過程,并不代表它真實的思考決策過程。

另外,最近還有一篇剛放出不久的論文,觀點極其犀利。簡直就是要當前主流的 LRMs 潮流一鍋端。


論文標題:(How) Do Reasoning Models Reason?

論文鏈接:https://arxiv.org/pdf/2504.09762

關于這篇報告,最具批判性的部分也是這個問題——

“中間步驟”真的是 AI 的“思考過程”嗎?

人們很容易將 LRM 輸出的那些看起來像解題步驟的“中間詞元”(intermediate tokens)解讀為模型的“思考過程”或“內心獨白”。這份報告里強烈反對這種解讀。

為什么呢?

LLM 本就擅長模仿各種文本風格,模仿人類的“自言自語”或“草稿”自然也不在話下,比如出現的“哦”、“嗯”、“讓我再看一下”這些模仿人類思考的詞。

我上面第一道題目,讓 DeepSeek R1 數一數一共有幾個 R,這么簡單問題,它都能生成好幾頁的“內心戲”,真的去驗證它的邏輯,難度很大。即使“推導痕跡”錯了,模型有時候也能“歪打正著”地引出正確的最終答案。

所以作者認為,難以驗證,且極具誤導。不如去提升最終效果,即使中間輸出的是人類理解不了的外星文

那么,為什么 AI 會陷入這種“反思魔咒”?

RLHF 能載舟,也是另一種“詛咒

現在推理模型都會經歷 RLHF 階段,根據人類或自動評估來獎勵或懲罰模型的輸出 。

如果人類標注者傾向于給那些看起來“思考周密”、“檢查仔細”(即使冗余)的回答打高分,模型就會學會在回答中插入大量驗證步驟,以最大化獎勵,而不管這些步驟是否真的必要或有效。

導致模型追求的不是“正確”,而是“看起來正確”或“看起來努力去正確”的過程。

雖然模仿了深思熟慮的_形式_,卻缺乏其_效率_和_實質_。

Test-time Inference Scaling 的內部化失敗

為了讓模型在測試時“想得更久一點”,生成多個候選答案,然后選擇最佳。

推理模型的這種行為,就是這種思想的一種內部拙劣的嘗試。比如,它在內部生成了不同的“想法”(比如 2 個 r 還是 3 個 r,7 個過還是 8 個過)。

但是模型內部的驗證器機制存在缺陷,沒有辦法走出有效判斷和收斂,反而陷入了自我矛盾和循環里。

基礎能力的脆弱性在復雜流程中暴露

楊過那個例子,1+1+1+2+2=8,這么簡單的加法錯誤,暴露了即使模型在模仿復雜的推理過程,基礎的計算或邏輯能力也可能非常脆弱!

這種“過度反思 + 強制驗證”帶來的問題便是:

效率低下 + 過程迷惑 + 引入錯誤

深度推理模型的這種的“表演式”思考,何嘗不是在消耗我們對智能的信任,也在誤導我們對AI能力的評估。

那怎么對待AI 這種“擰巴”的認真?

AI 的“思考”過程和人類注定不同,不要被它長篇大論的“思考過程”迷惑,過程長不一定可靠,可能只是在執行一個被過度訓練的“表演程序”,尤其要注意其中的關鍵計算或邏輯節點。或者我的辦法是告訴它“不需要解釋”。

我們喜歡看到推理的樣子,但并未真正驗證推理的實質。

在 AI 的世界里,“看起來像”與“實際是”之間,可能還隔著很遠的距離。

作者:夕小瑤編輯部

本文經授權轉載自夕小瑤科技說ID:xixiaoyaoQAQ),原標題為《離譜!DeepSeek數個字母,竟要“反思內耗”八百遍?》如需二次轉載請聯系原作者。歡迎轉發到朋友圈。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
谷醫生可能要有大麻煩,怒撕原配歪打正著, 她的家世也不簡單

谷醫生可能要有大麻煩,怒撕原配歪打正著, 她的家世也不簡單

魔都姐姐雜談
2025-05-01 13:28:39
女子扔鼻涕紙后續:身份被扒,同事都知道工作堪憂!華東師大淪陷

女子扔鼻涕紙后續:身份被扒,同事都知道工作堪憂!華東師大淪陷

阿傖說事
2025-05-01 22:29:36
大量少年兒童失蹤和器官移植合法化脫不了干系,應該引起足夠重視

大量少年兒童失蹤和器官移植合法化脫不了干系,應該引起足夠重視

逍遙論經
2025-04-30 10:10:25
跑步才是當代年輕人真正的賢者時間

跑步才是當代年輕人真正的賢者時間

虎嗅APP
2025-04-30 22:35:16
打的人情世故?趙心童第一階段4-4奧沙利文,火箭多次離奇失誤

打的人情世故?趙心童第一階段4-4奧沙利文,火箭多次離奇失誤

真理是我親戚
2025-05-01 22:48:55
4月30日晚,滬寧高速擁堵不堪!網友:建議沿長江修一條高速公路

4月30日晚,滬寧高速擁堵不堪!網友:建議沿長江修一條高速公路

火山詩話
2025-05-01 09:50:30
定海神針!胡金秋23中17狂轟全場最高36分10板 正負值+19

定海神針!胡金秋23中17狂轟全場最高36分10板 正負值+19

直播吧
2025-05-01 21:41:29
韓德君淚灑直播間:即將38歲透露將退役 18年一人一城率隊奪4冠

韓德君淚灑直播間:即將38歲透露將退役 18年一人一城率隊奪4冠

醉臥浮生
2025-05-01 23:20:27
美定調病毒起源于實驗室后,時隔12天,中方發布溯源重磅白皮書

美定調病毒起源于實驗室后,時隔12天,中方發布溯源重磅白皮書

南宗歷史
2025-04-30 18:47:05
南京三甲醫院院長一家三口被砍,行兇過程被揭露,知情人曝內情

南京三甲醫院院長一家三口被砍,行兇過程被揭露,知情人曝內情

天天熱點見聞
2025-05-01 13:30:22
警惕國內的某些“俄粉”,他們篡改歷史、顛倒黑白、無恥至極

警惕國內的某些“俄粉”,他們篡改歷史、顛倒黑白、無恥至極

玖奌雜貨鋪
2025-05-01 21:55:31
編外人員“清退”開始,輔警、城管協管、護士、教師或將面臨失業

編外人員“清退”開始,輔警、城管協管、護士、教師或將面臨失業

華人星光
2025-04-30 13:05:33
曝央企總經理出軌多人:在女下屬家中偷情20余次,出差嫖娼被捉奸

曝央企總經理出軌多人:在女下屬家中偷情20余次,出差嫖娼被捉奸

博士觀察
2025-05-01 22:18:09
SU7 Ultra限制最大馬力,小米汽車回應:確保新手安全

SU7 Ultra限制最大馬力,小米汽車回應:確保新手安全

FM93浙江交通之聲
2025-05-01 17:36:17
印度國會議員大放厥詞:到2025年底,巴基斯坦這個國家將不復存在

印度國會議員大放厥詞:到2025年底,巴基斯坦這個國家將不復存在

凱撒談兵
2025-04-30 06:36:16
看完董小姐的進階過程,我才明白她爸媽為啥允許她給肖飛未婚懷孕

看完董小姐的進階過程,我才明白她爸媽為啥允許她給肖飛未婚懷孕

東方不敗然多多
2025-05-01 16:23:59
“鬼城”又添一座?房價從“1.2萬元暴跌到600元”,還是無人問津

“鬼城”又添一座?房價從“1.2萬元暴跌到600元”,還是無人問津

巢客HOME
2024-11-22 06:15:02
美烏協議已簽,普京和澤連斯基的處境變了

美烏協議已簽,普京和澤連斯基的處境變了

千里持劍
2025-05-01 09:13:09
美烏礦產協議暴露哪些戰略企圖?如何影響俄烏局勢?專家分析→

美烏礦產協議暴露哪些戰略企圖?如何影響俄烏局勢?專家分析→

國際在線
2025-05-01 17:35:58
白宮證實:馬斯克被排擠出局

白宮證實:馬斯克被排擠出局

魯中晨報
2025-05-01 10:44:11
2025-05-02 03:20:49
果殼 incentive-icons
果殼
科技有意思
25907文章數 4148729關注度
往期回顧 全部

教育要聞

用錢堆出來的教育,成不了孩子的未來

頭條要聞

日本急著跟特朗普簽協議:中國正抓緊機會說美有風險

頭條要聞

日本急著跟特朗普簽協議:中國正抓緊機會說美有風險

體育要聞

無敵17歲vs飛翔泥頭車,歐冠史詩對決

娛樂要聞

梅婷慶50歲生日,兒女和她一起許愿

財經要聞

知情人士:美方正多渠道主動與中方接觸

科技要聞

DeepSeek新數學模型刷爆記錄

汽車要聞

預售32.98萬起 魏牌高山家族將于5月13日上市

態度原創

數碼
親子
藝術
本地
公開課

數碼要聞

官方網頁確認多個 AMD 處理器代號,Gorgon Point 含三種變體

親子要聞

當媽必修課:用愛陪伴,化解孩子的小情緒!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 韶关市| 西安市| 囊谦县| 永川市| 汶上县| 阳江市| 开江县| 从江县| 金沙县| 名山县| 北海市| 叙永县| 宁陵县| 井冈山市| 朔州市| 七台河市| 浑源县| 交城县| 海原县| 汕尾市| 胶州市| 沁水县| 大英县| 昭觉县| 永福县| 寻乌县| 香港| 永春县| 扶余县| 皮山县| 宣汉县| 通河县| 金平| 桑植县| 巫溪县| 泰顺县| 轮台县| 余江县| 白玉县| 伊通| 江陵县|