網易首頁 > 網易號 > 正文申請入駐

小明有幾個姐姐？通俗講講AI推理是什么，為啥最近這么火

2025-03-24 07:46:35　來源: AI深度研究員

上海舉報

分享至

（關注公眾號設為標，獲取AI深度洞察）

全文3,000字 | 閱讀約12 分鐘

想一想這個簡單的問題：小紅有兩個姐姐和一個兄弟。那么，她的兄弟小明有幾個姐姐呢？

停下來想一想...答案是什么？

你可能會在腦海中想象一個家庭：三個女孩和一個男孩。然后很快就明白，作為家里唯一的男孩，小明實際上有三個姐姐（包括小紅和她的兩個姐姐）。

看起來很簡單，對吧？但你剛才其實做了一件很厲害的事——推理！這不像記住"北京是中國首都"這樣的事實，而是通過已知信息思考出新的結論。

有趣的是，即使現在最先進的人工智能，如GPT-4，在遇到這類需要推理的問題時仍然會犯錯。研究者多次向最新版GPT-4提出這個問題，它卻總是錯誤地回答"小明有兩個姐姐"。

為什么看似簡單的問題對AI來說這么難？為什么最近各大科技公司都在拼命開發所謂的"推理AI"？這篇文章將用通俗易懂的語言，帶你了解AI推理的奧秘和它為何突然成為科技圈的焦點。。

雖然有些小技巧（如在問題后加上"讓我們一步一步思考"）可以幫助人工智能提高推理表現，但這些方法還遠遠不夠完善，不能保證它們像人類一樣穩定地進行有效推理。

大型推理模型

為了解決推理能力不足的問題，多家頂尖AI公司最近推出了一種新型系統，叫做"大型推理模型"（LRM）。這些模型專門接受了推理類任務的訓練。主要產品包括：OpenAI的o1和o3模型、Anthropic的Claude"擴展思維模式"、谷歌的Gemini 2.0 Flash Thinking實驗版，以及DeepSeek推出的R1模型。

當你向LRM提出像"小明有幾個姐姐"這類邏輯題時，它會生成"思維鏈條"——用自然語言一步步展示推理過程。例如，OpenAI的o1模型會這樣分析：

小紅有兩個姐姐，所以這個家庭里共有三個女孩（小紅和她的兩個姐姐）
她還有一個兄弟，名叫小明
所以這個家庭一共有四個孩子：三個女孩，一個男孩（小明）
對小明來說，小紅和她的兩個姐姐都是他的姐姐
因此，小明有三個姐姐

這種過程就像人在"自言自語"地思考。實際上，o1和其他LRM的訓練數據中包含了大量類似的"思維鏈條"示例。正是這種訓練方式，使它們在科學、數學、編程等難題上表現突出。據OpenAI介紹，o1模型在美國數學奧賽預選中能排進全國前500名，在物理、生物、化學題目的準確率上甚至超過了博士級科研人員。其他公司的LRM也取得了類似成績。

一些公司正把LRM作為商業AI助手的核心功能。比如，OpenAI已將最強大的LRM和配套的"深度研究"工具提供給每月支付200美元的高級用戶，據說還考慮推出每月收費高達2萬美元的"博士級"推理服務。

不過，也有學者對此持謹慎態度。他們質疑：這些模型真的在"思考"嗎？還是只是模仿人類推理的樣子？換句話說，這種"思維鏈條"訓練，究竟是讓模型真正學會了穩健、通用的推理能力，還是只是學會了在特定測試中看起來像會推理？關于這些模型的構建原理：LRM通常是在已預訓練好的"大語言模型"基礎上構建的，比如GPT-4o。以深度求索為例，他們使用自研的預訓練模型V3作為基礎。AI模型的命名確實常讓人摸不著頭腦。這些基礎模型通過學習海量人類文本，訓練目標是預測文本中的下一個詞或詞的一部分。

思維鏈條展示

基礎模型完成初步訓練后，還會進行"后訓練"，也就是進一步優化模型的能力。這個階段主要是讓模型學會如何生成完整的"思維鏈條"。

想象一下：普通語言模型（如GPT-4o）就像一個只會直接給答案的學生，而LRM則像一個會在草稿紙上寫下詳細解題步驟的學生。就像我們在解一道復雜的數學題時，會先在草稿紙上列出幾個步驟，再得出最終答案。

這些"思維鏈條"有時非常長，就像我們解決一個難題時可能要寫滿好幾頁草稿紙。由于AI的計算成本通常按文字量計算，這種方式的成本很高。

舉個生活例子：如果普通AI像是直接告訴你去北京最快的路線，那么LRM就像是一位導航軟件，它會在后臺計算多條路線，考慮各種因素（擁堵情況、路況、距離等），最后才推薦最優選擇，而用戶只看到最終建議。

為了訓練這種能力，LRM主要使用兩種方法：

1、監督學習：就像老師手把手教學生解題。比如請專家寫出解題步驟，然后訓練AI模仿這些步驟。這就像家長教孩子洗衣服時，會一步步示范：先分類、再加洗衣粉、設定溫度等。
2、強化學習：不直接告訴AI怎么做，而是通過獎勵機制引導它。這就像訓練寵物狗：它做對了就給零食獎勵，做錯了就不獎勵，久而久之它就明白該怎么做了。對AI來說，只有當它通過自己的推理得出正確答案時才會獲得"獎勵"。

有趣的是，DeepSeek證明僅用強化學習就能訓練出推理能力很強的模型。這就像不用專門教孩子怎么玩積木，只要在他搭出漂亮作品時給予表揚，孩子自己就能探索出各種技巧。

正是因為更多使用強化學習而非昂貴的監督學習，深度求索才能以較低成本開發自己的推理模型。這就像一家餐廳找到了既美味又經濟的食材替代品，既保證了菜品品質，又控制了成本。

AI真的會推理嗎？

在AI領域，專家們一直在討論一個核心問題：這些新型推理模型是真的在"思考"，還是只是在模仿人類的推理過程？有人稱o1是"第一個擁有通用推理能力的模型"，但也有不少人持保留態度。有些哲學家認為，這些模型的思維鏈條更像是一種"模仿秀"——它們只是在復制人類思考的表面形式，而不是真正擁有解決問題的能力。

我們可以打個比方：想象一個從未學過廚藝的人，只是通過觀看大量烹飪視頻，學會了模仿廚師的動作和語言。他可能會像專業廚師一樣說"我們先將食材切成丁"，"現在加入適量的鹽調味"，但這并不意味著他真正理解烹飪的原理。同樣，AI模型可能會生成看起來很合理的推理步驟，但它是否真正"理解"這些步驟呢？

首先，我們需要問："真正的推理"是什么？這就像問"什么是真正的駕駛技術"—有人依靠經驗和直覺，有人則嚴格遵循駕駛手冊的每一條規則。人類解決問題時會用到記憶、經驗法則、類比或邏輯推導等多種方法。

而這些AI模型的"推理"似乎變成了"寫出一段聽起來合理的解題過程"。這就像一個學生可能寫出很完美的解題步驟，卻不一定真正理解其中的原理。這些模型在標準考試中表現確實很好，但這些考試通常有標準答案。現實世界中的復雜問題，比如"如何應對氣候變化"或"如何建立太空基地"，往往沒有標準解法。此外，雖然這些模型的推理過程被稱為"人類可讀"，但這些語言化的"思考"是否真的反映了模型內部的實際計算過程？這就像汽車導航給你規劃路線—你看到的是簡潔的指示，而背后卻是復雜的計算過程。有研究發現，AI生成的"解釋"很多時候只是表象，并不代表它們實際的"思維"過程。

更值得警惕的是，這些模型使用的擬人化語言可能讓人錯誤地信任它們。它們會說"我在思考"，還會加入"嗯..."、"啊哈！"等模仿人類思維的表達。這就像一個銷售員穿著專業西裝、說著專業術語，就容易讓人相信他的建議，即使這些建議可能不完全正確。

評估這些模型的實際能力并不容易，因為大多數公司既不開放模型，也很少公布技術細節。這就像餐廳不告訴你菜品的完整配方和烹飪過程，你很難判斷食物的真實質量。

值得一提的是，DeepSeek采取了更開放的態度。他們不僅開源了R1模型的核心技術，還公布了詳細的訓練過程，并允許用戶完整查看模型的推理過程。這種開放態度將有助于推動相關研究的深入發展，就像一家餐廳公開自己的菜譜和烹飪過程，讓顧客能更全面地了解和評價他們的菜品。

星標公眾號，點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標

參考資料：https://www.science.org/doi/10.1126/science.adw5211

來源：官方媒體/網絡新聞

排版：Atlas

編輯：深思

主編: 圖靈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.