99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

小明有幾個姐姐?通俗講講AI推理是什么,為啥最近這么火

0
分享至

(關注公眾號設為標,獲取AI深度洞察)

全文3,000字 | 閱讀約12 分鐘



想一想這個簡單的問題:小紅有兩個姐姐和一個兄弟。那么,她的兄弟小明有幾個姐姐呢?

停下來想一想...答案是什么?

你可能會在腦海中想象一個家庭:三個女孩和一個男孩。然后很快就明白,作為家里唯一的男孩,小明實際上有三個姐姐(包括小紅和她的兩個姐姐)。

看起來很簡單,對吧?但你剛才其實做了一件很厲害的事——推理!這不像記住"北京是中國首都"這樣的事實,而是通過已知信息思考出新的結論。

有趣的是,即使現在最先進的人工智能,如GPT-4,在遇到這類需要推理的問題時仍然會犯錯。研究者多次向最新版GPT-4提出這個問題,它卻總是錯誤地回答"小明有兩個姐姐"。

為什么看似簡單的問題對AI來說這么難?為什么最近各大科技公司都在拼命開發所謂的"推理AI"?這篇文章將用通俗易懂的語言,帶你了解AI推理的奧秘和它為何突然成為科技圈的焦點。。

雖然有些小技巧(如在問題后加上"讓我們一步一步思考")可以幫助人工智能提高推理表現,但這些方法還遠遠不夠完善,不能保證它們像人類一樣穩定地進行有效推理。

大型推理模型

為了解決推理能力不足的問題,多家頂尖AI公司最近推出了一種新型系統,叫做"大型推理模型"(LRM)。這些模型專門接受了推理類任務的訓練。主要產品包括:OpenAI的o1和o3模型、Anthropic的Claude"擴展思維模式"、谷歌的Gemini 2.0 Flash Thinking實驗版,以及DeepSeek推出的R1模型。

當你向LRM提出像"小明有幾個姐姐"這類邏輯題時,它會生成"思維鏈條"——用自然語言一步步展示推理過程。例如,OpenAI的o1模型會這樣分析:

  • 小紅有兩個姐姐,所以這個家庭里共有三個女孩(小紅和她的兩個姐姐)

  • 她還有一個兄弟,名叫小明

  • 所以這個家庭一共有四個孩子:三個女孩,一個男孩(小明)

  • 對小明來說,小紅和她的兩個姐姐都是他的姐姐

  • 因此,小明有三個姐姐

這種過程就像人在"自言自語"地思考。實際上,o1和其他LRM的訓練數據中包含了大量類似的"思維鏈條"示例。正是這種訓練方式,使它們在科學、數學、編程等難題上表現突出。據OpenAI介紹,o1模型在美國數學奧賽預選中能排進全國前500名,在物理、生物、化學題目的準確率上甚至超過了博士級科研人員。其他公司的LRM也取得了類似成績。

一些公司正把LRM作為商業AI助手的核心功能。比如,OpenAI已將最強大的LRM和配套的"深度研究"工具提供給每月支付200美元的高級用戶,據說還考慮推出每月收費高達2萬美元的"博士級"推理服務。

不過,也有學者對此持謹慎態度。他們質疑:這些模型真的在"思考"嗎?還是只是模仿人類推理的樣子?換句話說,這種"思維鏈條"訓練,究竟是讓模型真正學會了穩健、通用的推理能力,還是只是學會了在特定測試中看起來像會推理? 關于這些模型的構建原理:LRM通常是在已預訓練好的"大語言模型"基礎上構建的,比如GPT-4o。以深度求索為例,他們使用自研的預訓練模型V3作為基礎。AI模型的命名確實常讓人摸不著頭腦。這些基礎模型通過學習海量人類文本,訓練目標是預測文本中的下一個詞或詞的一部分。

思維鏈條展示

基礎模型完成初步訓練后,還會進行"后訓練",也就是進一步優化模型的能力。這個階段主要是讓模型學會如何生成完整的"思維鏈條"。

想象一下:普通語言模型(如GPT-4o)就像一個只會直接給答案的學生,而LRM則像一個會在草稿紙上寫下詳細解題步驟的學生。就像我們在解一道復雜的數學題時,會先在草稿紙上列出幾個步驟,再得出最終答案。

這些"思維鏈條"有時非常長,就像我們解決一個難題時可能要寫滿好幾頁草稿紙。由于AI的計算成本通常按文字量計算,這種方式的成本很高。

舉個生活例子:如果普通AI像是直接告訴你去北京最快的路線,那么LRM就像是一位導航軟件,它會在后臺計算多條路線,考慮各種因素(擁堵情況、路況、距離等),最后才推薦最優選擇,而用戶只看到最終建議。

為了訓練這種能力,LRM主要使用兩種方法:

  • 1、監督學習:就像老師手把手教學生解題。比如請專家寫出解題步驟,然后訓練AI模仿這些步驟。這就像家長教孩子洗衣服時,會一步步示范:先分類、再加洗衣粉、設定溫度等。

  • 2、強化學習:不直接告訴AI怎么做,而是通過獎勵機制引導它。這就像訓練寵物狗:它做對了就給零食獎勵,做錯了就不獎勵,久而久之它就明白該怎么做了。對AI來說,只有當它通過自己的推理得出正確答案時才會獲得"獎勵"。

有趣的是,DeepSeek證明僅用強化學習就能訓練出推理能力很強的模型。這就像不用專門教孩子怎么玩積木,只要在他搭出漂亮作品時給予表揚,孩子自己就能探索出各種技巧。

正是因為更多使用強化學習而非昂貴的監督學習,深度求索才能以較低成本開發自己的推理模型。這就像一家餐廳找到了既美味又經濟的食材替代品,既保證了菜品品質,又控制了成本。

AI真的會推理嗎?

在AI領域,專家們一直在討論一個核心問題:這些新型推理模型是真的在"思考",還是只是在模仿人類的推理過程?有人稱o1是"第一個擁有通用推理能力的模型",但也有不少人持保留態度。有些哲學家認為,這些模型的思維鏈條更像是一種"模仿秀"——它們只是在復制人類思考的表面形式,而不是真正擁有解決問題的能力。

我們可以打個比方:想象一個從未學過廚藝的人,只是通過觀看大量烹飪視頻,學會了模仿廚師的動作和語言。他可能會像專業廚師一樣說"我們先將食材切成丁","現在加入適量的鹽調味",但這并不意味著他真正理解烹飪的原理。同樣,AI模型可能會生成看起來很合理的推理步驟,但它是否真正"理解"這些步驟呢?

首先,我們需要問:"真正的推理"是什么?這就像問"什么是真正的駕駛技術"—有人依靠經驗和直覺,有人則嚴格遵循駕駛手冊的每一條規則。人類解決問題時會用到記憶、經驗法則、類比或邏輯推導等多種方法。

而這些AI模型的"推理"似乎變成了"寫出一段聽起來合理的解題過程"。這就像一個學生可能寫出很完美的解題步驟,卻不一定真正理解其中的原理。這些模型在標準考試中表現確實很好,但這些考試通常有標準答案。現實世界中的復雜問題,比如"如何應對氣候變化"或"如何建立太空基地",往往沒有標準解法。 此外,雖然這些模型的推理過程被稱為"人類可讀",但這些語言化的"思考"是否真的反映了模型內部的實際計算過程?這就像汽車導航給你規劃路線—你看到的是簡潔的指示,而背后卻是復雜的計算過程。有研究發現,AI生成的"解釋"很多時候只是表象,并不代表它們實際的"思維"過程。

更值得警惕的是,這些模型使用的擬人化語言可能讓人錯誤地信任它們。它們會說"我在思考",還會加入"嗯..."、"啊哈!"等模仿人類思維的表達。這就像一個銷售員穿著專業西裝、說著專業術語,就容易讓人相信他的建議,即使這些建議可能不完全正確。

評估這些模型的實際能力并不容易,因為大多數公司既不開放模型,也很少公布技術細節。這就像餐廳不告訴你菜品的完整配方和烹飪過程,你很難判斷食物的真實質量。

值得一提的是,DeepSeek采取了更開放的態度。他們不僅開源了R1模型的核心技術,還公布了詳細的訓練過程,并允許用戶完整查看模型的推理過程。這種開放態度將有助于推動相關研究的深入發展,就像一家餐廳公開自己的菜譜和烹飪過程,讓顧客能更全面地了解和評價他們的菜品。

星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標

參考資料:https://www.science.org/doi/10.1126/science.adw5211

來源:官方媒體/網絡新聞

排版:Atlas

編輯:深思

主編: 圖靈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
重磅!正部級畢井泉被查

重磅!正部級畢井泉被查

新京報政事兒
2025-05-29 20:25:03
被中國打疼了,特朗普亂了分寸?先把和中國的承諾兌現了再說

被中國打疼了,特朗普亂了分寸?先把和中國的承諾兌現了再說

關山快訊
2025-05-30 01:45:03
長安汽車朱華榮談“車圈出現恒大”:不超過兩年,行業會回到比較良性的價值競爭態勢

長安汽車朱華榮談“車圈出現恒大”:不超過兩年,行業會回到比較良性的價值競爭態勢

澎湃新聞
2025-05-27 22:24:28
《封神2》被封了?半年不上線,觀眾集體憤怒

《封神2》被封了?半年不上線,觀眾集體憤怒

影視高原說
2025-05-27 11:47:31
福建高考狀元李丞汐:669分被北大錄取,放棄百萬年薪只為當明星

福建高考狀元李丞汐:669分被北大錄取,放棄百萬年薪只為當明星

楊哥歷史
2025-05-29 10:01:09
皆大歡喜,廣東省實奪得耐高冠軍后,隊內五名畢業生均有好去向

皆大歡喜,廣東省實奪得耐高冠軍后,隊內五名畢業生均有好去向

小濤體育
2025-05-28 22:07:55
中國這則消息,讓俄羅斯心態復雜!

中國這則消息,讓俄羅斯心態復雜!

環球策論
2025-05-28 23:56:35
莫言:如果你混到沒人找你吃飯,連電話也沒幾個,你不是人緣變差

莫言:如果你混到沒人找你吃飯,連電話也沒幾個,你不是人緣變差

詩詞中國
2025-05-11 15:12:34
馮小剛《向陽·花》香港票房僅6108元,《碟中諜8》蟬聯日冠

馮小剛《向陽·花》香港票房僅6108元,《碟中諜8》蟬聯日冠

千信齊飛
2025-05-29 15:49:21
深感悲痛!網傳周口一老師非正常死亡,網友發文悼念稱是位好老師

深感悲痛!網傳周口一老師非正常死亡,網友發文悼念稱是位好老師

火山詩話
2025-05-29 15:01:10
“新疆棉”事件5年后,始作俑者已經改名,如今丑態百出讓人厭惡

“新疆棉”事件5年后,始作俑者已經改名,如今丑態百出讓人厭惡

農村的立福
2025-05-29 11:25:29
戈貝爾本賽季場均12分10.9板1.4帽 20年簽下的兩億合同今夏結束

戈貝爾本賽季場均12分10.9板1.4帽 20年簽下的兩億合同今夏結束

直播吧
2025-05-29 13:43:07
DOGE效應顯現?華盛頓等“深層政府”三州持續失業救濟金申請創四年來新高

DOGE效應顯現?華盛頓等“深層政府”三州持續失業救濟金申請創四年來新高

華爾街見聞官方
2025-05-29 22:00:44
龍哥三天打爆一個組織,俾路支部分首領全部下線

龍哥三天打爆一個組織,俾路支部分首領全部下線

荷蘭豆愛健康
2025-05-30 01:46:31
養老金二次改革勢在必行,社會上民憤最大的問題是什么?

養老金二次改革勢在必行,社會上民憤最大的問題是什么?

二月侃事
2025-05-26 13:56:54
為什么科學家認為,就算是超光速飛行,也無法到達宇宙邊緣?

為什么科學家認為,就算是超光速飛行,也無法到達宇宙邊緣?

觀察宇宙
2025-05-27 19:13:12
雷霆你太狠了,17勇士保持了8年的NBA第一紀錄,被你打破了

雷霆你太狠了,17勇士保持了8年的NBA第一紀錄,被你打破了

大西體育
2025-05-29 23:40:21
醫生調查發現:男性若長期不飲酒,用不了多久,身體或有4大變化

醫生調查發現:男性若長期不飲酒,用不了多久,身體或有4大變化

小俎娛樂
2025-03-22 16:17:17
黑獨山不黑了?青海黑獨山疑遭游客“撿石褪黑”,景區:山腳確實沒以前黑了

黑獨山不黑了?青海黑獨山疑遭游客“撿石褪黑”,景區:山腳確實沒以前黑了

上游新聞
2025-05-29 09:17:05
一根油條42元!豬肉婆高價菜引爭議,網友:上海順德預制菜天花板

一根油條42元!豬肉婆高價菜引爭議,網友:上海順德預制菜天花板

品牌觀察官
2025-05-26 20:30:59
2025-05-30 03:11:00
AI深度研究員 incentive-icons
AI深度研究員
一個專注于人工智能(AI)前沿技術、理論研究和實際應用的自媒體
182文章數 132關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

首搭鴻蒙座艙5 嵐圖FREE+將于6月預售

態度原創

本地
親子
時尚
教育
公開課

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

親子要聞

那個被截肢的1歲寶寶,本可以避免這場悲劇

這些才是適合夏天的打扮!色彩不沉悶、適當露膚,輕盈又舒適

教育要聞

題目的意思很簡單,但是做起來比較難

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 民县| 东安县| 西林县| 阆中市| 山阴县| 永济市| 安阳市| 鄂托克旗| 诸暨市| 远安县| 东台市| 桃江县| 台中县| 河南省| 习水县| 观塘区| 吴桥县| 南靖县| 阿坝县| 泰州市| 鹤山市| 高陵县| 乐都县| 高雄市| 张家川| 尼木县| 罗城| 高清| 齐河县| 罗源县| 含山县| 定结县| 章丘市| 望奎县| 西安市| 江永县| 吴桥县| 商洛市| 镇康县| 洛阳市| 灵石县|