有人直接挑明，AI在假裝思考…

2025-02-28 21:41:59　來源: 世界科學(xué)

上海舉報

分享至

　　設(shè)置星標關(guān)注，從此你的世界多點科學(xué)~

　　人工智能世界發(fā)展得太快了，AI產(chǎn)品迅速更新迭代，令人眼花繚亂。你看，OpenAI發(fā)布o1模型預(yù)覽版沒多久，DeepSeek就推出了R1-Lite的預(yù)覽版，然后OpenAI又推出o1正式版以及o3模型，DeepSeek方面則展示V3，官宣R1……

　　AI大佬現(xiàn)在聲稱他們的模型具備真正的推理能力(reasoning)——就像人類思考問題答案時所運用的那種能力。

　　真是這樣嗎？

　　這個問題可謂干系重大。因為它的答案將決定每一個人是否應(yīng)當以及應(yīng)當怎樣向人工智能尋求幫助。

　　當下最先進的“推理模型”，比如o1和R1，它們針對用戶提問的回答不像ChatGPT那樣只求盡快把內(nèi)容交代清楚，它們被設(shè)計出了“思考”的過程：不急著答話，先把大問題分解成小問題，并嘗試逐步解決。業(yè)界稱之為“思維鏈推理”。

　　這些推理模型確實答出了名堂。它們能搞定邏輯難題，在數(shù)學(xué)測試里取得優(yōu)異成績，第一次嘗試即編出完美代碼。然而，它們也可能在解決非常簡單的問題時失敗。AI專家們對此的解釋并不統(tǒng)一。

　　懷疑論者認為，這種現(xiàn)象表明所謂的推理模型壓根就不是在真推理。而相信者堅持認為，模型確實能推理，雖然現(xiàn)在可能不如人類推理得靈活，但它正朝這個方向發(fā)展。

　　誰說得對？

　　什么是推理？

　　OpenAI等人工智能企業(yè)用推理一詞來表達他們的模型可將問題化整為零，逐步解決，給出令提問者滿意的解決方案。

　　但這種對于推理的定義比大多數(shù)人理解的狹隘很多——盡管科學(xué)界也還在探索人類推理的本質(zhì)，還在嘗試理解人腦中的推理以何機制運作。

　　另一個基本的共識則是，推理可以分出很多種類型。

　　有演繹推理(deductive reasoning)，即從一般性的前提出發(fā)，通過推導(dǎo)或者說演繹，得出個別性的結(jié)論。例如蘇格拉底三段論：從“所有哺乳動物都是動物”和“貓是哺乳動物”這兩個一般性前提出發(fā)，可推導(dǎo)出“貓是動物”這一個別性結(jié)論。

　　還有歸納推理(inductive reasoning)，即從個別到一般的推理。例如，諺語“朝起紅霞晚落雨，晚起紅霞曬死魚”就是歸納推理得到的結(jié)論。

　　此外，還有類比推理、因果推理、常識推理……

　　假如有人給你出了道數(shù)學(xué)難題，你通過一步步拆分與思考所得到的結(jié)果顯然好于脫口而出的答案。因此，這個深思熟慮的過程，或者說“思維鏈推理”過程，非常重要，它可能是解決任何難題都必需的。不過這還不是推理的全部。

　　美國圣菲研究所教授梅蘭妮·米切爾 (Melanie Mitchell) 曾與同事合著一篇關(guān)于AI推理能力的論文并指出：人類的推理能力有一個關(guān)鍵特征，那就是“從有限數(shù)據(jù)或經(jīng)驗中找出規(guī)律或模式，并將其應(yīng)用于前所未見的新情況”。即使是幼童也善于從少量實例中學(xué)到抽象的規(guī)律。

　　人工智能可以嗎？

　　許多爭論都圍繞此疑問展開。懷疑論者對AI的歸納和泛化能力持懷疑態(tài)度，認為一定有其他機制驅(qū)動AI做出看似推理的行為。

　　懷疑論者的理由和觀點

　　當2024年9月OpenAI發(fā)布o1模型預(yù)覽版時，英國愛丁堡大學(xué)的技術(shù)哲學(xué)家香農(nóng)·瓦洛爾 (Shannon Vallor) 表示：“它 (的推理) 是一種元擬態(tài)。”

　　像ChatGPT那樣的舊模型接受到訓(xùn)練數(shù)據(jù)后，會模仿其中由人類書寫的語句，以o1為代表的新模型則模仿了人類書寫這些語句的過程。換言之，新模型依然只做模仿，而非真正的推理。o1很容易讓人覺得它是推理者，畢竟，它的訓(xùn)練數(shù)據(jù)就充滿推理的案例，從醫(yī)生分析癥狀以診斷疾病，到法官評估證據(jù)以作出判決。

　　另一方面，OpenAI構(gòu)建o1模型時，做了些相較ChatGPT模型的改動，但并未顛覆原有架構(gòu)，而前輩ChatGPT曾就某些簡單問題一本正經(jīng)地胡說八道，例如后文中會介紹的“人、羊、船過河”問題。

　　瓦洛爾發(fā)問：為什么大家會覺得o1正在創(chuàng)造神奇？尤其考慮到很簡單的發(fā)問也可能破它防。“在我看來，它胡言亂語的情況足以證明它根本沒在推理。”

　　o3模型作為o1的升級版，其性能表現(xiàn)令米切爾驚訝，而同樣令人驚訝的是它解決問題所需的計算量。當然，我們不知道它用這些計算做了什么，因為OpenAI不公開黑箱里的故事。

　　米切爾表示，如果企業(yè)不提高透明度，大家就無法確定模型是否真如他們聲稱的，能將一個大問題分解為幾個小環(huán)節(jié)，以此得到更理想答案。

　　她援引了論文《讓我們一點一點思考》(Let’s Think Dot by Dot)。該文章作者并未讓AI模型分解問題，而只是要求它生成毫無意義的點(dots)，或稱“填充標記”(filler tokens)；事實證明，只要有額外的標記，模型就可擁有更多計算能力，從而以此更好地解決問題。這意味著，當模型生成中間步驟——無論是“讓我們一步一步思考這個問題”這樣的短語，還是單純的“....”——此類步驟不一定代表它在進行類似人類的推理。

　　米切爾告訴我：“我認為AI做的很多事情更像是一堆啟發(fā)式 (heuristics) ，而非推理模型。”

　　啟發(fā)式方法是思維捷徑，通常有助于你猜出問題答案，但它不是真正的思考。

　　這里舉個經(jīng)典案例：研究人員訓(xùn)練了一個AI視覺模型用以分析皮膚癌照片。乍看之下，AI似乎真在判斷一個色素痣是否惡性；事實卻是，訓(xùn)練數(shù)據(jù)里的惡性痣照片通常包含標尺，模型只是學(xué)會了用標尺的存在作為判斷惡性與否的啟發(fā)式方法。

　　懷疑派認為，最先進的AI模型可能正做著類似的事情：它們看似“推理”著數(shù)學(xué)問題，實則只依靠記憶信息和啟發(fā)式方法。

　　相信AI真能推理的專家怎么看

　　Redwood Research是一家致力于降低高級人工智能風(fēng)險的非營利組織，其首席科學(xué)家瑞安·格林布拉特(Ryan Greenblatt)認為，AI模型毫無疑問在進行某種形式的推理。

　　“它們沒法以人類的水平去將個別泛化為一般，它們比人類更依賴記憶和知識，但它們的確在推理，不能說它們完全不具備歸納泛化的能力。”

　　畢竟，這些模型已經(jīng)能解決超出其訓(xùn)練示例的難題。

　　前面提到的人羊船過河問題曾引來許多懷疑論者嘲笑。詳情如下圖所示。

　　用戶提問：一個男人和一只山羊在河的一邊。他們有一條船。他們該怎樣過河？ChatGPT答道：男人先帶山羊過河，而把船留在原處。然后，男人獨自坐船回。他把山羊留在對岸，并坐船回原來的那一邊。最后，他帶著卷心菜過河。

　　為何會出現(xiàn)如此離譜的答案？格林布拉特認為，是模型跑偏了，把提示語當作一道古老的過河謎題了。

　　過河謎題的經(jīng)典版本之一是這樣的：一個農(nóng)民帶著一只狼、一只山羊和一棵卷心菜，必須乘船過河。船一次只能載農(nóng)夫和一件貨物。如果把狼羊菜放一起，狼會吃羊，羊會吃菜。由此可知，解題者需開動腦筋，制定不會造成任何貨物被吃掉的過河策略。

　　格林布拉特推測，AI跑偏的原因是他曾接受大量關(guān)于過河謎題的訓(xùn)練，并已對此輕車熟路，同時懷有強烈沖動，傾向于把看似謎題的提示語當謎題來處理。

　　實際上人類也有這種傾向。假設(shè)你花了一個月鉆研色彩理論，從互補色學(xué)到不同色調(diào)的心理效應(yīng)，沉浸于文藝復(fù)興時期繪畫中某些顏料的歷史意義……突然，有人考你：“請問，在這幅風(fēng)景畫中，為什么創(chuàng)作者要把天空畫成藍色？”我們有充分理由揣測，你將被引誘寫出一個跑偏了的復(fù)雜答案：藍色代表神圣的天堂；選用這種色度表明畫作完成于清晨，象征著重生……

　　非營利組織Open Philanthropy的高級分析師阿婕雅·科特拉 (Ajeya Cotra) 致力于研究人工智能風(fēng)險。她并不否認懷疑派所謂“AI模型推理是一種元擬態(tài)”的觀點，但也指出這種元擬態(tài)未必是推理的全部。

　　不妨用大學(xué)物理課來作類比。

　　課堂里有不同類型的學(xué)生。有一個徹頭徹尾的作弊者，做題永遠開卷找答案；另一個是超級天才，就像愛因斯坦，對物理的理解是如此富有直覺性且深刻，根本不需要死記硬背，因為能飛快推導(dǎo)出物理公式；其余大多數(shù)學(xué)生都屬于普通人，他們記住了該記的25個公式，需要努力思考在哪種情況下應(yīng)用哪個公式。

　　在科特拉看來，AI模型就像那大多數(shù)學(xué)生，需要將記憶與推理結(jié)合。“它們是不太聰明但很勤奮的學(xué)生，不僅記住了該記的25個公式，還額外記了500個公式，包括一些針對古怪情景的內(nèi)容。”它們將大量記憶與少許推理結(jié)合——推理自己要用哪道公式解決問題。

　　總而言之，AI既非純粹的推理者，也不是只能記和背。

　　“它介于兩者之間。我認為人們之所以對此感到困惑，是因為他們想非黑即白地給它歸類，想判定它是純粹的記憶者或真正的深度推理者。但事實上，推理有一個深度范圍。”

　　“鋸齒狀智能”

　　研究人員想了個很有意思術(shù)語來描述AI推理模式，即“鋸齒狀智能” (jagged intelligence) 。它指的是一個奇怪的事實，正如計算機科學(xué)家安德烈·卡帕西 (Andrej Karpathy) 所解釋的，最先進的AI模型“既可以執(zhí)行震撼人心的任務(wù)，例如解答數(shù)學(xué)難題，同時又可能被愚蠢問題帶溝里。”

　　如果人類的智能像一朵邊緣圓潤的云，那么人工智能這朵云的邊緣就是鋸齒狀的，有峰有谷的。對人類而言，解決問題的許多能力高度相關(guān)；但AI可能在A任務(wù)上表現(xiàn)驚人，卻對B任務(wù)束手無策，而A和B在我們看來似乎沒啥區(qū)別。

　　當然，這種圓潤和鋸齒是相對而言的。當人類驚訝于AI時而天才時而傻瓜，有沒有可能，以AI視角看，人類思想家們在下一個標記預(yù)測 (NTP) 方面的能力也太差了吧？

　　我們對人工智能的最恰當?shù)睦斫饣蛟S不在于它“比人類更聰明”還是“比人類更蠢”，而在“與人類不同”。

　　科特拉預(yù)測，人工智能遲早會強大到可具備所有人類的智能。“當AI系統(tǒng)在所有方面都強于人類專家時，會出現(xiàn)哪些風(fēng)險？我總在展望那個時刻并為此做好準備。”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.