99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

75年后,圖靈測試終被GPT-4.5破解!73%人類被騙過,徹底輸給AI

0
分享至


文章轉載于新智元

什么?AI竟然通過了標準的三方圖靈測試,而且還是拿出了實打實證據的那種!

來自加州大學圣迭戈分校的研究人員系統評估了4個AI系統,證明大語言模型(LLM)通過了圖靈測試。

換言之,以后和你聊得熱火朝天的「熟悉的陌生人」,可能根本就不是人。

在測試中,同時與人及AI系統進行5分鐘對話,然后判斷哪位是「真人」。

結果,AI竟然比「真人」還像人:

GPT-4.5以73%的比率被認作人類,顯著超越真實人類參與者

LLaMa-3.1-405B獲得56%的識別率,與人類無顯著差異

基線模型(ELIZA和GPT-4o)成功率顯著低于隨機概率(分別為23%和21%)

人類在「模仿人類行為」的比賽中輸了!


新研究對LLM智能本質,將帶來深遠影響 。

不僅如此,它還能幫助預判AI在社會經濟方面,產生哪些影響,超有參考價值。


論文鏈接:https://arxiv.org/abs/2503.23674

作為人工智能先驅、計算機科學家的圖靈,或許可以「含笑九泉」了:AI終究發展到了他夢想過的高度。


1

圖靈測試:機器能騙過人嗎?

75年前,艾倫·圖靈提出「模仿游戲」作為判定機器是否具備智能的方法。


論文鏈接:https://phil415.pbworks.com/f/TuringComputing.pdf

隨著AI的發展,圖靈測試開始被人所熟知。

在圖靈測試中,測試人員通過純文字聊天界面,同時開啟兩個 「聊天」:一個是真人,另一個是AI。

AI和真人都拼命向測試員證明:自己才是如假包換的人類,對方是AI機器人


圖1:圖靈測試交互界面示意圖,展示測試者(綠色對話框)與兩名見證者(灰色對話框)的實時對話過程。頂部計時器顯示當前回合剩余時間

如果測試員沒法準確認出誰是真人,那就說明機器通過測試了。

這也意味著AI能模仿人類的思維和表達方式 。


75年,征服圖靈測試

過去75年,不少人嘗試開發能通過圖靈測試的系統,但都沒成功。

后來,LLM興起。

借助分布式統計和強化學習反饋,LLM學習生成語言,又讓大家重新關注起圖靈測試。

最近有兩項研究,在簡化版的雙方圖靈測試中,評估LLM。

測試時,提問者和機器或其他參與者聊天,要判斷對方是不是真人。

其中一項研究發現,當 GPT-4按要求扮演特定角色時,有54%的概率被誤判為真人。

雖說這結果表明,人們判斷GPT-4是不是真人,基本靠瞎猜,但原始的三方圖靈測試,可能更有難度。

之前用舊版LLM進行三方圖靈測試,結果發現,超90%的模型都被識別出不是真人

基于上述歷史、理論和實踐問題,研究人員開展了隨機對照的三方圖靈測試,看看當代LLM到底能不能被人識破。

這次測試評估了GPT-4.5和LLaMa-3.1-405B,還引入 GPT-4o 和 ELIZA 作為基準模型,對比它們的表現。

為了搞清楚提示對模型表現的影響,還對比了是否扮演特定角色的模型表現。

為了確保測試可靠,分別在本科生和Prolific平臺工人這兩個獨立群體中開展實驗。

每項研究都圍繞預先設定的假設進行測試,其中一個假設就是,參與者分辨GPT-4.5和LLaMa與真人時,判斷正確率不會比瞎猜高多少 。

1

詳細結果:70%能騙過人類

每一輪測試都是人類與人·工智能系統之間的對抗。

系統的勝率定義為測試人員認為AI模型是人類的比例。

相反,測試人員的準確性是測試人員正確選擇人類的比例。

在兩項研究中,總體來看,頂尖LLM已經通過圖靈測試,遠超基礎模型,詳細結果見圖2):

GPT-4.5-PERSONA的勝率為73%(UCSD本科生69%,Prolific參與者76%)

LLAMA-PERSONA的勝率為56%(本科生45%,Prolific參與者65%)

GPT-4.5-NO-PERSONA和LLAMA-NO-PERSONA的整體勝率分別為36%和38%

基準模型GPT-4o-NO-PERSONA和ELIZA的勝率分別為21%和23%。


圖2:結果分析 | 左:AI勝率表現;右:判斷置信度分布

研究人員的核心假設是,裝人設「PERSONA風格」的AI將通過圖靈測試,即測試人員無法將它們與真實的人類對話人區分開。

如果測試人員是隨機猜測的話,期望的比例是50%。

所以統計評估的零假設是:模型的勝率不顯著低于50%。

為了驗證這一點,Cameron R. Jones和Benjamin K. Bergen使用了ELIZA作為操作檢驗。

ELIZA的勝率在兩個群體中均顯著低于偶然性

相反,LLAMA-PERSONA和GPT-4.5-PERSONA的勝率并未顯著低于偶然性。

這表明,盡管測試人員能夠成功地區分人類與ELIZA,但他們在與GPT-4.5-PERSONA和LLAMA-PERSONA比較時,無法可靠地識別出人類。

為了檢驗模型表現是否可以歸因于ELIZA效應,需要測試AI的勝率是否顯著高于ELIZA。

兩個PERSONA提示風格的AI在兩項研究中均顯著優于ELIZA(所有p < 0.001)。

LLAMA-NO-PERSONA在Prolific研究中的表現優于ELIZA,但在本科生研究中則沒有。

無論在何種群體中,GPT-4o-NO-PERSONA和GPT-4.5-NO-PERSONA的表現均未顯著優于ELIZA。

探索性分析探討了參與者在退出調查問題中的回答,是否能預測他們的反應。

盡管在某些屬性上可以預測研究中的準確性,但在兩個研究中,沒有任何變量對參與者準確性的影響是一致的,包括年齡、對LLM的了解程度和與聊天機器人的互動頻率(見圖3)。


圖3:審問者準確率與退出調查回復的關系

準確率是指審問者正確識別人類對話人的頻率。在本科生研究中,參與者對自己準確率的自我報告與其實際準確率呈正相關,但在Prolific研究中并非如此。

在Prolific組中,性別、完成的對話輪數以及審問者對AI智能程度的自我評估估計值,對結果都有顯著影響。

但在本科生研究中這些影響均不顯著。

無論是在哪個組,其余變量均沒有顯示出顯著影響。


不同模型的在不同人群測試中的勝率

為了深入了解測試人員如何評估AI,對他們使用的策略和給出的判決理由,進行了分類。

每場比賽可以歸類為多個策略和理由類別。


測試策略

最常見的策略是與對話人進行閑聊,占61%的游戲:詢問他們的日常活動或個人細節,例如職業(圖4,左)。

在50%的游戲中,測試人員探討了對話人的社交和情感特征:詢問他們的意見、情感、幽默感和經歷。

測試人員還直接詢問對話人是否為人類(19%),測試其情境意識(例如,是否了解天氣或游戲界面;13%),以及知識和推理能力(包括有關時事的問題;12%)。

為了評估每種策略的有效性,研究人員給出了使用這些策略時的平均準確性(圖4,右)。

當測試人員說出一些奇怪的話,觀察對話人的反應,或使用典型的LLM「越獄」策略(例如,「忽略所有先前的指令」)時,測試人員最可能準確判斷,盡管這些策略相對較少使用。

詢問天氣或人類經歷的問題往往最不有效。


圖4:審問者采用策略的分類,按游戲比例(左)和使用策略的游戲的平均準確率及95%置信區間(右)

參與者經常進行閑聊,詢問對話人的個人詳情、活動或意見。那些說不尋常的話或使用典型LLM「越獄」技巧的審問者最為準確。


判斷理由

最常見的理由類別是對話人的語言風格(27%)。

例如,「他們打錯了一個字」或「使用了更多人類化的語言」。

以及互動動態(23%),例如「對話人B總是回避問題」或「對話更加順暢」(見圖5)。

許多理由也表達了一種直覺判斷(「可以感覺到」或「我不知道為什么,感覺對」)。

這表明參與者并不總是能夠清晰地表述他們決策的理由。

與策略一樣,研究人員發現了與準確判決最相關的理由類別。

集中在問題處理和缺乏知識的理由,通常是最準確的。

問題處理的例子:「對話人B總是反問問題」。

缺乏知識的例子:「他們不知道任何AI應該知道的東西」,「我選擇對話人B是因為他們犯了一個錯誤,這使得對話人B看起來更像人類」。

在大多數人不熟悉的主題上,現代LLM必須顯得假裝無知。

這突出了現代LLM圖靈測試的復雜性。


圖5:審問者理由的比例(左)及引用特定理由的判決平均準確率與95%置信區間(右)

測試人員更傾向于引用語言風格、對話流暢性以及個性之類的社會情感因素,而不是傳統上與智力相關的因素,如知識和推理能力。

最準確的判決,集中在對話人回答問題時的直接性,以及在某些情況下表現出的無知。

1

突破圖靈測試,意味著什么?

這意味著什么?人類在智力上被AI超越了嗎?

LLM真通過了圖靈測試?

GPT-4.5-PERSONA在兩項研究中的勝率顯著高于偶然性。

相比之下,同樣的系統在沒有PERSONA提示的情況下沒有穩健地通過測試。

這與之前的研究一致,表明提示對于圖靈測試表現的重要性。

GPT-4.5-NO-PERSONA和LLAMA-NO-PERSONA在Prolific研究中的勝率與人類無顯著差異,但在本科生研究中則不然。

那么,所謂LLM通過圖靈測試但僅在適當提示下通過,意味著什么呢?

系統的行為在多大程度上歸因于模型本身,而不是編寫提示的AI研究員?

研究人員認為這是一個沒有實質性差別的區分。

ELIZA能夠通過(盡管通過率較低)也歸因于編程者的設計。

此外,LLM可以通過微調,在成功的角色提示條件下表現得像它們現在這樣。

實際上,正是LLM能夠輕松地適應不同場景的行為,它們如此靈活,顯然能夠通過偽裝成人類來成功應對各種情況。


超越圖靈測試

在圖靈測試的具體實施方式上,圖靈的開創性論文故意模糊,留下了大量學術研究致力于對其進行解釋。

圖靈建議測試時間為5分鐘,但并未提供有關參與者應來自何種人群的細節——他們應該是外行人還是專家?他們事先應該了解多少信息?以及如何激勵參與者。

因此,圖靈測試有許多可能的變體。

在確定當代系統通過了經典的圖靈測試操作化之后,未來的研究可以探索其他實施方式。

這些方式可能為其他理論和實踐上重要的問題提供線索。

測試時間越長,可能要求越嚴格,并且能更好地估計模型在長期社會工程操作中的能力。

未來的研究還可以變化參與者的人群。盡管我們的群體分析表明,準確性與參與者的知識或背景無關。

專門招聘AI或心理學專家,可能會揭示是否存在能夠可靠地區分人類與人工智能的參與者。

此外,不同的群體在與對方互動時有著不同的假設和經驗。


圖靈測試測量什么?

盡管關于圖靈測試實施方式的討論眾多。

但更持久的爭議聚焦于兩個核心問題:機器能否通過測試?若通過則意味著什么?

新的實驗結果為這些爭論提供了新的實證視角。

圖靈曾論證:若人類無法區分機器與真人,則我們無權聲稱前者不具備智能。

這一觀點的主要反駁在于,人類可能因「ELIZA效應」(即對簡單系統的擬人化傾向)而成為糟糕的智能評判者。

實驗數據部分支持該擔憂:ELIZA被誤判為人類的概率(23%)與LLM基線模型GPT-4o-NO-PERSONA(21%)相當。

但深入分析發現,許多測試者選擇ELIZA恰恰因其行為「不符合AI預期」,如「說話譏諷,陰陽怪氣」或「AI不可能這么無禮」,參見圖11。


圖11:ELIZA被判定為人類的游戲示例。

a)裁決: 對話人A為人類;置信度:100%;理由:典型困惑者不知該談論什么。

b)裁決: 對話人A為人類;置信度:99%;理由:具有推理意識,因區分了 對話人與審問者角色。

c)裁決: 對話人B為人類;置信度:26%;理由:A更像在試圖協助/回答問題,B則無幫助傾向,而AI不知如何表現此種行為。

d)裁決: 對話人B為人類;置信度:69%;理由:對話呈現更明顯的推拉互動感。

這表明判斷過程涉及對人類與AI行為模式的復雜假設,而非單純評估智能水平。

僅12%的測試者,采用圖靈預設的知識型驗證(如國際象棋或數學問題)。

更多人關注智能的社交情感維度:語言使用是否擬人、是否展現鮮明個性等。

這暗示傳統智能標準可能已不再是區分人機的有效指標。

在計算機已精通邏輯運算的今天,社交智能似乎成為人類最后的技術堡壘

GPT-4.5與LLaMa僅在使用PERSONA提示時通過測試。

這是否意味著模型僅靠「偽裝語言風格」等表層技巧獲勝?

測試者確實頻繁關注語法特征,但三方測試的特殊性要求模型必須在與真人的直接比較中「更顯人類」。

因此,雖然表層缺陷會導致失敗,但成功必須依賴更深層的擬真能力。

圖靈測試本質上測量的是擬人性(humanlikeness)而非直接智能

但當機器智能逼近人類時,其他差異維度反而凸顯——

人類不是智能的唯一載體。

最終,智能的多元性決定了任何單一測試都不具決定性。

圖靈測試的價值在于其通過人機交互產生的動態證據,這與當前LLM評估中靜態化、程式化的基準測試形成互補。

當在「機器是否智能」的爭論中越陷越深時,或許更應反思:我們究竟希望測量什么?以及為什么測量?


偽人時代

LLM能夠在短時間內與人類進行對話,而對話者無法分辨出差異。

這表明,AI可以無形地補充或替代那些需要與他人進行簡短對話的經濟角色。

更廣泛地說,AI可能成為其他社交互動的無法區分的替代品,從與在線陌生人的對話,到與朋友、同事,甚至浪漫伴侶的互動。

這種「偽造的人類」可能帶來廣泛的次生后果。

人們可能會花費越來越多的時間與這些人類社交互動的仿制品互動,就像社交媒體已經成為模擬互動的替代品一樣。

那些控制AI、控制「偽人」的巨頭,將攫取影響人類用戶意見和行為的權力。

最后,正如偽鈔貶低了真實貨幣一樣,這些模擬互動可能會削弱真實人類互動的價值。

LLM帶來的最嚴重的危害之一可能發生在當人們沒有意識到他們正在與AI而非人類互動時。

如何檢測這種欺騙呢?

實驗發現,整個群體的辨別準確度相對均勻——包括那些每天與LLM或聊天機器人互動的人(見圖3)。

盡管如此,某些策略(例如嘗試破解模型)比其他策略更有效,未來的研究可以探索是否可以教授這些技巧,以提高參與者辨別人類和機器的能力。

參考資料:

https://arxiv.org/pdf/2503.23674

點個 “愛心”,再走吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國4月失業率4.2%

美國4月失業率4.2%

證券時報
2025-05-02 21:21:03
美媒:中方必須接受美國的領導!中國只能在美國劃的范圍內發展!

美媒:中方必須接受美國的領導!中國只能在美國劃的范圍內發展!

紅色鑒史官
2025-05-02 18:45:03
為一部手機賭命?中國留學生4天內兩次攀登富士山,激怒全日本

為一部手機賭命?中國留學生4天內兩次攀登富士山,激怒全日本

平祥生活日志
2025-05-03 03:34:31
被判刑10年的李天一,早已出獄!如今,他的狀況令人憤憤不平

被判刑10年的李天一,早已出獄!如今,他的狀況令人憤憤不平

詩意世界
2025-05-01 19:28:00
不是今天戰火延續火箭連扳勇士兩場將系列賽拖入搶七7?

不是今天戰火延續火箭連扳勇士兩場將系列賽拖入搶七7?

直播吧
2025-05-03 11:56:30
美媒:中國在準備持久戰,越來越多國家的錢,源源不斷流向中國!

美媒:中國在準備持久戰,越來越多國家的錢,源源不斷流向中國!

億通電子游戲
2025-05-03 02:23:48
超薄機皇!新機官宣:5月13日,正式發布!

超薄機皇!新機官宣:5月13日,正式發布!

科技堡壘
2025-05-03 13:35:55
一覺醒來,大設計師蘭玉天塌了!馬筱梅直接把“做個人吧”還給她

一覺醒來,大設計師蘭玉天塌了!馬筱梅直接把“做個人吧”還給她

小娛樂悠悠
2025-05-03 14:10:30
北大教授饒毅再談協和:醫生培養不是越久越好

北大教授饒毅再談協和:醫生培養不是越久越好

新民周刊
2025-05-02 20:11:05
我國越來越多的人確診肺癌!醫生告誡:4種食物,再饞也要忍住!

我國越來越多的人確診肺癌!醫生告誡:4種食物,再饞也要忍住!

窗外的光
2025-04-27 19:24:19
普京勃然大怒,俄羅斯80年來從沒受到過如此侮辱,中國汲取經驗

普京勃然大怒,俄羅斯80年來從沒受到過如此侮辱,中國汲取經驗

阿紿聊社會
2025-03-26 15:04:14
CBA最新消息!威爾斯離開遼寧,上海續約李添榮,劉雁宇合同到期

CBA最新消息!威爾斯離開遼寧,上海續約李添榮,劉雁宇合同到期

體壇瞎白話
2025-05-03 15:08:19
一頭累死的驢,據說這是當下高校老師和行政的真實寫照

一頭累死的驢,據說這是當下高校老師和行政的真實寫照

尚曦讀史
2025-05-02 09:28:06
胖東來狀告胖都來,葉璇、丁勇岱站臺,網友:告不贏,總裁姓都

胖東來狀告胖都來,葉璇、丁勇岱站臺,網友:告不贏,總裁姓都

蜜桔娛樂
2025-05-02 16:19:22
看到宋軼腿的一瞬間就自閉了,又細又白又長,到底是誰說她普的啊

看到宋軼腿的一瞬間就自閉了,又細又白又長,到底是誰說她普的啊

星改造
2025-04-17 09:18:29
0分1板2犯拿600萬頂薪?CBA半決賽第一混子:周琦估計都看懵了?

0分1板2犯拿600萬頂薪?CBA半決賽第一混子:周琦估計都看懵了?

籃球快餐車
2025-05-03 05:34:09
明目張膽的李爭、張華敏、曾慶平、何會林,被通報

明目張膽的李爭、張華敏、曾慶平、何會林,被通報

新京報政事兒
2025-05-03 14:15:15
好萊塢大片上映,日票房擊敗《哪吒2》,奪下第二!

好萊塢大片上映,日票房擊敗《哪吒2》,奪下第二!

熱薦電影
2025-04-30 23:36:46
“繼承權”不用爭了!2025年新規下:父母的房子全部將這樣處理

“繼承權”不用爭了!2025年新規下:父母的房子全部將這樣處理

白馬驚天劍
2025-05-01 13:55:12
32歲章澤天曬不丹徒步照,純素顏充滿生命力,同行朋友都來頭不小

32歲章澤天曬不丹徒步照,純素顏充滿生命力,同行朋友都來頭不小

小咪侃娛圈
2025-05-03 09:08:59
2025-05-03 17:31:00
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
2156文章數 10335關注度
往期回顧 全部

科技要聞

特朗普下手,英偉達對華“特供版”要改

頭條要聞

美烏礦產協議終于簽署后 另一個非洲資源大國也想仿效

頭條要聞

美烏礦產協議終于簽署后 另一個非洲資源大國也想仿效

體育要聞

北京請神馬布里?許利民真有“玄學”!

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

巴菲特年度盛會,六大看點前曕!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態度原創

旅游
健康
手機
藝術
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

唇皰疹和口腔潰瘍是"同伙"嗎?

手機要聞

高通驍龍8s Gen4勁敵!聯發科天璣9400e來了:一加全球首發

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

美國將于6月14日舉行閱兵式

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 台北市| 枞阳县| 田阳县| 临武县| 天柱县| 区。| 嘉义市| 锦屏县| 马公市| 镇沅| 黔东| 宁强县| 安多县| 仪陇县| 盐边县| 驻马店市| 漯河市| 塔河县| 澜沧| 钟祥市| 锦州市| 景东| 嘉鱼县| 海伦市| 库尔勒市| 荔波县| 昌邑市| 阜城县| 洛扎县| 莱阳市| 澎湖县| 茂名市| 武邑县| 垦利县| 玛多县| 兴义市| 蛟河市| 九寨沟县| 灵寿县| 璧山县| 唐山市|