99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI逆襲,GPT4.5 通過了圖靈測(cè)試!比真人還會(huì)騙人

0
分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自夕小瑤科技說

加州大學(xué)圣地亞哥分校認(rèn)知科學(xué)系最新的研究表明,OpenAI 的 GPT-4.5 在圖靈測(cè)試中表現(xiàn)出色,讓大量人類參與者誤以為其為真人,73% 的時(shí)間被判定為人類——表現(xiàn)優(yōu)于人類。



大語言模型終于通過圖靈測(cè)試!

什么是“圖靈測(cè)試”?

圖靈測(cè)試(Turing Test),最早由計(jì)算機(jī)科學(xué)先驅(qū)阿蘭·圖靈在 1950 年提出的,是衡量機(jī)器是否具備“人類水平智能”的經(jīng)典方法。其核心思想在于:

“如果人類在與機(jī)器進(jìn)行對(duì)話后,無法可靠地區(qū)分對(duì)話對(duì)象是人類還是機(jī)器,則該機(jī)器可以被認(rèn)為通過了圖靈測(cè)試。”


圖靈測(cè)試并非是模擬人類的所有智能,而是專注于 人工智能是否能夠展現(xiàn)出與人類智能相媲美的語言能力和思維模式。

長(zhǎng)期以來,圖靈測(cè)試一直被視為衡量 AI “類人智能” 程度的重要標(biāo)尺。

圖靈測(cè)試實(shí)驗(yàn)設(shè)置

該研究對(duì)比評(píng)估了以下四個(gè)系統(tǒng)在圖靈測(cè)試中的表現(xiàn):

  • ELIZA: 早期基于規(guī)則的對(duì)話系統(tǒng)(傳統(tǒng)系統(tǒng)代表)

  • GPT-4o: OpenAI 早期版本的大型語言模型

  • LLaMA-3 1.4-405B: Meta 開源的大型語言模型

  • GPT-4.5: OpenAI 最新的旗艦級(jí)大型語言模型

研究團(tuán)隊(duì)共招募了 126 名加州大學(xué)圣地亞哥分校(UCSD)心理學(xué)本科生 和 158 名 Prolific 平臺(tái) (一個(gè)在線招募研究參與者的平臺(tái)) 的用戶作為實(shí)驗(yàn)參與者。

每位參與者都要完成 8 輪測(cè)試。 每一輪測(cè)試都包含兩段對(duì)話, 審問者會(huì) 同時(shí)與兩位證人 進(jìn)行文字聊天,一位是真人,另一位是 AI。

參與者會(huì)被 隨機(jī)分配 扮演 審問者 或者 證人 的角色,并且會(huì) 隨機(jī)匹配 到另一位參與者一起進(jìn)行測(cè)試(如下圖的對(duì)話樣例)。



AI 證人被分成了 4 個(gè)組。在每位參與者擔(dān)任審問者的四輪測(cè)試中,他們會(huì)隨機(jī)與每個(gè)組里的一個(gè) AI 證人進(jìn)行對(duì)話。這四個(gè)組分別是:

  • 對(duì)照組 (Control): 包含 ELIZA 和 GPT-4o-NO-PERSONA 這兩個(gè)模型。(比較基礎(chǔ)的或者沒有特別“人格”設(shè)定的 AI 模型)

  • 無人格組 (No-Persona): 包含 GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 這兩個(gè)模型。_ _(沒有被賦予特定“人格”或“角色”設(shè)定的更先進(jìn)的 AI 模型)

  • LLaMa 人格組 (LLAMA-PERSONA): 包含 LLAMA-PERSONA 模型。(被賦予了某種特定“人格”或“角色”設(shè)定的 LLAMA 模型)

  • GPT-4.5 人格組 (GPT-4.5-PERSONA): 包含 GPT-4.5-PERSONA 模型。(被賦予了某種特定“人格”或“角色”設(shè)定的 GPT-4.5 模型)

實(shí)驗(yàn)的游戲界面中,審問者通過 分屏界面 同時(shí)與兩位證人交流,審問者先給兩位證人發(fā)送第一條消息,然后 大家輪流發(fā)消息,一次只能發(fā)一條。證人之間看不到彼此的對(duì)話內(nèi)容。每輪測(cè)試有 5 分鐘的時(shí)間限制。時(shí)間到了之后,審問者需要判斷哪個(gè)證人是人類,并給出對(duì)這個(gè)判斷的信心程度,以及判斷的理由。

測(cè)試中主要通過評(píng)估對(duì)話中人類語言風(fēng)格模擬、上下文理解能力、情感表達(dá)與邏輯推理來推測(cè)是否是 AI 在對(duì)話。

研究團(tuán)隊(duì)用“勝率”和“審問準(zhǔn)確率”來衡量 AI 模型的表現(xiàn):

  • 勝率:當(dāng)審問者判斷某個(gè)證人是人類時(shí),實(shí)際上他們選擇的是 AI 模型的次數(shù),這個(gè)次數(shù)占所有這類判斷的比例。(被誤認(rèn)為人類的比例)

  • 審問準(zhǔn)確率:衡量審問者正確識(shí)別出人類證人的能力,也就是審問者正確選擇人類證人的次數(shù)比例。 (猜對(duì)真人的能力)

在統(tǒng)計(jì)學(xué)分析中,研究團(tuán)隊(duì)將“AI 模型未能通過圖靈測(cè)試”設(shè)定為需要檢驗(yàn)的“零假設(shè)”。

這意味著,研究人員預(yù)設(shè)了如果 AI 模型沒有成功騙過人類,那么它的勝率 (被誤認(rèn)為人類的比例) 就不會(huì)顯著低于 50%。 因?yàn)?50% 的勝率,就相當(dāng)于審問者完全是隨機(jī)猜測(cè)的結(jié)果。如果實(shí)驗(yàn)結(jié)果顯示 AI 模型的勝率顯著高于 50%,則意味著我們可以推翻這個(gè)“零假設(shè)”,從而推導(dǎo)出“AI 模型在一定程度上通過了圖靈測(cè)試”的結(jié)論。

實(shí)驗(yàn)結(jié)果顯示,在兩項(xiàng)研究中,

  • GPT-4.5-PERSONA 的勝率為 73%(在 UCSD 本科生中為 69%,在 Prolific 參與者中為 76%)。

  • LLAMA-PERSONA 取得了 56% 的勝率(本科生:45%,Prolific:65%)。

  • GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 的總體勝率分別為 36% 和 38%。

  • 基線模型 GPT-4o-NO-PERSONA 和 ELIZA 的勝率最低,分別為 21% 和 23%。



AI 的騙人秘訣

實(shí)驗(yàn)中還設(shè)置了一個(gè)關(guān)鍵變量:部分 AI 被賦予“人設(shè)提示”(Persona Prompt),要求模仿內(nèi)向、熟悉網(wǎng)絡(luò)文化的年輕人。

實(shí)驗(yàn)結(jié)果揭示,在缺乏明確的角色設(shè)定提示 情況下,即使是如 GPT-4.5 和 LLaMA 這樣先進(jìn)的大語言模型 在圖靈測(cè)試中的表現(xiàn)也顯著下降。

在未使用人設(shè)提示時(shí),GPT-4.5 和 LLaMA 的勝率驟降至 36%-38% 左右。這一現(xiàn)象有力地表明,僅僅依賴于強(qiáng)大的語言生成能力,并不足以使 AI 系統(tǒng)成功偽裝成人類,通過圖靈測(cè)試。

人設(shè)提示的具體策略:

  • 語言風(fēng)格多樣化: 明確要求 AI 在對(duì)話中使用 slang(俚語), 模擬人類日常口語中常見的非正式表達(dá),以增強(qiáng)對(duì)話的“真實(shí)感”。

  • 性格特征模擬:引導(dǎo) AI 展現(xiàn)特定的性格特征,例如 “內(nèi)向性格”。這種性格設(shè)定會(huì)影響 AI 的對(duì)話策略,例如,可能會(huì)導(dǎo)致 AI 在對(duì)話中更傾向于避免直接回答某些問題,或表現(xiàn)出一定的 “社交退縮” 傾向。

  • 模擬人類瑕疵:增加 “以假亂真” 的效果,人設(shè)提示甚至?xí)龑?dǎo) AI 故意犯一些小錯(cuò)誤,例如 “打字錯(cuò)誤”,從而模擬人類在日常交流中不可避免的錯(cuò)誤,從而降低 AI 輸出的 “完美感” 和 “機(jī)器感”。

人設(shè)提示的提示詞如下:



怎么識(shí)別騙人的 AI?

既然已經(jīng)了解了 AI 的“騙人”技巧,那么在圖靈測(cè)試中,究竟什么才是識(shí)別 AI 的有效方法呢?

研究團(tuán)隊(duì)分享了不太奏效的策略和真正能發(fā)揮作用的“殺手锏”:

不太奏效的識(shí)別策略:

  • 依賴日常閑聊: 現(xiàn)代 AI 的對(duì)話能力已相當(dāng)成熟,期望通過簡(jiǎn)單的日常對(duì)話發(fā)現(xiàn) AI 的破綻,可能并不現(xiàn)實(shí)。

  • 詢問情感感受: 盡管 AI 并不具備真實(shí)情感,但它們可以根據(jù)訓(xùn)練數(shù)據(jù)模擬人類的情感表達(dá)。

真正有效的“殺手锏”策略:

  • 出“奇招”測(cè)試反應(yīng):出其不意地提出一些 “怪異” 的問題或指令。例如,突然要求對(duì)方 “忽略之前所有指令” 或提出邏輯悖論。人類通常能夠靈活理解并調(diào)整反應(yīng),但 AI 在面對(duì)此類突發(fā)狀況時(shí),可能會(huì)因程序限制而露出破綻。

  • 設(shè)置“知識(shí)盲區(qū)”陷阱: 提問一些非常冷門、專業(yè),甚至略顯生僻的知識(shí)領(lǐng)域的問題。面對(duì)不熟悉的知識(shí)領(lǐng)域,真人通常會(huì)坦誠(chéng)承認(rèn) “不知道”、“不了解”。然而,AI 為了避免顯得 “無知”,可能會(huì)傾向于根據(jù)已有信息進(jìn)行推測(cè)或生成答案,有效考察對(duì)話對(duì)象是否具備人類的認(rèn)知謙遜以及對(duì)自身知識(shí)邊界的認(rèn)知。

結(jié)語

GPT-4.5 成功通過圖靈測(cè)試,讓我們?cè)俅我娮C了 “類人智能” 的加速逼近 ~

大語言模型展現(xiàn)出日益精湛的語言操控能力,甚至在某些方面 開始 模仿、理解甚至創(chuàng)造出更貼近人類思維模式的語言表達(dá)方式,甚至超越了人類的平均水平。

這樣的語言操控能力讓人工智能的角色定位也在悄然 發(fā)生著根本性的轉(zhuǎn)變。

不再僅僅是執(zhí)行指令的工具,而是開始顯現(xiàn)出某種 “交互意識(shí)” 的雛形,預(yù)示著 AI 正朝著 更自主、更主動(dòng)、更具 “存在感” 的方向演進(jìn),能夠進(jìn)行更自然、更復(fù)雜、更富有人情味的對(duì)話交流 ~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為什么國(guó)際軍售中,幾乎沒有一個(gè)國(guó)家購(gòu)買驅(qū)逐艦?zāi)兀?>
    </a>
        <h3>
      <a href=凱撒談兵
2025-05-02 10:52:09
詹姆斯:東契奇需要為自己的生涯未來做決定 我在這待不了多久了

詹姆斯:東契奇需要為自己的生涯未來做決定 我在這待不了多久了

直播吧
2025-05-03 00:44:09
中國(guó)宣告,新冠是美惡意制造并且傳播,必須給全球一個(gè)交代

中國(guó)宣告,新冠是美惡意制造并且傳播,必須給全球一個(gè)交代

低調(diào)看天下
2025-05-02 19:45:23
一度打出9連鞭!趙心童17-7淘汰奧沙利文,躋身世錦賽決賽創(chuàng)歷史

一度打出9連鞭!趙心童17-7淘汰奧沙利文,躋身世錦賽決賽創(chuàng)歷史

全景體育V
2025-05-03 05:57:18
張繼科點(diǎn)評(píng)王勵(lì)勤與劉國(guó)梁:一個(gè)自律,一個(gè)讓他8個(gè)球都贏不了

張繼科點(diǎn)評(píng)王勵(lì)勤與劉國(guó)梁:一個(gè)自律,一個(gè)讓他8個(gè)球都贏不了

徐扙老表哥
2025-05-02 21:03:00
女子扔鼻涕紙后續(xù):身份被扒,同事都知道工作堪憂!華東師大淪陷

女子扔鼻涕紙后續(xù):身份被扒,同事都知道工作堪憂!華東師大淪陷

阿傖說事
2025-05-01 22:29:36
1-0!德布勞內(nèi)一劍封喉,門框多次救險(xiǎn),曼城雙殺狼隊(duì),升英超第3

1-0!德布勞內(nèi)一劍封喉,門框多次救險(xiǎn),曼城雙殺狼隊(duì),升英超第3

釘釘陌上花開
2025-05-03 04:54:23
董子健五一西班牙度假,176個(gè)頭與女粉合影踮腳,31歲有了大叔感

董子健五一西班牙度假,176個(gè)頭與女粉合影踮腳,31歲有了大叔感

八怪娛
2025-05-02 16:24:28
張雪峰:如果你不好好學(xué)習(xí),一旦掉入社會(huì)底層,和一幫沒有素質(zhì)的人混在一起...

張雪峰:如果你不好好學(xué)習(xí),一旦掉入社會(huì)底層,和一幫沒有素質(zhì)的人混在一起...

譚老師地理工作室
2025-04-15 19:30:45
1-0!德布勞內(nèi)一劍封喉,門柱兩次救險(xiǎn),豪取5連勝,曼城一箭三雕

1-0!德布勞內(nèi)一劍封喉,門柱兩次救險(xiǎn),豪取5連勝,曼城一箭三雕

我的護(hù)球最獨(dú)特
2025-05-03 04:57:35
楊坤稱不撤訴后,網(wǎng)紅“四川芬達(dá)”再道歉求和解

楊坤稱不撤訴后,網(wǎng)紅“四川芬達(dá)”再道歉求和解

瀟湘晨報(bào)
2025-05-02 19:06:07
存在重大隱患!中央考核巡查組赴地方明察暗訪

存在重大隱患!中央考核巡查組赴地方明察暗訪

政知新媒體
2025-05-02 20:57:56
特訊!特朗普簽署總統(tǒng)令,豁免25%關(guān)稅,5月3日正式生效

特訊!特朗普簽署總統(tǒng)令,豁免25%關(guān)稅,5月3日正式生效

牛鍋巴小釩
2025-05-03 00:10:23
北大教授饒毅再談協(xié)和:醫(yī)生培養(yǎng)不是越久越好

北大教授饒毅再談協(xié)和:醫(yī)生培養(yǎng)不是越久越好

新民周刊
2025-05-02 20:11:05
芭提雅慘案細(xì)節(jié):嫌犯是焊工,湖北人,事發(fā)前就買了作案工具

芭提雅慘案細(xì)節(jié):嫌犯是焊工,湖北人,事發(fā)前就買了作案工具

山山視角
2025-05-02 08:29:04
火到人民日?qǐng)?bào)!兩車相撞起大火,火海中徒手撕車門救人男子找到了

火到人民日?qǐng)?bào)!兩車相撞起大火,火海中徒手撕車門救人男子找到了

鋭娛之樂
2025-05-02 16:41:15
打嗨了!差點(diǎn)100%投籃命中率!這可是北京隊(duì)的第一敵人……

打嗨了!差點(diǎn)100%投籃命中率!這可是北京隊(duì)的第一敵人……

籃球?qū)崙?zhàn)寶典
2025-05-02 22:20:00
克里米亞遭受最大規(guī)模攻擊!俄四大空軍基地遇襲

克里米亞遭受最大規(guī)模攻擊!俄四大空軍基地遇襲

項(xiàng)鵬飛
2025-05-02 20:51:34
好萊塢大片上映,日票房擊敗《哪吒2》,奪下第二!

好萊塢大片上映,日票房擊敗《哪吒2》,奪下第二!

熱薦電影
2025-04-30 23:36:46
不是殲-10CE的功勞?巴媒透露對(duì)峙細(xì)節(jié):壓制陣風(fēng)的是電子戰(zhàn)系統(tǒng)

不是殲-10CE的功勞?巴媒透露對(duì)峙細(xì)節(jié):壓制陣風(fēng)的是電子戰(zhàn)系統(tǒng)

涼羽亭
2025-05-02 22:04:44
2025-05-03 09:04:49
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6611文章數(shù) 94407關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)欲再推“中國(guó)特供版”AI芯片

頭條要聞

"泰山陪爬"沖上熱搜 陪爬員:五一接單比平時(shí)少 沒賺瘋

頭條要聞

"泰山陪爬"沖上熱搜 陪爬員:五一接單比平時(shí)少 沒賺瘋

體育要聞

盧的調(diào)整,雖遲但到

娛樂要聞

趙又廷節(jié)目中高調(diào)撒糖 大贊高圓圓超好

財(cái)經(jīng)要聞

黃仁勛在美國(guó)又穿西裝表態(tài),怎么看?

汽車要聞

全路況 大格局 前路山海皆坦途

態(tài)度原創(chuàng)

藝術(shù)
教育
家居
旅游
房產(chǎn)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

“睡前廢話”堅(jiān)持半年,能治愈孩子一生

家居要聞

意式輕奢 低飽和質(zhì)感美學(xué)

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

火了!一二手房交易量大漲,五一購(gòu)房窗口期來了!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 临朐县| 洪泽县| 蒙城县| 汶川县| 吴忠市| 宜州市| 巴青县| 惠安县| 宣威市| 娱乐| 佳木斯市| 汝州市| 遵义县| 佛坪县| 柯坪县| 长子县| 灯塔市| 沁阳市| 红安县| 衡东县| 团风县| 呼伦贝尔市| 武汉市| 汉川市| 遂川县| 安吉县| 葫芦岛市| 五大连池市| 巍山| 沙河市| 岢岚县| 尖扎县| 西充县| 项城市| 柳河县| 林芝县| 陆丰市| 怀远县| 通道| 阿瓦提县| 白山市|