網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ChatGPT 4.5 在圖靈測(cè)試中超過(guò)了人類！

2025-04-02 09:19:43　來(lái)源: AI范兒

上海舉報(bào)

分享至

從 ChatGPT 發(fā)布以來(lái)，大語(yǔ)言模型（LLMs）在人工智能領(lǐng)域的研究取得了顯著進(jìn)展，其中一項(xiàng)備受關(guān)注的成果是其在圖靈測(cè)試中的表現(xiàn)。圖靈測(cè)試由英國(guó)數(shù)學(xué)家艾倫·圖靈于1950年提出，旨在評(píng)估機(jī)器是否能展現(xiàn)出與人類難以區(qū)分的智能行為。

最新論文《Large Language Models Pass the Turing Test》（作者：Cameron R. Jones 和 Benjamin K. Bergen，加州大學(xué)圣地亞哥分校）通過(guò)實(shí)驗(yàn)驗(yàn)證了這一假設(shè)，標(biāo)志著人工智能發(fā)展的重要里程碑。本文將探討該論文的核心內(nèi)容、方法論、結(jié)果及其對(duì)AI未來(lái)的深遠(yuǎn)影響。

▍論文核心內(nèi)容與方法論

該論文采用了一種創(chuàng)新的三方圖靈測(cè)試設(shè)計(jì)，區(qū)別于傳統(tǒng)一對(duì)一的對(duì)話模式。實(shí)驗(yàn)中，參與者同時(shí)與一名人類和一個(gè)AI（大語(yǔ)言模型）進(jìn)行文本對(duì)話，隨后判斷哪一方是人類。研究特別測(cè)試了多種語(yǔ)言模型，包括早期的ELIZA（1960年代的聊天機(jī)器人）、GPT-3.5以及最新的GPT-4.5（OpenAI的升級(jí)版）。測(cè)試對(duì)話時(shí)長(zhǎng)設(shè)定為5分鐘，參與者為500名普通用戶，確保樣本的廣泛性和代表性。

為了提升模型表現(xiàn)，研究者對(duì)GPT-4.5進(jìn)行了特定提示（prompt），要求其模仿人類的人格特質(zhì)，例如使用自然語(yǔ)氣、展現(xiàn)情緒反應(yīng)等。這種“擬人化”策略旨在彌補(bǔ)語(yǔ)言模型在長(zhǎng)時(shí)對(duì)話中可能暴露的機(jī)械性缺陷。此外，論文引入了“X-Turn Pass-Rate”指標(biāo)，用于衡量模型在不同對(duì)話輪次中的“人類相似度”，彌補(bǔ)了傳統(tǒng)圖靈測(cè)試忽視對(duì)話時(shí)長(zhǎng)影響的不足。

▍實(shí)驗(yàn)結(jié)果與突破

實(shí)驗(yàn)結(jié)果令人矚目。GPT-4.5在提示優(yōu)化后，被參與者誤認(rèn)為是人類的比例高達(dá)73%，遠(yuǎn)超人類自身的63%通過(guò)率（由于參與者對(duì)AI的高預(yù)期，人類有時(shí)被誤判為機(jī)器）。相比之下，GPT-3.5的通過(guò)率僅為14%，低于ELIZA的27%，而后者僅依賴預(yù)設(shè)回復(fù)，缺乏現(xiàn)代模型的語(yǔ)言生成能力。

論文指出，GPT-4.5的成功不僅在于其語(yǔ)言流暢性，還在于其能夠在短時(shí)間內(nèi)維持對(duì)話一致性，展現(xiàn)出類似人類的社會(huì)情感反應(yīng)。

研究還揭示了圖靈測(cè)試的一些局限性。作者認(rèn)為，語(yǔ)言模型通過(guò)測(cè)試更多依賴“風(fēng)格和社會(huì)情感因素”，而非傳統(tǒng)意義上的“智力”。這意味著，現(xiàn)代LLMs可能通過(guò)模仿人類行為模式而非真正理解語(yǔ)義來(lái)“欺騙”測(cè)試者。這一發(fā)現(xiàn)與哲學(xué)家約翰·塞爾提出的“中文房間”論點(diǎn)相呼應(yīng)，即通過(guò)測(cè)試并不等同于具備意識(shí)或真正智能。

▍對(duì)AI發(fā)展的意義

這項(xiàng)研究標(biāo)志著大語(yǔ)言模型首次在嚴(yán)格設(shè)計(jì)的圖靈測(cè)試中取得成功，具有多重意義：

技術(shù)里程碑
GPT-4.5的突破表明，基于大規(guī)模訓(xùn)練數(shù)據(jù)和改進(jìn)的Transformer架構(gòu)（如稀疏注意力機(jī)制和上下文記憶增強(qiáng)）的語(yǔ)言模型已接近人類語(yǔ)言行為的外在表現(xiàn)。這不僅驗(yàn)證了圖靈當(dāng)年的設(shè)想，也推動(dòng)了自然語(yǔ)言處理（NLP）領(lǐng)域的進(jìn)一步發(fā)展。
倫理與社會(huì)挑戰(zhàn)
當(dāng)AI能夠以73%的概率被誤認(rèn)為是人類時(shí)，其潛在的欺騙性引發(fā)了倫理?yè)?dān)憂。論文警告，若此類模型被惡意利用，可能用于傳播虛假信息或操控輿論。因此，透明性、檢測(cè)機(jī)制和監(jiān)管框架的建立變得尤為迫切。
重新定義智能評(píng)估
研究質(zhì)疑了圖靈測(cè)試作為智能標(biāo)準(zhǔn)的充分性。作者建議，未來(lái)的評(píng)估應(yīng)超越語(yǔ)言模仿，納入多模態(tài)能力（如視覺(jué)推理、物理交互）和長(zhǎng)期適應(yīng)性測(cè)試，以更全面地衡量AI的智能水平。

▍未來(lái)展望

盡管GPT-4.5通過(guò)了圖靈測(cè)試，但論文強(qiáng)調(diào)這并不意味著AI已達(dá)到人類智能的本質(zhì)。LLMs仍然是基于統(tǒng)計(jì)模式的“模仿者”，缺乏自主意識(shí)和對(duì)世界的深層理解。未來(lái)研究可能轉(zhuǎn)向開(kāi)發(fā)“System 2”型AI，即具備符號(hào)推理和抽象思維能力的系統(tǒng)，正如OpenAI的Sam Altman所預(yù)言的，單純依賴更大規(guī)模模型的時(shí)代或?qū)⒔Y(jié)束。

此外，隨著多模態(tài)模型（如Google的Gemini）的發(fā)展，AI可能在視覺(jué)、語(yǔ)言和動(dòng)作整合方面取得更大突破。如何設(shè)計(jì)適用于這些系統(tǒng)的“后圖靈測(cè)試”評(píng)估方法，將是學(xué)術(shù)界和產(chǎn)業(yè)界面臨的共同挑戰(zhàn)。

? AI范兒

要進(jìn)“交流群”，請(qǐng)關(guān)注公眾號(hào)獲取進(jìn)群方式

投稿、需求合作或報(bào)道請(qǐng)?zhí)砑庸娞?hào)獲取聯(lián)系方式

重磅！OpenAI 計(jì)劃發(fā)布首個(gè)“開(kāi)放”語(yǔ)言模型

GPT-4o 再更新，性能超越 4.5，成本卻只有 1/30

GPT-4o 顛覆漫畫創(chuàng)作：從吉卜力到熱血戰(zhàn)斗，AI 讓你秒變漫畫大師！

ChatGPT 生圖能力爆炸，這些神級(jí)案例讓人驚掉下巴

點(diǎn)這里關(guān)注我，記得標(biāo)星哦～

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.