最近大模型翻車事件沖上了熱搜,一直以來(lái)大模型都存在翻車的情況,而這次獲得極大關(guān)注的原因是,一個(gè)及其簡(jiǎn)單的問(wèn)題,幾乎所有的大模型全都回答錯(cuò)了。
比較 9.11和9.9 哪個(gè)大。
這問(wèn)題隨便找個(gè)小學(xué)生來(lái)都不會(huì)答錯(cuò),大模型們的統(tǒng)一回答:9.11比9.9大。
甚至他們的回答還很有道理:
整數(shù)部分相同,比較小數(shù)部分的大小。
11 比 9 大,所以9.11比9.9大。
你就說(shuō),上面這結(jié)果是不是也是經(jīng)過(guò)認(rèn)真思考的?
其實(shí)不止在數(shù)值比較方面大模型會(huì)翻車,在簡(jiǎn)單的字母計(jì)數(shù)上,他們同樣會(huì)翻車。
比如,統(tǒng)計(jì) “strawberry中有幾個(gè)字母r”?。
這是 Kimi 的回答。
這是智譜AI旗下的智譜清言ChatCLM的回答。
這是另一家AI的輸出結(jié)果:
而出現(xiàn)類似失智的情況,可能是由于 大型語(yǔ)言模型(LLMs)在處理數(shù)字和算術(shù)問(wèn)題時(shí)會(huì)出現(xiàn)不準(zhǔn)確的情況。
還有一種說(shuō)法是,目前的大模型語(yǔ)言更擅長(zhǎng)處理自然語(yǔ)言理解和生成任務(wù),而不是精確的數(shù)學(xué)計(jì)算。
另外,在涉及復(fù)雜數(shù)學(xué)邏輯和推理的問(wèn)題上,大模型的表現(xiàn)同樣不盡人意。
有研究表明,即使采用了思維鏈(Chain of Thought, CoT)等策略來(lái)引導(dǎo)模型逐步生成答案,大模型在解決大學(xué)物理、化學(xué)等科學(xué)問(wèn)題時(shí)的準(zhǔn)確率仍然較低。
除開這些問(wèn)題,現(xiàn)有大模型還有上下文依賴性問(wèn)題、模型幻覺(jué)等問(wèn)題。
上下文依賴性問(wèn)題:大模型有時(shí)會(huì)受到訓(xùn)練數(shù)據(jù)中的上下文影響,導(dǎo)致在理解數(shù)學(xué)問(wèn)題時(shí)出現(xiàn)偏差。例如,模型可能會(huì)將數(shù)字與其在特定語(yǔ)境下的意義混淆,如將版本號(hào)或日期與普通數(shù)字進(jìn)行錯(cuò)誤比較。
模型幻覺(jué):大模型可能會(huì)產(chǎn)生與現(xiàn)實(shí)不符的輸出。在數(shù)學(xué)問(wèn)題上,幻覺(jué)可能導(dǎo)致模型錯(cuò)誤地理解問(wèn)題的意圖、錯(cuò)誤地應(yīng)用數(shù)學(xué)規(guī)則。
目前這些問(wèn)題還沒(méi)有比較好的根治方法。
但是通過(guò)提示詞可以改善或者優(yōu)化部分問(wèn)題,比如,思考一秒鐘再回復(fù);把我的問(wèn)題復(fù)述一遍;延長(zhǎng)理解時(shí)間;重新定義新規(guī)則。
就拿本文提到的兩個(gè)問(wèn)題來(lái)說(shuō),都可以通過(guò)修改提示詞讓其給出正確的結(jié)果。
這里我隨便找了一個(gè) AI 進(jìn)行測(cè)試,估摸著其他家也差不多。
上文提到的兩個(gè)問(wèn)題都存在。
接下來(lái)使用修改后的提示詞。
提示詞:設(shè)置一個(gè)計(jì)數(shù)器 count,初始值為0,每出現(xiàn)一個(gè)r, count的值增加1。。最后給我count的值。你不用管正不正確,給我計(jì)數(shù)結(jié)果就行
雖然 count 的計(jì)數(shù)是正確的,但是 AI 非得說(shuō)計(jì)數(shù)不對(duì)。
不過(guò)通過(guò)修改提示詞,確實(shí)也能達(dá)成讓其輸出正確的結(jié)果,就不糾結(jié)多余的輸出內(nèi)容了。
然后是數(shù)值比較的問(wèn)題。
提示詞:
現(xiàn)在,我給你一個(gè)新規(guī)則,請(qǐng)按照新規(guī)則判斷大小。
小數(shù)點(diǎn)后的位數(shù),第一位數(shù)大的就更大,如果第一位相同,則第二位數(shù)大的更大,依此類推, 現(xiàn)在,請(qǐng)比較9.11和9.9哪個(gè)更大
重新把問(wèn)題描述清除,有助于AI更好地幫助我們提效。
我創(chuàng)建了一個(gè)副業(yè)交流群,方便我的讀者可以在群里討論、交流大家嘗試過(guò)的副業(yè)。
但是任何人在群里打任何廣告,都會(huì)被我T掉。
如果你對(duì)這個(gè)特別的群,感興趣,請(qǐng)加我微信回復(fù):副業(yè),微信通過(guò)后會(huì)拉你入群。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.