ChatGPT是最近幾天的新聞熱點(diǎn)。互聯(lián)網(wǎng)上介紹的文章已經(jīng)很多,我就不過多介紹,直接說我自己的一些體驗(yàn)吧。去年末我關(guān)注到ChatGPT的流行,但因?yàn)樽?cè)的問題,一直沒有實(shí)際使用過。不過根據(jù)自媒體的介紹和坊間的聊天截圖,我已經(jīng)對(duì)它有了大致的了解。后來我又下載了一些基于ChatGPT開發(fā)的聊天應(yīng)用。因?yàn)檫@些應(yīng)用限定只能發(fā)送5條信息的緣故,體驗(yàn)并不太好。最近我通過短信代理正式注冊(cè)了賬號(hào),并設(shè)計(jì)了幾組測(cè)試了解它的功能,下面就是我的使用感受。
一本正經(jīng)胡說八道
這是我首先要測(cè)試的問題。因?yàn)橹拔覍?duì)AI聊天和AI寫作的了解就是一本正經(jīng)地胡說八道。但通過各種新聞介紹和坊間截圖,ChatGPT似乎有著高度的準(zhǔn)確性和邏輯性,它對(duì)人類語言的理解能力、對(duì)上下文的邏輯處理能力似乎已經(jīng)遠(yuǎn)遠(yuǎn)超過了之前的AI。事實(shí)當(dāng)真如此嗎?請(qǐng)看下面這組問題。
在這組問題中,我詢問了它一個(gè)簡單的問題:“曹操有幾個(gè)兒子?”它回答:“曹丕、曹植和曹彰。”我也搞不清楚曹操有幾個(gè)兒子,不過通過網(wǎng)絡(luò)搜索可知,他的兒子數(shù)量不止三個(gè)。于是我詢問“曹沖的爸爸是誰?”它很明確地回答我:“曹沖的父親是曹操。”于是我再次問“曹操有幾個(gè)兒子”這個(gè)問題,希望它可以根據(jù)我的提示,發(fā)現(xiàn)剛才的錯(cuò)誤。理想情況下,它會(huì)發(fā)現(xiàn)剛才的答案有錯(cuò),并回答曹操有四個(gè)兒子,曹丕、曹植、曹彰和曹沖。然而它并沒有,依然回答曹操有三個(gè)兒子。加上后面的聊天我們就可以發(fā)現(xiàn),只要你不去直接質(zhì)疑它的錯(cuò)誤,它就不會(huì)發(fā)現(xiàn)上下文中的邏輯錯(cuò)誤。
這也符合我對(duì)AI的認(rèn)知。它不具備常人以為的人工智能,只是在海量樣本訓(xùn)練、人工標(biāo)注干預(yù)、大量用戶糾正的基礎(chǔ)上,靠數(shù)學(xué)算法進(jìn)行統(tǒng)計(jì)預(yù)測(cè),靠機(jī)械性的訓(xùn)練盡可能提高正確答案的概率。
當(dāng)我給它說“你剛才說,曹沖的父親是曹操。”,它卻認(rèn)為我不滿意它的答案,認(rèn)為自己犯了錯(cuò)誤,推翻了之前正確的結(jié)論,認(rèn)為曹沖不是曹操的兒子,而是曹操的孫子。這似乎又意味著,它發(fā)現(xiàn)了上下文中的邏輯錯(cuò)誤?也有可能是,系統(tǒng)認(rèn)為這個(gè)答案的正確率偏低,ChatGPT通過我的語氣,認(rèn)為這個(gè)回答不正確。于是我又問,“如果曹沖不是曹操的兒子,那么曹沖的爸爸到底是誰呢?”它回答,曹沖的父親是曹丕,還加了一句,他是曹操的長子。于是我接著問曹叡的父親是誰。它回答曹睿的父親是曹操。我再問曹操有幾個(gè)兒子的問題,以確認(rèn)它到底能不能認(rèn)識(shí)到上下文的邏輯錯(cuò)誤,但它依然回答曹操有三個(gè)兒子。
我之前問曹叡時(shí),它回答我曹叡是是晉朝的第二任皇帝。于是我就問以這個(gè)問題開頭,并詢問晉朝的開國皇帝是誰?后面的事情就搞笑了,一度把我逗得都笑噴了。它開始一本正經(jīng)的胡說八道,只要你不去質(zhì)疑它,它就會(huì)一直給出完全離譜的答案。
后來,我又加做了一組測(cè)試,以判斷系統(tǒng)認(rèn)為正確率不高時(shí),是不是根據(jù)我的語氣判斷答案可能存在錯(cuò)誤的。
通過上面這組測(cè)試可以發(fā)現(xiàn),只要我一直用“你剛才說,XXX?”這種格式提問,它就會(huì)一直修改答案。為了對(duì)比,我又做了一組測(cè)試,詢問特朗普的父親是誰?
ChatGPT對(duì)特朗普父親這件事情很堅(jiān)定,我無法誤導(dǎo)它。由此可見,它回答的正確率確實(shí)依靠訓(xùn)練樣本和大量用戶使用時(shí)的反饋。當(dāng)中文訓(xùn)練樣本和用戶都不足時(shí),它就無法給出正確的答案。它依然是我所認(rèn)識(shí)的AI。當(dāng)然,它對(duì)自然語言的理解比之前的AI有比較大的進(jìn)步,表達(dá)能力有顯著加強(qiáng),但還沒有根本性的突破,特別是在上下文邏輯上。這里不得不說下面這組測(cè)試。
當(dāng)我問它康熙有幾個(gè)兒子時(shí),ChatGPT回答康熙有15個(gè)兒子。但當(dāng)我讓它給出兒子名單時(shí),它又說康熙有13個(gè)兒子,給出的兒子名單也的確是13個(gè)。但在最后,它又說上述名單并不全面,康熙擁有的兒子更多。可根據(jù)13個(gè)這一說法,這個(gè)名單邏輯上就是完全的。由此,我們就足以認(rèn)識(shí)到它的邏輯處理能力了,這個(gè)應(yīng)該和訓(xùn)練樣本的大小無關(guān)。這讓我想起了之前ChatGPT被人發(fā)現(xiàn),它可以天文地理無所不知,卻無法正確回答最最簡單的加減法。雖然后面開發(fā)團(tuán)隊(duì)對(duì)數(shù)學(xué)能力進(jìn)行了部分加強(qiáng),但根據(jù)一些好事者的截圖,當(dāng)用戶要求它證明哥德巴赫猜想時(shí),它依然會(huì)一本正經(jīng)的去為你證明。為此,我順便也考察了它的數(shù)學(xué)能力。
事實(shí)證明,它的數(shù)學(xué)能力的確得到了加強(qiáng),但依然令人著急。
這時(shí)問題來了。不能給出正確答案其實(shí)問題不大,可以說不知道。但因?yàn)樗墓ぷ髟碇皇腔诟怕式y(tǒng)計(jì),因此它并不真正知道答案正確與否。當(dāng)樣本和反饋不足時(shí),目前看來,它只能強(qiáng)行胡編亂造。畢竟,即便是中文訓(xùn)練樣本不足,但中文互聯(lián)網(wǎng)也不會(huì)有人說孫傳庭是孫中山父親。我們可以做出推論,如果問題不是那么熱門沒有太多樣本,答案的質(zhì)量恐怕就無法保證。我們仔細(xì)觀察就會(huì)發(fā)現(xiàn),網(wǎng)絡(luò)上關(guān)于ChatGPT給出的靠譜答案,大多都是一些常見問題或者只是一些不分對(duì)錯(cuò)的觀點(diǎn),甚至一些套話、空話。這些問題用搜索引擎就可以快速找到答案,甚至什么都不用我們也是能準(zhǔn)確答出,或者給出自己的明確立場(chǎng)。可能否回答相對(duì)小眾的、專業(yè)的、關(guān)乎事實(shí)的問題,才能體現(xiàn)它相對(duì)搜索引擎的優(yōu)越性。畢竟,目前看來它的速度比搜索引擎可慢多了,描述問題輸入文字的長度,也比搜索關(guān)鍵詞多很多,優(yōu)勢(shì)就在于省略了對(duì)比搜索結(jié)果這一過程。然而,在這方面的表現(xiàn)它可能不是更準(zhǔn)更快,而是更糟糕。
因?yàn)椤ⅰ⑷绻旬?dāng)它當(dāng)做一個(gè)搜索引擎使用時(shí),就可能導(dǎo)致一個(gè)明顯問題。搜索引擎原則上是把出現(xiàn)關(guān)鍵詞的相關(guān)內(nèi)容以列表的形式返回,供用戶自行判斷是否正確。聊天機(jī)器人是只能一個(gè)個(gè)給出答案,你失去了對(duì)比。這個(gè)時(shí)候答案的正確性就很重要,因?yàn)榭赡軐?duì)用戶造成嚴(yán)重且不可預(yù)估的誤導(dǎo)。固然它可以省略了使用搜索引擎時(shí),從海量低質(zhì)量信息中自我檢索這個(gè)繁瑣的過程提高了效率,但這種誤導(dǎo)也可能形成更嚴(yán)重的信息繭房。畢竟,當(dāng)下信息繭房一個(gè)很重要的因素就在于我們太懶。
編故事小能手,速度太慢
我又嘗試讓它給我編寫小故事。正如網(wǎng)絡(luò)上很多文章所指的那樣,它確實(shí)可以編故事。之前一些專門用來編故事寫文章的AI其實(shí)就已經(jīng)展現(xiàn)出來這方面的才能,畢竟故事不用涉及對(duì)錯(cuò)真假。不過之前的AI寫文章編故事時(shí),往往被稱之為狗屁不通。歸根到底,還是故事粗看還成,細(xì)看往往就啼笑皆非。下面是我讓它為編寫的科幻小說。
我在兩個(gè)不同的會(huì)話中,都讓它以地球人入侵外星為題材寫科幻小說。發(fā)現(xiàn)兩個(gè)劇本非常相似,基本都是人類發(fā)現(xiàn)外星,結(jié)果反被外星入侵,人類最終打敗了外星人。它給的章節(jié)架構(gòu)還算像模像樣,但這么簡單我自己也能編無數(shù)個(gè),而作為一個(gè)完整小說顯然還差好多。也就是說,AI的創(chuàng)作想象能力似乎并不如想象中那么強(qiáng)大。于是,我給了它更多信息,讓它為我創(chuàng)作一個(gè)愛情小說。
我的要求是:寫一個(gè)高富帥與灰姑娘的愛情小說。高富帥名叫威震天,灰姑娘叫瑪麗蘇。反派叫擎天柱,他試圖破壞高富帥和灰姑娘的愛情。擎天柱一度搶奪了灰姑娘,經(jīng)過千難萬險(xiǎn)后,高富帥終于得到了灰姑娘。
這次它編寫的故事感覺比之前的科幻小說要好。我故意把擎天柱和威震天反串了,但它依然準(zhǔn)確理解了我的意圖,把擎天柱描寫為一個(gè)壞蛋。也許,我們需要給它更多的描述,它才能為你編寫出更好的故事。你和它聊天時(shí),不管解決什么問題,描述越詳細(xì)精確,結(jié)果往往會(huì)更好一些,當(dāng)然,這一過程也越累。同樣的,我讓它按要求編寫另一個(gè)不一樣的故事時(shí),威震天和擎天柱依然還是富商,而且第二個(gè)愛情故事的最后兩章的劇情顯然有些雷同了。于是,我讓它不要編寫富商的故事,于是它就結(jié)合之前的科幻題材,編寫了一個(gè)科幻愛情故事。
另外一個(gè)嚴(yán)重問題,就是AI編寫故事的速度并不快,超時(shí)也會(huì)時(shí)不時(shí)發(fā)生。編寫一個(gè)故事可能耗時(shí)兩三分鐘甚至更久,甚至直接發(fā)生錯(cuò)誤。回答其他問題的速度也不算快,卡頓幾秒十來秒是常有的,而搜索引擎幾乎是瞬間返回的,也極少極少出現(xiàn)延遲問題。ChatGPT是一個(gè)預(yù)訓(xùn)練模型,它的準(zhǔn)確率有賴于巨大的樣本,但樣本越大,訓(xùn)練速度和資源開銷也就越大。用戶越多,使用時(shí)的壓力也大。它目前嚴(yán)重的性能問題可能不僅僅是因?yàn)橛脩袅康耐蝗槐┰觯部赡鼙緛砭褪且粋€(gè)不好解決的問題。
最后,奉上我讓它寫的詩詞。可以看出,雖然它比大多數(shù)人寫得好,但依然是基于樣本的鸚鵡學(xué)舌。正應(yīng)了中國的俗話:天下文章一大抄,就看會(huì)抄不會(huì)抄。目前來看,ChatGPT用在一些需要大量廢話場(chǎng)面話湊數(shù)量的場(chǎng)合應(yīng)該還是合適的。據(jù)說已經(jīng)有人用它寫作業(yè)、寫論文、寫專利、寫方案等等。這些場(chǎng)合的共同特點(diǎn),大概就是廢話多了。
可以編程,調(diào)試代碼麻煩
最開始,我讓它編寫實(shí)現(xiàn)貝塞爾曲線的JS程序,它出色的完成了任務(wù),代碼可以直接運(yùn)行。
有的朋友認(rèn)為這個(gè)任務(wù)太簡單,于是我換了一個(gè)更為實(shí)際的任務(wù)。要求獲取并返回主機(jī)的操作系統(tǒng)類型、操作系統(tǒng)版本、CPU型號(hào)、內(nèi)存大小、顯卡型號(hào)和分辨率大小,以及一個(gè)該主機(jī)的唯一標(biāo)識(shí)符。
這個(gè)程序確實(shí)可以運(yùn)行,但無法正確返回GPU和分辨率信息。我又提示它修改,但依然無法解決。我又嘗試讓它寫一段Python代碼,用于批量下載大偉拉姆齊地圖中心網(wǎng)站上的高清地圖。
這次編寫的代碼不可用,因?yàn)锳I并不知道網(wǎng)站上的地圖都是古舊地圖,畢竟,它可能只是根據(jù)地圖高清下載這個(gè)關(guān)鍵詞就概率的匹配上了在線電子地圖下載而已,它給的例子一看就是從不知道什么地方抄來的,下載在線電子地圖的例子。看來,它并不是真的會(huì)變成,而只是會(huì)抄。要讓它出色完成編程任務(wù),應(yīng)該需要更詳細(xì)的描述。于是我給了它更為準(zhǔn)確的新任務(wù)。
我讓它使用 puppeteer 實(shí)現(xiàn)網(wǎng)頁截圖程序,該程序可以通過命令行參數(shù)輸入網(wǎng)址、截圖分辨率、截圖格式、超時(shí)時(shí)間。因?yàn)榄h(huán)境問題第一版程序我無法運(yùn)行,于是我讓它改為使用puppeteer-core編寫程序。本來這只需要在前一版程序的基礎(chǔ)上簡單修改即可,但它卻寫了全新的程序。這次的程序出錯(cuò),我直接告訴了它錯(cuò)誤代碼,它嘗試為我解決問題,而我則讓它改寫之前的代碼。但是它并沒有改寫,而是完全重寫了之前的代碼。這段代碼還需要自行替換一些環(huán)境信息,并且運(yùn)行后又報(bào)錯(cuò),最終在和它溝通下問題得以解決。
最后我希望它為這個(gè)程序編寫使用文檔。結(jié)果它在文檔中再次我編寫了一個(gè)全新程序,連參數(shù)順序都改變了。也就是說,它每次都編寫了一個(gè)全新風(fēng)格的程序,而不是根據(jù)提示在之前的代碼上完善。因此,它其實(shí)并不具備真正的編程能力,不過根據(jù)它海量的訓(xùn)練數(shù)據(jù)在統(tǒng)計(jì)預(yù)測(cè)的基礎(chǔ)上輸出結(jié)果。不過,它可以為我們提供一些輔助,如快捷查詢API使用方法等,這樣也許就不用為了一個(gè)個(gè)簡單問題卻翻閱文檔了。它絕對(duì)無法讓程序員失業(yè),更可能像IDE一樣,成為輔助程序員的快捷工具。下面這些問答,我讓它查詢了一些代碼庫的使用方法。
我沒有實(shí)際運(yùn)行這些代碼,應(yīng)該說這些示例大體正確,用來做參考還是夠用的。不過也得承認(rèn),這些用例靠搜索引擎也能很快得出。
總結(jié)與在國內(nèi)的前途預(yù)測(cè)
ChatGPT確實(shí)比之前的AI更智能了。它對(duì)自然語言的理解和表達(dá)能力有很大提高。但受限于當(dāng)前人工智能的基本原理,要想有很多人所期盼那種突破恐怕還很難。它應(yīng)該可以做一個(gè)更好的Siri,替代人們做更多機(jī)械性的文字勞動(dòng)甚至用來灌水。有些朋友認(rèn)為,只要給時(shí)間它就可以不斷完善。但我們應(yīng)該知道這只是一種愿景沒有科學(xué)依據(jù),互聯(lián)網(wǎng)上突然風(fēng)光過一段時(shí)間然后陷入瓶頸的玩意實(shí)在太多了。我們對(duì)ChatGPT應(yīng)該報(bào)以觀望態(tài)度。互聯(lián)網(wǎng)比較喜歡造熱點(diǎn)和趕風(fēng)口,ChatGPT就是當(dāng)前被無數(shù)想發(fā)財(cái)致富的人所吹捧的風(fēng)口。
ChatGPT和它的模仿者在國內(nèi)應(yīng)該會(huì)遇到更多挑戰(zhàn)。首先ChatGPT依賴巨大的訓(xùn)練樣本,但中文互聯(lián)網(wǎng)的信息豐富程度遠(yuǎn)低于英文互聯(lián)網(wǎng),而且小網(wǎng)站小論壇的生存環(huán)境越來越差,這將直接影響到這些系統(tǒng)的準(zhǔn)確度。由于敏感詞的因素,中文互聯(lián)網(wǎng)上各種稀奇古怪的和諧詞匯也將是對(duì)AI的一大考驗(yàn)。中文互聯(lián)網(wǎng)的信息不僅僅不豐富,而且各大平臺(tái)還互相屏蔽。現(xiàn)在騰訊、百度、頭條等各自為政,只有B站、知乎等規(guī)模更小的平臺(tái)愿意把內(nèi)容開放給搜索引擎爬取。
但我們知道,B站、知乎愿意向其它搜索引擎開放,歸根到底是因?yàn)樗麄兤脚_(tái)小用戶少,搜索引擎作為一個(gè)中間商最終會(huì)把流量和用戶帶給平臺(tái)本身。但是,ChatGPT的原理導(dǎo)致了它的來源信息非常雜亂,以至于給不出可靠的參考,實(shí)際上它默認(rèn)也不會(huì)給出任何來源參考。因此,各大平臺(tái)只會(huì)推出自己的ChatGPT山寨版做一個(gè)個(gè)山大王土皇帝,絕對(duì)不愿意把自己平臺(tái)的內(nèi)容共享出來給別人做嫁衣。而且,在一個(gè)視頻當(dāng)?shù)赖臅r(shí)代,中文互聯(lián)網(wǎng)上不少有價(jià)值的信息已經(jīng)變成視頻了,人們也越來越懶不愿意看文字。視頻搜索本來就是一個(gè)難題,目前看來還沒有做得比較好的案例。
很多人說,ChatGPT可以代替搜索引擎云云。我們知道,在中國,把持搜索的百度,在搜索領(lǐng)域的地位遠(yuǎn)遠(yuǎn)比不上谷歌,即便在國內(nèi)也是一日不如一日。百度現(xiàn)在還重視搜索業(yè)務(wù)嗎?人們還用搜索引擎嗎?百度搜索引擎難用僅僅是百度賣廣告嗎?人們現(xiàn)在本來就已經(jīng)沉迷在智能推薦系統(tǒng)下了,本來就不希望求實(shí)求真,更懶得去搜索,那么更智能的信息獲取工具又有何用呢?在我看來,和ChatGPT聊天固然新鮮,但新鮮勁過后,大概還是不如刷一下就換一批內(nèi)容就把自己喜歡的喂到嘴里來得實(shí)在。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.