網易首頁 > 網易號 > 正文申請入駐

體驗一把ChatGPT：一本正經胡說八道，在中國前途難測

2023-02-09 21:09:00　來源: 地圖書

四川舉報

分享至

ChatGPT是最近幾天的新聞熱點。互聯網上介紹的文章已經很多，我就不過多介紹，直接說我自己的一些體驗吧。去年末我關注到ChatGPT的流行，但因為注冊的問題，一直沒有實際使用過。不過根據自媒體的介紹和坊間的聊天截圖，我已經對它有了大致的了解。后來我又下載了一些基于ChatGPT開發的聊天應用。因為這些應用限定只能發送5條信息的緣故，體驗并不太好。最近我通過短信代理正式注冊了賬號，并設計了幾組測試了解它的功能，下面就是我的使用感受。

一本正經胡說八道

這是我首先要測試的問題。因為之前我對AI聊天和AI寫作的了解就是一本正經地胡說八道。但通過各種新聞介紹和坊間截圖，ChatGPT似乎有著高度的準確性和邏輯性，它對人類語言的理解能力、對上下文的邏輯處理能力似乎已經遠遠超過了之前的AI。事實當真如此嗎？請看下面這組問題。

在這組問題中，我詢問了它一個簡單的問題：“曹操有幾個兒子？”它回答：“曹丕、曹植和曹彰。”我也搞不清楚曹操有幾個兒子，不過通過網絡搜索可知，他的兒子數量不止三個。于是我詢問“曹沖的爸爸是誰？”它很明確地回答我：“曹沖的父親是曹操。”于是我再次問“曹操有幾個兒子”這個問題，希望它可以根據我的提示，發現剛才的錯誤。理想情況下，它會發現剛才的答案有錯，并回答曹操有四個兒子，曹丕、曹植、曹彰和曹沖。然而它并沒有，依然回答曹操有三個兒子。加上后面的聊天我們就可以發現，只要你不去直接質疑它的錯誤，它就不會發現上下文中的邏輯錯誤。

這也符合我對AI的認知。它不具備常人以為的人工智能，只是在海量樣本訓練、人工標注干預、大量用戶糾正的基礎上，靠數學算法進行統計預測，靠機械性的訓練盡可能提高正確答案的概率。

當我給它說“你剛才說，曹沖的父親是曹操。”，它卻認為我不滿意它的答案，認為自己犯了錯誤，推翻了之前正確的結論，認為曹沖不是曹操的兒子，而是曹操的孫子。這似乎又意味著，它發現了上下文中的邏輯錯誤？也有可能是，系統認為這個答案的正確率偏低，ChatGPT通過我的語氣，認為這個回答不正確。于是我又問，“如果曹沖不是曹操的兒子，那么曹沖的爸爸到底是誰呢？”它回答，曹沖的父親是曹丕，還加了一句，他是曹操的長子。于是我接著問曹叡的父親是誰。它回答曹睿的父親是曹操。我再問曹操有幾個兒子的問題，以確認它到底能不能認識到上下文的邏輯錯誤，但它依然回答曹操有三個兒子。

我之前問曹叡時，它回答我曹叡是是晉朝的第二任皇帝。于是我就問以這個問題開頭，并詢問晉朝的開國皇帝是誰？后面的事情就搞笑了，一度把我逗得都笑噴了。它開始一本正經的胡說八道，只要你不去質疑它，它就會一直給出完全離譜的答案。

后來，我又加做了一組測試，以判斷系統認為正確率不高時，是不是根據我的語氣判斷答案可能存在錯誤的。

通過上面這組測試可以發現，只要我一直用“你剛才說，XXX？”這種格式提問，它就會一直修改答案。為了對比，我又做了一組測試，詢問特朗普的父親是誰？

ChatGPT對特朗普父親這件事情很堅定，我無法誤導它。由此可見，它回答的正確率確實依靠訓練樣本和大量用戶使用時的反饋。當中文訓練樣本和用戶都不足時，它就無法給出正確的答案。它依然是我所認識的AI。當然，它對自然語言的理解比之前的AI有比較大的進步，表達能力有顯著加強，但還沒有根本性的突破，特別是在上下文邏輯上。這里不得不說下面這組測試。

當我問它康熙有幾個兒子時，ChatGPT回答康熙有15個兒子。但當我讓它給出兒子名單時，它又說康熙有13個兒子，給出的兒子名單也的確是13個。但在最后，它又說上述名單并不全面，康熙擁有的兒子更多。可根據13個這一說法，這個名單邏輯上就是完全的。由此，我們就足以認識到它的邏輯處理能力了，這個應該和訓練樣本的大小無關。這讓我想起了之前ChatGPT被人發現，它可以天文地理無所不知，卻無法正確回答最最簡單的加減法。雖然后面開發團隊對數學能力進行了部分加強，但根據一些好事者的截圖，當用戶要求它證明哥德巴赫猜想時，它依然會一本正經的去為你證明。為此，我順便也考察了它的數學能力。

事實證明，它的數學能力的確得到了加強，但依然令人著急。

這時問題來了。不能給出正確答案其實問題不大，可以說不知道。但因為它的工作原理只是基于概率統計，因此它并不真正知道答案正確與否。當樣本和反饋不足時，目前看來，它只能強行胡編亂造。畢竟，即便是中文訓練樣本不足，但中文互聯網也不會有人說孫傳庭是孫中山父親。我們可以做出推論，如果問題不是那么熱門沒有太多樣本，答案的質量恐怕就無法保證。我們仔細觀察就會發現，網絡上關于ChatGPT給出的靠譜答案，大多都是一些常見問題或者只是一些不分對錯的觀點，甚至一些套話、空話。這些問題用搜索引擎就可以快速找到答案，甚至什么都不用我們也是能準確答出，或者給出自己的明確立場。可能否回答相對小眾的、專業的、關乎事實的問題，才能體現它相對搜索引擎的優越性。畢竟，目前看來它的速度比搜索引擎可慢多了，描述問題輸入文字的長度，也比搜索關鍵詞多很多，優勢就在于省略了對比搜索結果這一過程。然而，在這方面的表現它可能不是更準更快，而是更糟糕。

因為、、如果把當它當做一個搜索引擎使用時，就可能導致一個明顯問題。搜索引擎原則上是把出現關鍵詞的相關內容以列表的形式返回，供用戶自行判斷是否正確。聊天機器人是只能一個個給出答案，你失去了對比。這個時候答案的正確性就很重要，因為可能對用戶造成嚴重且不可預估的誤導。固然它可以省略了使用搜索引擎時，從海量低質量信息中自我檢索這個繁瑣的過程提高了效率，但這種誤導也可能形成更嚴重的信息繭房。畢竟，當下信息繭房一個很重要的因素就在于我們太懶。

編故事小能手，速度太慢

我又嘗試讓它給我編寫小故事。正如網絡上很多文章所指的那樣，它確實可以編故事。之前一些專門用來編故事寫文章的AI其實就已經展現出來這方面的才能，畢竟故事不用涉及對錯真假。不過之前的AI寫文章編故事時，往往被稱之為狗屁不通。歸根到底，還是故事粗看還成，細看往往就啼笑皆非。下面是我讓它為編寫的科幻小說。

我在兩個不同的會話中，都讓它以地球人入侵外星為題材寫科幻小說。發現兩個劇本非常相似，基本都是人類發現外星，結果反被外星入侵，人類最終打敗了外星人。它給的章節架構還算像模像樣，但這么簡單我自己也能編無數個，而作為一個完整小說顯然還差好多。也就是說，AI的創作想象能力似乎并不如想象中那么強大。于是，我給了它更多信息，讓它為我創作一個愛情小說。

我的要求是：寫一個高富帥與灰姑娘的愛情小說。高富帥名叫威震天，灰姑娘叫瑪麗蘇。反派叫擎天柱，他試圖破壞高富帥和灰姑娘的愛情。擎天柱一度搶奪了灰姑娘，經過千難萬險后，高富帥終于得到了灰姑娘。

這次它編寫的故事感覺比之前的科幻小說要好。我故意把擎天柱和威震天反串了，但它依然準確理解了我的意圖，把擎天柱描寫為一個壞蛋。也許，我們需要給它更多的描述，它才能為你編寫出更好的故事。你和它聊天時，不管解決什么問題，描述越詳細精確，結果往往會更好一些，當然，這一過程也越累。同樣的，我讓它按要求編寫另一個不一樣的故事時，威震天和擎天柱依然還是富商，而且第二個愛情故事的最后兩章的劇情顯然有些雷同了。于是，我讓它不要編寫富商的故事，于是它就結合之前的科幻題材，編寫了一個科幻愛情故事。

另外一個嚴重問題，就是AI編寫故事的速度并不快，超時也會時不時發生。編寫一個故事可能耗時兩三分鐘甚至更久，甚至直接發生錯誤。回答其他問題的速度也不算快，卡頓幾秒十來秒是常有的，而搜索引擎幾乎是瞬間返回的，也極少極少出現延遲問題。ChatGPT是一個預訓練模型，它的準確率有賴于巨大的樣本，但樣本越大，訓練速度和資源開銷也就越大。用戶越多，使用時的壓力也大。它目前嚴重的性能問題可能不僅僅是因為用戶量的突然暴增，也可能本來就是一個不好解決的問題。

最后，奉上我讓它寫的詩詞。可以看出，雖然它比大多數人寫得好，但依然是基于樣本的鸚鵡學舌。正應了中國的俗話：天下文章一大抄，就看會抄不會抄。目前來看，ChatGPT用在一些需要大量廢話場面話湊數量的場合應該還是合適的。據說已經有人用它寫作業、寫論文、寫專利、寫方案等等。這些場合的共同特點，大概就是廢話多了。

可以編程，調試代碼麻煩

最開始，我讓它編寫實現貝塞爾曲線的JS程序，它出色的完成了任務，代碼可以直接運行。

有的朋友認為這個任務太簡單，于是我換了一個更為實際的任務。要求獲取并返回主機的操作系統類型、操作系統版本、CPU型號、內存大小、顯卡型號和分辨率大小，以及一個該主機的唯一標識符。

這個程序確實可以運行，但無法正確返回GPU和分辨率信息。我又提示它修改，但依然無法解決。我又嘗試讓它寫一段Python代碼，用于批量下載大偉拉姆齊地圖中心網站上的高清地圖。

這次編寫的代碼不可用，因為AI并不知道網站上的地圖都是古舊地圖，畢竟，它可能只是根據地圖高清下載這個關鍵詞就概率的匹配上了在線電子地圖下載而已，它給的例子一看就是從不知道什么地方抄來的，下載在線電子地圖的例子。看來，它并不是真的會變成，而只是會抄。要讓它出色完成編程任務，應該需要更詳細的描述。于是我給了它更為準確的新任務。

我讓它使用 puppeteer 實現網頁截圖程序，該程序可以通過命令行參數輸入網址、截圖分辨率、截圖格式、超時時間。因為環境問題第一版程序我無法運行，于是我讓它改為使用puppeteer-core編寫程序。本來這只需要在前一版程序的基礎上簡單修改即可，但它卻寫了全新的程序。這次的程序出錯，我直接告訴了它錯誤代碼，它嘗試為我解決問題，而我則讓它改寫之前的代碼。但是它并沒有改寫，而是完全重寫了之前的代碼。這段代碼還需要自行替換一些環境信息，并且運行后又報錯，最終在和它溝通下問題得以解決。

最后我希望它為這個程序編寫使用文檔。結果它在文檔中再次我編寫了一個全新程序，連參數順序都改變了。也就是說，它每次都編寫了一個全新風格的程序，而不是根據提示在之前的代碼上完善。因此，它其實并不具備真正的編程能力，不過根據它海量的訓練數據在統計預測的基礎上輸出結果。不過，它可以為我們提供一些輔助，如快捷查詢API使用方法等，這樣也許就不用為了一個個簡單問題卻翻閱文檔了。它絕對無法讓程序員失業，更可能像IDE一樣，成為輔助程序員的快捷工具。下面這些問答，我讓它查詢了一些代碼庫的使用方法。

我沒有實際運行這些代碼，應該說這些示例大體正確，用來做參考還是夠用的。不過也得承認，這些用例靠搜索引擎也能很快得出。

總結與在國內的前途預測

ChatGPT確實比之前的AI更智能了。它對自然語言的理解和表達能力有很大提高。但受限于當前人工智能的基本原理，要想有很多人所期盼那種突破恐怕還很難。它應該可以做一個更好的Siri，替代人們做更多機械性的文字勞動甚至用來灌水。有些朋友認為，只要給時間它就可以不斷完善。但我們應該知道這只是一種愿景沒有科學依據，互聯網上突然風光過一段時間然后陷入瓶頸的玩意實在太多了。我們對ChatGPT應該報以觀望態度。互聯網比較喜歡造熱點和趕風口，ChatGPT就是當前被無數想發財致富的人所吹捧的風口。

ChatGPT和它的模仿者在國內應該會遇到更多挑戰。首先ChatGPT依賴巨大的訓練樣本，但中文互聯網的信息豐富程度遠低于英文互聯網，而且小網站小論壇的生存環境越來越差，這將直接影響到這些系統的準確度。由于敏感詞的因素，中文互聯網上各種稀奇古怪的和諧詞匯也將是對AI的一大考驗。中文互聯網的信息不僅僅不豐富，而且各大平臺還互相屏蔽。現在騰訊、百度、頭條等各自為政，只有B站、知乎等規模更小的平臺愿意把內容開放給搜索引擎爬取。

但我們知道，B站、知乎愿意向其它搜索引擎開放，歸根到底是因為他們平臺小用戶少，搜索引擎作為一個中間商最終會把流量和用戶帶給平臺本身。但是，ChatGPT的原理導致了它的來源信息非常雜亂，以至于給不出可靠的參考，實際上它默認也不會給出任何來源參考。因此，各大平臺只會推出自己的ChatGPT山寨版做一個個山大王土皇帝，絕對不愿意把自己平臺的內容共享出來給別人做嫁衣。而且，在一個視頻當道的時代，中文互聯網上不少有價值的信息已經變成視頻了，人們也越來越懶不愿意看文字。視頻搜索本來就是一個難題，目前看來還沒有做得比較好的案例。

很多人說，ChatGPT可以代替搜索引擎云云。我們知道，在中國，把持搜索的百度，在搜索領域的地位遠遠比不上谷歌，即便在國內也是一日不如一日。百度現在還重視搜索業務嗎？人們還用搜索引擎嗎？百度搜索引擎難用僅僅是百度賣廣告嗎？人們現在本來就已經沉迷在智能推薦系統下了，本來就不希望求實求真，更懶得去搜索，那么更智能的信息獲取工具又有何用呢？在我看來，和ChatGPT聊天固然新鮮，但新鮮勁過后，大概還是不如刷一下就換一批內容就把自己喜歡的喂到嘴里來得實在。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.