ChatGPT的背后：信息繭房，內容剽竊，貧瘠的中文互聯(lián)網(wǎng)

2023-02-15 12:55:42　來源: 地圖書

四川舉報

分享至

ChatGPT火爆全網(wǎng)后，一時吹捧者如過江之鯽，引起社會廣泛熱議。許多人稱，它將要取代多少行業(yè)，程序員要下崗，也有人思考為什么不是在中國誕生云云。當然，在這其中也有少數(shù)人潑冷水和質疑的，比如美國一位語言學家最近就稱ChatGPT的本質是剽竊。

我其實也屬于一個質疑派。在前文《體驗一把ChatGPT：一本正經(jīng)胡說八道，在中國前途難測》中，我認可了ChatGPT作為一款語言模型的顯著優(yōu)點：它對用戶輸入信息的理解能力和對輸出信息的語言表達能力的確嘆為觀止。但同時，我也通過親自評測指出了ChatGPT的多個問題。比如喜歡一本正經(jīng)地胡說八道。如果說主觀題還可以說東拼西湊問題不大，那么關于客觀事實的問題，它喜歡東拼西湊反復強答而不是告訴你不知道，那么就屬于嚴重誤導用戶和顯著缺陷了。關于寫作和編程相關的能力，經(jīng)測試確實有亮眼的表現(xiàn)，但說要替代一大批人恐怕還為時尚早，替代一個行業(yè)更是無從說起。如果說成為這些行業(yè)提高效率的生產力工具，也許才是更合理的評價。

今天我們將要探討另外一個問題，那就是：ChatGPT到底能否替代搜索引擎，以及它如果真的替代了搜索引擎，到底是進步還是退步？

前文發(fā)出后有一些讀者評論說，ChatGPT要使用英語聊天才有好的表現(xiàn)，中文聊天出現(xiàn)的種種問題只是因為訓練樣本不足，它還有巨大的進步空間，千萬不能輕率地下結論。但我們知道，ChatGPT能有大量的英文資料進行訓練，其中一個原因，就是英文互聯(lián)網(wǎng)的信息本來就遠超中文互聯(lián)網(wǎng)。根據(jù)維基百科的信息顯示，截至2020年3月25日，W3Techs 預測前一百萬互聯(lián)網(wǎng)網(wǎng)站使用的語言文字百分比中，英語占比59.3%，而中文不過1.3%。

當然，這個統(tǒng)計可能只建議用來參考。以中國的互聯(lián)網(wǎng)人口和互聯(lián)網(wǎng)產業(yè)的發(fā)達程度而言，除了英語外，我覺得其他語種的信息量恐怕不太可能超過中文。但另一方面，中文互聯(lián)網(wǎng)網(wǎng)站一年比一年少是一個事實。根據(jù)之前的一些新聞顯示，截至2021年12月，我國網(wǎng)站數(shù)量為418萬個，較2020年12月減少25萬個，同比下降5.5%。當年風光一時的天涯論壇現(xiàn)在已經(jīng)要死不活，貓撲社區(qū)更是已經(jīng)關門倒閉。就在前些天，知名論壇國學數(shù)典的一位管理人員已經(jīng)正式宣布該論壇“終于結束”了。

隨著個人網(wǎng)站和論壇的持續(xù)沒落，百度作為中國搜索引擎的龍頭，現(xiàn)在已經(jīng)越來越爬取不到有質量的網(wǎng)頁信息。而且，像B站這類可供百度爬取的平臺大部分內容還是視頻，知乎已經(jīng)是百度搜索少有的優(yōu)質信息來源。微博雖然也是允許百度爬取的大平臺之一，但微博顯然更偏向娛樂，而不是知識社區(qū)。百度自家的百度百科、百度知道、百度貼吧等，曾經(jīng)也是中文互聯(lián)網(wǎng)的標桿產品，現(xiàn)在已經(jīng)被百度運營到半死不活。

中文互聯(lián)網(wǎng)的信息不僅遠遠少于英文互聯(lián)網(wǎng)，而且還封閉在無數(shù)封閉的APP和幾個互相封閉對立的大平臺里，比如公眾號、頭條號、抖音號、百家號、網(wǎng)易號等。如果信息少和封閉也就罷了，信息質量也是一言難盡。百度、阿里、騰訊、頭條這三大巨頭都直接或者間接屏蔽了各自爬蟲，只有B站、知乎、微博等體量較小平臺允許其它搜索引擎相對自由的爬取，這進一步導致各家的搜索引擎都爬取不到有用的信息。與之相對的，國外的推特、臉書、youtube、reddit等平臺，都是允許谷歌和必應等搜索引擎自由爬取的。

中文互聯(lián)網(wǎng)不僅僅封閉和質量差，完全開放免費的信息更是少之又少。如果你詢問ChatGPT的回答參考了什么資料，它會這樣告訴你：“我的訓練數(shù)據(jù)來自互聯(lián)網(wǎng)上的大量文本，包括新聞、博客、圖書等。通過處理這些文本，我學會了語言知識和回答問題的能力。因此，我的回答來自于我的訓練數(shù)據(jù)，而不是從某個特定的資料庫中獲得的信息。”但如果你刨根問底，一定要它給出參考鏈接，ChatGPT常會返回維基百科的鏈接。

也就是說，英文互聯(lián)網(wǎng)不僅僅相互開放的程度高，還有維基百科這樣完全自由免費的信息平臺。這是導致許多應用優(yōu)先誕生在美國的原因之一。如果你看了ChatGPT的相關評論就應該知道，一些業(yè)內人士認為ChatGPT的技術含量不見得特別高，各種跟風產品也很快就如一群嗅覺靈敏前來撲食的餓狗一般不斷冒了出來。它能做到這樣的職能，很大程度上要歸功于它優(yōu)質而龐大的訓練樣本。ChatGPT的訓練樣本其實也依靠大量的人工標注，對于中國人而言，廉價的人力資源下人工標注不成問題，但關鍵是，中文互聯(lián)網(wǎng)上沒有足夠的開放信息資源。

就好之前我在《谷歌地球與文化輸出》和《地圖開發(fā)者：我以為是一個詐騙電話，原來真要我給五萬元》這兩篇文章中，已經(jīng)說明了完全免費開放的OpenStreetMap對于地理應用創(chuàng)新的重要性，這讓MapBox這樣的企業(yè)在初創(chuàng)階段就不用面對昂貴的全球地理信息數(shù)據(jù)授權問題。而對于ChatGPT的創(chuàng)業(yè)團隊而言，因為有維基百科的存在，他們也不用在初創(chuàng)階段就考慮天價資料庫授權的問題，這就非常有利于小公司的創(chuàng)新。在之前的更多的文章中，我們也說過，國外大學圖書館、博物館網(wǎng)站有大量完全免費開放的信息資源，是促進相關研究快速發(fā)展的重要基礎。

因此我可以預判，雖然理論上ChatGPT可以通過增加中文樣本的訓練提高中文回答的質量，但現(xiàn)實的問題是，它找不到足夠的中文信息開放資源。也注定了國內的巨頭只會關起門來搞各自的ChatGPT山寨版，不可能把內容給它做嫁衣。而各個ChatGPT山寨版也不過是關門自嗨：沒有足夠優(yōu)質和豐富訓練樣本，這群撲上去的餓狗只不過是一群賣萌的哈士奇。現(xiàn)在國內熱炒ChatGPT，我認為很大一個原因，就是互聯(lián)網(wǎng)產業(yè)面對發(fā)展停滯的困境，他們急需營造下一個風口。只有這樣，才能吸引更多投資，業(yè)內的投機者才能以此發(fā)家致富。這和之前瘋狂炒作元宇宙、Web3.0等概念其實沒什么不同。

然而，我們今天的批判不僅僅如此。我要指出的問題，不僅僅在于中國互聯(lián)網(wǎng)的封閉，而在于ChatGPT如果真的替代了搜索引擎，其實更是一場全球互聯(lián)網(wǎng)的災難。

我們應該知道，ChatGPT的并沒有真正的原創(chuàng)能力，它給出的回答，是基于大量網(wǎng)絡資料綜合判斷后，雜糅在一起的重新表達，這導致它的回答其實給不出明確的來源。根據(jù)一些用戶的反饋，即便它給出的引用論文來源，也可能是它瞎編不存在的。實際上，如果ChatGPT完全代替了傳統(tǒng)的搜索引擎，這不是進步，而是退步和災難。因為他把網(wǎng)絡上無數(shù)人貢獻的信息據(jù)為己有了。傳統(tǒng)的搜索只是個賺廣告費的中間商，你在搜索引擎搜索資料，最終是要跳轉到原網(wǎng)站，讓內容平臺獲取流量與用戶的同時也能賺到廣告費。而內容平臺其實也是一個中間商，它給了作者露臉的機會，可以賺到知名度、粉絲和收益。

我在和ChatGPT聊天的過程中發(fā)現(xiàn)，它固然可以說是無所不知，但它卻不會告訴你它是如何實現(xiàn)無所不知的，你再也看不到來源鏈接了，只是感嘆它的神奇。長此以往，恐怕我們也懶得去搜索引擎對比信息和訪問真正的內容平臺了。

最近不少程序員都在說，ChatGPT真的很便捷。它能自動寫代碼，能夠自動查問題和解決問題。可它的這一切，很大程度上是因為參考了StackOverflow等程序員社區(qū)的網(wǎng)絡資料而已。如果大家都沉迷于此，不再去訪問StackOverflow給平臺帶去收入，不給熱心的答主點贊互動，那么誰還愿意去程序員社區(qū)排疑解難呢？誰還愿意寫技術博客呢？這不過就成了一場竭澤而漁的大剽竊罷了。如果他不解決這個生態(tài)問題，那么ChatGPT必然不會有好下場。據(jù)稱ChatGPT火爆后，StackOverflow正被程序員拋棄，訪問量一個月驟降了3200W，這不是殺雞取卵又是什么呢？美國語言學家諾姆·喬姆斯基也認為，ChatGPT是一個高科技剽竊系統(tǒng)，它從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律，并依照規(guī)則將數(shù)據(jù)串連在一起，形成像人寫的文章和內容。也就是說，它沒有真正的原創(chuàng)能力，而只是靠剽竊給論文系統(tǒng)灌水。如果灌水的人可以靠此拼論文數(shù)量上位，這不就是劣幣驅逐良幣，最后你一搜索論文庫大部分都是垃圾了嗎？

當然，我們也不用過度擔心這些危害。因為說ChatGPT完全替代搜索引擎還為時尚早。微軟和ChatGPT的合作，也是將ChatGPT作為必應搜索引擎和Office辦公產品的一種補充而不是替代。在我看來，ChatGPT作為搜索引擎的補充是進步的，也是必然的，因為我們確實會常用提問的方式在搜索引擎中搜索答案，Siri等手機智能助手也為我們的日常生活提供了不少方便。

ChatGPT要替代搜索引擎其實還有一個致命的缺點，那就是它對時事新聞的反應能力幾乎沒有。如果你讓ChatGPT告訴你最近的新聞，它會這樣回答你：“很抱歉，作為一個預訓練模型，我并不知道當前具體的新聞情況。建議您查閱現(xiàn)實世界的新聞來源，如新聞網(wǎng)站或電視新聞頻道等。”

如果你再具體詢問一些這兩年發(fā)生的事情，就知道它確實不知道，而且還會明確告訴你，它的知識截止在2021年。這大概是因為ChatGPT作為一個預訓練模型，需要龐大的訓練數(shù)據(jù)和大量的人工標注，這導致它的訓練成本異常高昂且非常耗時。

據(jù)網(wǎng)絡資料顯示，ChatGPT的模型經(jīng)歷三次迭代，參數(shù)量從1.17 億增至1750 億，預訓練數(shù)據(jù)量從5GB 增至45TB，其中光GPT-3訓練單次成本已達460 萬美元，而現(xiàn)在它已經(jīng)迭代到了GPT-4，恐怕單次訓練成本就將超過千萬美元。訓練ChatGPT需要使用大量算力資源。據(jù)微軟官網(wǎng)信息顯示，微軟Azure為OpenAI開發(fā)的超級計算機是一個單一系統(tǒng)，具有超過28.5萬個CPU核心、1萬個GPU和400 GB/s的GPU服務器網(wǎng)絡傳輸帶寬。據(jù)英偉達信息顯示，使用單個Tesla架構的V100 GPU對1746億參數(shù)的GPT-3模型進行一次訓練，需要用288年時間。因此，即便1萬個最先進的GPU以及之前的GPT-3模型不分晝夜地全速訓練，其單次訓練也需要十多天才能完成。目前ChatGPT的知識已經(jīng)落后了現(xiàn)實一年以上，這對于替代搜索引擎而言，可以說是一個致命的缺陷，但如果只是作為搜索引擎的補充的話，那么問題就小了很多。

不過問題還沒有結束。我們在前文末尾已經(jīng)說過另外一個問題：人們真的愿意使用搜索引擎嗎？當新鮮勁過后，人們還會熱衷于和ChatGPT聊天嗎？曾幾何時，我們在網(wǎng)絡上更多是用電腦查找資料，需要自己去主動搜索信息，然后一個一個比對不同人、不同平臺的說法。搜索引擎避免我們去網(wǎng)站單獨查找信息是個巨大的進步，也因此，在一段時期內，搜索引擎扮演著流量分配者的角色。谷歌這一角色扮演的較好，因為它相對公正，在利益和體驗之間取得了較好的平衡。總是充斥著大量低質廣告的百度則受到了強烈抨擊。

但到了移動互聯(lián)網(wǎng)下的APP時代，推薦引擎已經(jīng)主導了流量分配，許多人其實已經(jīng)放棄了通用搜索引擎，最多也就通過APP的內部搜索搜一下而已。依靠不停刷新手機APP從熱榜、推薦、關注列表中獲取文字信息，從不停上上翻刷小視頻，這種躺在床上就把自己喜歡的美味喂到嘴邊的方式固然很符合喜歡懶惰這一人性，但也導致了越來越嚴重的信息繭房，越來越明顯的群體對立和兩級分化。因此，便捷固然能帶來好處，但也會讓我們失去很多。比如推薦系統(tǒng)帶來的信息繭房，比如短視頻看多了就不喜歡看長視頻，更難以沉下心去閱讀厚重的書籍。

古人云，兼聽則明，偏信則暗，但兼聽不同的說法其實是一個繁瑣的過程，經(jīng)常看對立的觀點，更容易讓人上火和厭煩。ChatGPT一問就有答案固然是好，但這種完全拋棄搜索列表對比的方式，不是一種更嚴重的信息繭房嗎？搜索引擎為我們提供更多信息參考來源是好事，但替我們省略搜集整理這一過程直接有問必答其實是一件壞事。這也是一些人很快意識到，ChatGPT如果流行后可以用于輿論戰(zhàn)和控制意識形態(tài)的原因。這絕對不是危言聳聽，而是思想懶惰后的必然。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.