ChatGPT火爆全網后,一時吹捧者如過江之鯽,引起社會廣泛熱議。許多人稱,它將要取代多少行業,程序員要下崗,也有人思考為什么不是在中國誕生云云。當然,在這其中也有少數人潑冷水和質疑的,比如美國一位語言學家最近就稱ChatGPT的本質是剽竊。
我其實也屬于一個質疑派。在前文《體驗一把ChatGPT:一本正經胡說八道,在中國前途難測》中,我認可了ChatGPT作為一款語言模型的顯著優點:它對用戶輸入信息的理解能力和對輸出信息的語言表達能力的確嘆為觀止。但同時,我也通過親自評測指出了ChatGPT的多個問題。比如喜歡一本正經地胡說八道。如果說主觀題還可以說東拼西湊問題不大,那么關于客觀事實的問題,它喜歡東拼西湊反復強答而不是告訴你不知道,那么就屬于嚴重誤導用戶和顯著缺陷了。關于寫作和編程相關的能力,經測試確實有亮眼的表現,但說要替代一大批人恐怕還為時尚早,替代一個行業更是無從說起。如果說成為這些行業提高效率的生產力工具,也許才是更合理的評價。
今天我們將要探討另外一個問題,那就是:ChatGPT到底能否替代搜索引擎,以及它如果真的替代了搜索引擎,到底是進步還是退步?
前文發出后有一些讀者評論說,ChatGPT要使用英語聊天才有好的表現,中文聊天出現的種種問題只是因為訓練樣本不足,它還有巨大的進步空間,千萬不能輕率地下結論。但我們知道,ChatGPT能有大量的英文資料進行訓練,其中一個原因,就是英文互聯網的信息本來就遠超中文互聯網。根據維基百科的信息顯示,截至2020年3月25日,W3Techs 預測前一百萬互聯網網站使用的語言文字百分比中,英語占比59.3%,而中文不過1.3%。
當然,這個統計可能只建議用來參考。以中國的互聯網人口和互聯網產業的發達程度而言,除了英語外,我覺得其他語種的信息量恐怕不太可能超過中文。但另一方面,中文互聯網網站一年比一年少是一個事實。根據之前的一些新聞顯示,截至2021年12月,我國網站數量為418萬個,較2020年12月減少25萬個,同比下降5.5%。當年風光一時的天涯論壇現在已經要死不活,貓撲社區更是已經關門倒閉。就在前些天,知名論壇國學數典的一位管理人員已經正式宣布該論壇“終于結束”了。
隨著個人網站和論壇的持續沒落,百度作為中國搜索引擎的龍頭,現在已經越來越爬取不到有質量的網頁信息。而且,像B站這類可供百度爬取的平臺大部分內容還是視頻,知乎已經是百度搜索少有的優質信息來源。微博雖然也是允許百度爬取的大平臺之一,但微博顯然更偏向娛樂,而不是知識社區。百度自家的百度百科、百度知道、百度貼吧等,曾經也是中文互聯網的標桿產品,現在已經被百度運營到半死不活。
中文互聯網的信息不僅遠遠少于英文互聯網,而且還封閉在無數封閉的APP和幾個互相封閉對立的大平臺里,比如公眾號、頭條號、抖音號、百家號、網易號等。如果信息少和封閉也就罷了,信息質量也是一言難盡。百度、阿里、騰訊、頭條這三大巨頭都直接或者間接屏蔽了各自爬蟲,只有B站、知乎、微博等體量較小平臺允許其它搜索引擎相對自由的爬取,這進一步導致各家的搜索引擎都爬取不到有用的信息。與之相對的,國外的推特、臉書、youtube、reddit等平臺,都是允許谷歌和必應等搜索引擎自由爬取的。
中文互聯網不僅僅封閉和質量差,完全開放免費的信息更是少之又少。如果你詢問ChatGPT的回答參考了什么資料,它會這樣告訴你:“我的訓練數據來自互聯網上的大量文本,包括新聞、博客、圖書等。通過處理這些文本,我學會了語言知識和回答問題的能力。因此,我的回答來自于我的訓練數據,而不是從某個特定的資料庫中獲得的信息?!钡绻闩俑鶈柕?,一定要它給出參考鏈接,ChatGPT常會返回維基百科的鏈接。
也就是說,英文互聯網不僅僅相互開放的程度高,還有維基百科這樣完全自由免費的信息平臺。這是導致許多應用優先誕生在美國的原因之一。如果你看了ChatGPT的相關評論就應該知道,一些業內人士認為ChatGPT的技術含量不見得特別高,各種跟風產品也很快就如一群嗅覺靈敏前來撲食的餓狗一般不斷冒了出來。它能做到這樣的職能,很大程度上要歸功于它優質而龐大的訓練樣本。ChatGPT的訓練樣本其實也依靠大量的人工標注,對于中國人而言,廉價的人力資源下人工標注不成問題,但關鍵是,中文互聯網上沒有足夠的開放信息資源。
就好之前我在《谷歌地球與文化輸出》和《地圖開發者:我以為是一個詐騙電話,原來真要我給五萬元》這兩篇文章中,已經說明了完全免費開放的OpenStreetMap對于地理應用創新的重要性,這讓MapBox這樣的企業在初創階段就不用面對昂貴的全球地理信息數據授權問題。而對于ChatGPT的創業團隊而言,因為有維基百科的存在,他們也不用在初創階段就考慮天價資料庫授權的問題,這就非常有利于小公司的創新。在之前的更多的文章中,我們也說過,國外大學圖書館、博物館網站有大量完全免費開放的信息資源,是促進相關研究快速發展的重要基礎。
因此我可以預判,雖然理論上ChatGPT可以通過增加中文樣本的訓練提高中文回答的質量,但現實的問題是,它找不到足夠的中文信息開放資源。也注定了國內的巨頭只會關起門來搞各自的ChatGPT山寨版,不可能把內容給它做嫁衣。而各個ChatGPT山寨版也不過是關門自嗨:沒有足夠優質和豐富訓練樣本,這群撲上去的餓狗只不過是一群賣萌的哈士奇?,F在國內熱炒ChatGPT,我認為很大一個原因,就是互聯網產業面對發展停滯的困境,他們急需營造下一個風口。只有這樣,才能吸引更多投資,業內的投機者才能以此發家致富。這和之前瘋狂炒作元宇宙、Web3.0等概念其實沒什么不同。
然而,我們今天的批判不僅僅如此。我要指出的問題,不僅僅在于中國互聯網的封閉,而在于ChatGPT如果真的替代了搜索引擎,其實更是一場全球互聯網的災難。
我們應該知道,ChatGPT的并沒有真正的原創能力,它給出的回答,是基于大量網絡資料綜合判斷后,雜糅在一起的重新表達,這導致它的回答其實給不出明確的來源。根據一些用戶的反饋,即便它給出的引用論文來源,也可能是它瞎編不存在的。實際上,如果ChatGPT完全代替了傳統的搜索引擎,這不是進步,而是退步和災難。因為他把網絡上無數人貢獻的信息據為己有了。傳統的搜索只是個賺廣告費的中間商,你在搜索引擎搜索資料,最終是要跳轉到原網站,讓內容平臺獲取流量與用戶的同時也能賺到廣告費。而內容平臺其實也是一個中間商,它給了作者露臉的機會,可以賺到知名度、粉絲和收益。
我在和ChatGPT聊天的過程中發現,它固然可以說是無所不知,但它卻不會告訴你它是如何實現無所不知的,你再也看不到來源鏈接了,只是感嘆它的神奇。長此以往,恐怕我們也懶得去搜索引擎對比信息和訪問真正的內容平臺了。
最近不少程序員都在說,ChatGPT真的很便捷。它能自動寫代碼,能夠自動查問題和解決問題??伤倪@一切,很大程度上是因為參考了StackOverflow等程序員社區的網絡資料而已。如果大家都沉迷于此,不再去訪問StackOverflow給平臺帶去收入,不給熱心的答主點贊互動,那么誰還愿意去程序員社區排疑解難呢?誰還愿意寫技術博客呢?這不過就成了一場竭澤而漁的大剽竊罷了。如果他不解決這個生態問題,那么ChatGPT必然不會有好下場。據稱ChatGPT火爆后,StackOverflow正被程序員拋棄,訪問量一個月驟降了3200W,這不是殺雞取卵又是什么呢?美國語言學家諾姆·喬姆斯基也認為,ChatGPT是一個高科技剽竊系統,它從海量數據中發現規律,并依照規則將數據串連在一起,形成像人寫的文章和內容。也就是說,它沒有真正的原創能力,而只是靠剽竊給論文系統灌水。如果灌水的人可以靠此拼論文數量上位,這不就是劣幣驅逐良幣,最后你一搜索論文庫大部分都是垃圾了嗎?
當然,我們也不用過度擔心這些危害。因為說ChatGPT完全替代搜索引擎還為時尚早。微軟和ChatGPT的合作,也是將ChatGPT作為必應搜索引擎和Office辦公產品的一種補充而不是替代。在我看來,ChatGPT作為搜索引擎的補充是進步的,也是必然的,因為我們確實會常用提問的方式在搜索引擎中搜索答案,Siri等手機智能助手也為我們的日常生活提供了不少方便。
ChatGPT要替代搜索引擎其實還有一個致命的缺點,那就是它對時事新聞的反應能力幾乎沒有。如果你讓ChatGPT告訴你最近的新聞,它會這樣回答你:“很抱歉,作為一個預訓練模型,我并不知道當前具體的新聞情況。建議您查閱現實世界的新聞來源,如新聞網站或電視新聞頻道等。”
如果你再具體詢問一些這兩年發生的事情,就知道它確實不知道,而且還會明確告訴你,它的知識截止在2021年。這大概是因為ChatGPT作為一個預訓練模型,需要龐大的訓練數據和大量的人工標注,這導致它的訓練成本異常高昂且非常耗時。
據網絡資料顯示,ChatGPT的模型經歷三次迭代,參數量從1.17 億增至1750 億,預訓練數據量從5GB 增至45TB,其中光GPT-3訓練單次成本已達460 萬美元,而現在它已經迭代到了GPT-4,恐怕單次訓練成本就將超過千萬美元。訓練ChatGPT需要使用大量算力資源。據微軟官網信息顯示,微軟Azure為OpenAI開發的超級計算機是一個單一系統,具有超過28.5萬個CPU核心、1萬個GPU和400 GB/s的GPU服務器網絡傳輸帶寬。據英偉達信息顯示,使用單個Tesla架構的V100 GPU對1746億參數的GPT-3模型進行一次訓練,需要用288年時間。因此,即便1萬個最先進的GPU以及之前的GPT-3模型不分晝夜地全速訓練,其單次訓練也需要十多天才能完成。目前ChatGPT的知識已經落后了現實一年以上,這對于替代搜索引擎而言,可以說是一個致命的缺陷,但如果只是作為搜索引擎的補充的話,那么問題就小了很多。
不過問題還沒有結束。我們在前文末尾已經說過另外一個問題:人們真的愿意使用搜索引擎嗎?當新鮮勁過后,人們還會熱衷于和ChatGPT聊天嗎?曾幾何時,我們在網絡上更多是用電腦查找資料,需要自己去主動搜索信息,然后一個一個比對不同人、不同平臺的說法。搜索引擎避免我們去網站單獨查找信息是個巨大的進步,也因此,在一段時期內,搜索引擎扮演著流量分配者的角色。谷歌這一角色扮演的較好,因為它相對公正,在利益和體驗之間取得了較好的平衡??偸浅涑庵罅康唾|廣告的百度則受到了強烈抨擊。
但到了移動互聯網下的APP時代,推薦引擎已經主導了流量分配,許多人其實已經放棄了通用搜索引擎,最多也就通過APP的內部搜索搜一下而已。依靠不停刷新手機APP從熱榜、推薦、關注列表中獲取文字信息,從不停上上翻刷小視頻,這種躺在床上就把自己喜歡的美味喂到嘴邊的方式固然很符合喜歡懶惰這一人性,但也導致了越來越嚴重的信息繭房,越來越明顯的群體對立和兩級分化。因此,便捷固然能帶來好處,但也會讓我們失去很多。比如推薦系統帶來的信息繭房,比如短視頻看多了就不喜歡看長視頻,更難以沉下心去閱讀厚重的書籍。
古人云,兼聽則明,偏信則暗,但兼聽不同的說法其實是一個繁瑣的過程,經??磳α⒌挠^點,更容易讓人上火和厭煩。ChatGPT一問就有答案固然是好,但這種完全拋棄搜索列表對比的方式,不是一種更嚴重的信息繭房嗎?搜索引擎為我們提供更多信息參考來源是好事,但替我們省略搜集整理這一過程直接有問必答其實是一件壞事。這也是一些人很快意識到,ChatGPT如果流行后可以用于輿論戰和控制意識形態的原因。這絕對不是危言聳聽,而是思想懶惰后的必然。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.