《AI創(chuàng)世者》劇照 圖源網(wǎng)絡(luò)
零信任元年——對(duì)信息化尤其是人工智能的反思
文/海北尬生
這么多年以來(lái),人們一直在討論人工智能,包括我們公眾號(hào)也推出了很多論述這方面的文章。絕大多數(shù)的論述都對(duì)人工智能和類(lèi)似的技術(shù)抱以極大的期望,給予的都是正面的評(píng)價(jià)。
但是就我個(gè)人的體驗(yàn),我不會(huì)把這個(gè)評(píng)價(jià)給的太高。的確,在最近這一段時(shí)間,我開(kāi)始用一些軟件幫忙改英文語(yǔ)法錯(cuò)誤之類(lèi)的,但這是這么多年以來(lái)我唯一的一次信任人工智能。之前的一些體驗(yàn)已經(jīng)毀掉了這個(gè)信任,最顯著的就是百度。倒退幾年,我還是經(jīng)常用百度的,因?yàn)樯厦娴男畔⒌拇_都是準(zhǔn)的,提供的知識(shí)也都是對(duì)的。但自從他們開(kāi)始用人工智能撰寫(xiě)回答以后,情況就變了。當(dāng)我試圖把本專(zhuān)業(yè)的東西輸入進(jìn)他們的系統(tǒng),讓他們給出答案的時(shí)候,我發(fā)現(xiàn)給出的答案往往是錯(cuò)的,或者語(yǔ)焉不詳?shù)钠瑑簻?。仔?xì)去查它引用的文獻(xiàn),我們往往發(fā)現(xiàn)這些“文獻(xiàn)”來(lái)自于極不靠譜的來(lái)源,或者干脆自己就是人工智能生成的。我的理解是,這個(gè)人工智能只是在收集一些他認(rèn)為有關(guān)的信息,稍加處理之后便交給我,至于對(duì)不對(duì),靠不靠譜,他就不管了。
百度對(duì)“人工智能撰寫(xiě)回答”的回答
或許這是發(fā)展不全面的結(jié)果:我們沒(méi)有讓人工智能發(fā)展到能夠鑒別并分析文獻(xiàn)的程度。但我懷疑,這一天或許技術(shù)上可行,但也有可能永遠(yuǎn)不會(huì)到達(dá)。想要讓人工智能分析文獻(xiàn)、鑒別文獻(xiàn),我們需要告訴他們什么是對(duì)的,什么是錯(cuò)的。比如對(duì)應(yīng)理工科而言,想要保證給出的答案的正確率,人工智能必須要把每一個(gè)分支學(xué)科都學(xué)到至少相當(dāng)于人類(lèi)大學(xué)碩士生或者博士生的水平;對(duì)于文科而言更復(fù)雜,因?yàn)槲目七€要面臨事實(shí)與觀點(diǎn)之間的區(qū)別,除了知識(shí)本身,我們還需要教會(huì)他們區(qū)分這一點(diǎn)。
這些技術(shù)上或許終究可以達(dá)到,但是從時(shí)間尺度上和經(jīng)濟(jì)上情況就不同了。想要做到這一點(diǎn),我們必須要保證有足夠多的正確的信息可以使用,不會(huì)被我們現(xiàn)在這些“人工智障”胡編亂造出來(lái)的東西污染,這樣才能正確的訓(xùn)練我們的人工智能機(jī)器。可是我們是不是太晚了?有多少人的論文里面已經(jīng)引用了人工智能寫(xiě)的這些東西?又有多少人的論文干脆就是用這樣的手段偽造的?在經(jīng)濟(jì)上,人們真的會(huì)花很大力氣追求比現(xiàn)在更大的精確度嗎?因?yàn)楹芏嗳朔置饔X(jué)得人工智能寫(xiě)出來(lái)東西就足夠靠譜了——盡管事實(shí)顯然不是。為了一個(gè)其實(shí)很小很尖端的市場(chǎng),花如此大的精力大動(dòng)干戈,很少會(huì)有互聯(lián)網(wǎng)企業(yè)有責(zé)任心會(huì)這樣做。
我說(shuō)人工智能寫(xiě)出來(lái)的東西不靠譜,其實(shí)并不是偏見(jiàn),這是已經(jīng)被證實(shí)的事實(shí)。不到一個(gè)月前,醫(yī)學(xué)界的頂刊bmj上發(fā)表了一篇非常有意思的論文 Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis ,大家可以看一下。簡(jiǎn)單來(lái)說(shuō),撰寫(xiě)論文的人也認(rèn)可chatgpt這樣的人工智能在搜集處理信息方面的能力,特別是在一些醫(yī)學(xué)考試中,取得了比人類(lèi)更好的成績(jī)。但是論文作者并不完全信任這一點(diǎn),他們懷疑chatgpt這樣的大語(yǔ)言模型自己的認(rèn)知本身就有問(wèn)題。于是他們讓這些大語(yǔ)言模型做了一些人類(lèi)用來(lái)衡量認(rèn)知水平的測(cè)試。結(jié)果是,大語(yǔ)言模型成功地通過(guò)了一些測(cè)試,比如分辨動(dòng)物,但也在一些人類(lèi)輕松能夠解決的測(cè)試中集體掛科,比如畫(huà)一塊時(shí)鐘。測(cè)試的四個(gè)大語(yǔ)言模型中,只有chatgpt-4o剛剛打到了26分的及格線,其余的都被診斷為“輕度認(rèn)知障礙”。在現(xiàn)實(shí)生活中,我們肯定不會(huì)信任有這種診斷的人寫(xiě)的任何東西,可偏偏很多人對(duì)有這種診斷的大語(yǔ)言模型寫(xiě)的東西趨之若鶩。
當(dāng)然,我仍然相信,如果能夠被給予足夠多的正確的信息,人工智能是可以得到靠譜的結(jié)論的。棋牌方面的那幾個(gè)人工智能都是這樣,我們給他們輸入的棋譜都是經(jīng)典的,正確的,所以現(xiàn)在他們已經(jīng)達(dá)到了人類(lèi)棋手達(dá)不到的高度,比如alpha go之類(lèi)的。但是問(wèn)題的關(guān)鍵就是,能不能做到前面說(shuō)的這個(gè)“如果”。圍棋之類(lèi)的規(guī)則相對(duì)于很多東西還是太簡(jiǎn)單,錯(cuò)誤所造成的結(jié)果還是太明顯了,所以就算是這些人工智能在訓(xùn)練的時(shí)候接受了錯(cuò)誤的信息,或者生成了錯(cuò)誤的結(jié)果,他們很快就能意識(shí)到這一點(diǎn)。但是其他領(lǐng)域都遠(yuǎn)遠(yuǎn)比這個(gè)復(fù)雜很多。
圖源網(wǎng)絡(luò)
不要說(shuō)挑選出信息去培訓(xùn)人工智能,人類(lèi)自己在日常生活中也被這樣的東西困擾著。各種各樣的詐騙都是典范?;ヂ?lián)網(wǎng)剛出來(lái)的時(shí)候,人們?cè)?jīng)爭(zhēng)論過(guò)它究竟對(duì)于查不清事情真相是否有幫助,起的會(huì)是正面作用,還是反面作用?,F(xiàn)在來(lái)看,絕對(duì)是反面作用占主導(dǎo)的。查證真相所耗費(fèi)的精力并未減少,但是偽造出一些東西的時(shí)間和成本已經(jīng)被降低到了極致。清查真相的工作將會(huì)極其繁重,更關(guān)鍵的是,有些人不愿意做,而有些人天真的認(rèn)為不需要做。
比如說(shuō)最近很火的小紅書(shū)。我本人從來(lái)沒(méi)有用過(guò)這個(gè)軟件——至今也沒(méi)有,但我還是很感興趣上面發(fā)生的事兒。很多人在為中美之間的友好做出切實(shí)的努力,這樣的努力我愿意做,在實(shí)際生活當(dāng)中也一直在做,比如見(jiàn)到美國(guó)朋友,總邀請(qǐng)他們來(lái)中國(guó)之類(lèi)。然而,還是要潑一盆冷水:那些人真的是在和美國(guó)人溝通嗎?
當(dāng)時(shí)我想了解小紅書(shū)究竟有多火,于是就去著名的數(shù)據(jù)收集網(wǎng)站statista上查,結(jié)果如下:
這個(gè)數(shù)據(jù)顯示,自打公歷新年以來(lái),的確有相當(dāng)多的美國(guó)人下載了這個(gè)軟件。這個(gè)數(shù)據(jù)的收集截止到1月14日,所謂的“25年第一季度”其實(shí)指的就是這14天的數(shù)據(jù),總共下載了近70萬(wàn)次。這個(gè)數(shù)據(jù)當(dāng)然非常喜人,因?yàn)檎麄€(gè)24年的四季度,在美國(guó)總共只下載了50.8萬(wàn)多次,而那是整整的三個(gè)月。
然而問(wèn)題在于,這個(gè)數(shù)量與國(guó)內(nèi)公布的一些聲音有非常大的差距。國(guó)內(nèi)對(duì)于“究竟多少tik tok難民注冊(cè)了小紅書(shū)”往往是這樣的說(shuō)法:
300萬(wàn)這個(gè)數(shù)字對(duì)應(yīng)的具體時(shí)間節(jié)點(diǎn),是在1月17號(hào)聲稱(chēng)的“本周早些時(shí)候”,大概就對(duì)應(yīng)1月13號(hào),14號(hào)左右,也就是statista終止記錄的時(shí)刻。問(wèn)題就來(lái)了:300萬(wàn)人注冊(cè)了美國(guó)IP的賬號(hào)并登錄活動(dòng),卻只有70來(lái)萬(wàn)人真的在美國(guó)下載軟件,請(qǐng)問(wèn)剩下的賬號(hào)是哪來(lái)的?
當(dāng)然,還有一些更玄乎的說(shuō)法,來(lái)自一些不靠譜的自媒體,說(shuō)什么“1.7億tik tok難民都跑過(guò)來(lái)了”,過(guò)于離譜,不加討論。
有一些人可能聽(tīng)了這些東西會(huì)很憤怒,所以我先聲明幾點(diǎn):首先我不是說(shuō)小紅書(shū)上的美國(guó)賬號(hào)都是假的或者注冊(cè)這些賬號(hào)的人都是騙子,Statista記錄的在美國(guó)下載軟件注冊(cè)的應(yīng)該都是真正的美國(guó)人,真正的騙子也不會(huì)有時(shí)間說(shuō)一些“讓我看看你的寵物”之類(lèi)的。其次,我也不想說(shuō)他們?cè)谛〖t書(shū)上討論的任何特定觀點(diǎn),以及發(fā)表觀點(diǎn)的任何人是假的,這樣做需要精確到個(gè)人的證據(jù),但我沒(méi)有。我只是站在一個(gè)宏觀的層面,給出一個(gè)總體的結(jié)論而已。我只想提醒大家小心騙子,平臺(tái)上有這種人,僅此而已。
當(dāng)然,這樣說(shuō)肯定還有一些人要罵我,那我就請(qǐng)他們?cè)谶@樣做之前考慮一個(gè)問(wèn)題:他們究竟因?yàn)槭裁聪嘈虐l(fā)帖的那位真的是在美國(guó)的美國(guó)人?恐怕無(wú)非是“系統(tǒng)顯示IP地址是美國(guó)”或者“他發(fā)了自己的照片或者視頻,的確是白人”之類(lèi)的吧?但是這些東西不是很好偽造的嗎?
IP地址偽造起來(lái)很簡(jiǎn)單,用VPN就行。當(dāng)然,那些研究計(jì)算機(jī)的人肯定會(huì)有更高級(jí)的做法,對(duì)于這一行我不懂,就不妄加揣測(cè)了,但個(gè)人的真實(shí)經(jīng)驗(yàn)的確是VPN就能改變你的IP地址,我用的VPN已經(jīng)給過(guò)我香港,臺(tái)灣,日本,韓國(guó)甚至新加坡的IP地址,盡管我迄今為止從未到過(guò)那些地方。畢竟,VPN的工作原理就是讓你的電腦通過(guò)在其他地方的另外一臺(tái)電腦訪問(wèn)互聯(lián)網(wǎng),所以如果另外一臺(tái)電腦在美國(guó)聯(lián)網(wǎng),即使你的電腦和人都在中國(guó),也會(huì)給你顯示一個(gè)美國(guó)IP。
視頻和照片也是如此,現(xiàn)在的人工智能雖然如前所述,仍然在認(rèn)知程度上屬于輕度障礙水平,但是在繪畫(huà)和視頻編輯上已經(jīng)頗有能力。特別是如果不完全從零開(kāi)始生成,只是做一些換臉、改語(yǔ)言之類(lèi)的操作,情況就會(huì)更簡(jiǎn)單。這些東西已經(jīng)被玩爛了。2020年的時(shí)候,英國(guó)的第四頻道(channel4)通過(guò)換臉的方式做了一個(gè)搞笑版的女王圣誕賀詞,引起了相當(dāng)大的爭(zhēng)議。視頻當(dāng)中,“女王”頭戴王冠,身著藍(lán)色禮服,戴一條珍珠項(xiàng)鏈,端莊的坐在辦公桌后面,桌上擺著家人的相片,背景中可以看到一棵很大的圣誕樹(shù),一切都讓人察覺(jué)不到異樣,直到“女王”開(kāi)始講話,吐槽起B(yǎng)BC、自己的家人特別是深陷愛(ài)潑斯坦丑聞的安德魯王子、首相約翰遜,以及疫情中的廁紙危機(jī)之后,人們才意識(shí)到,這只是一場(chǎng)惡作劇。這是20年的事,現(xiàn)在過(guò)去了四五年,技術(shù)究竟發(fā)展到了什么程度想必不用我多說(shuō)。
假女王在《另類(lèi)演講》中跳舞 圖源網(wǎng)絡(luò)
所以我很希望小紅書(shū)上的交流討論能夠繼續(xù)下去,這種民間的交流、信任的建立往往是兩個(gè)國(guó)家良好外交關(guān)系的基石。但還是有必要提醒某些人:應(yīng)該保留有最基本的警惕。貓貓狗狗、開(kāi)什么汽車(chē)之類(lèi)的都可以談,但不要涉及個(gè)人信息,尤其是當(dāng)對(duì)方開(kāi)始使用那些詐騙的經(jīng)典套路,比如借錢(qián)、談戀愛(ài)的時(shí)候,就應(yīng)該懸崖勒馬了。否則就很有可能你以為錢(qián)去了New York,其實(shí)去了新鄉(xiāng)。
小紅書(shū)有責(zé)任清楚這些完全在中國(guó)的“美國(guó)人帳號(hào)”嗎?當(dāng)然有,但他們未必想,也真的力有不逮。他們也需要依賴(lài)IP地址,也和其他人或者企業(yè)一樣,沒(méi)有特別好的分辨照片兒或者視頻究竟是真的還是人工智能加工合成的能力。除了后臺(tái)的信息,他們所能依賴(lài)的其實(shí)也不比我們多。
這也不是小紅書(shū)一個(gè)軟件的問(wèn)題,國(guó)內(nèi)國(guó)外所有的這類(lèi)軟件都有大量的僵尸賬號(hào)、職業(yè)水軍、機(jī)器人賬號(hào)。諸如x(推特)這樣的平臺(tái)會(huì)通過(guò)人機(jī)測(cè)驗(yàn)這樣的方法來(lái)判斷用戶(hù)是否是真人,但實(shí)際上,從效果來(lái)看,結(jié)果也不好。從一開(kāi)始,這些平臺(tái)的建構(gòu)者就沒(méi)能找到他們面臨的所有關(guān)鍵問(wèn)題的解決方法,比如如何識(shí)別用戶(hù)是否是真人或者如何高效的清除水軍,現(xiàn)在只能走一步是一步。結(jié)果就是,瀏覽這些網(wǎng)站的人數(shù)越來(lái)越多,但可信度也最終越來(lái)越低。
所以,我們自己都無(wú)法確定互聯(lián)網(wǎng)上什么是真,什么是假,并加以肅清,我們?cè)撛趺幢WC我們訓(xùn)練人工智能用的信息都是對(duì)的?我們自己都找不到靠譜的政治理念或準(zhǔn)則,又該怎么教導(dǎo)人工智能?
尤其是,在這條走向虛假的路上,人工智能實(shí)際上構(gòu)建了一個(gè)正反饋:他們生成錯(cuò)誤的信息,然后反過(guò)來(lái)基于錯(cuò)誤的信息繼續(xù)培養(yǎng)新的錯(cuò)誤。這樣的趨勢(shì)本身就極其危險(xiǎn),更何況,人工智能還擁有巨大的力量。我上面舉到了“女王”的圣誕賀詞,但其實(shí)早在那兩年前,我和我的高中同學(xué)就已經(jīng)領(lǐng)教了這個(gè)東西的厲害。當(dāng)時(shí),科大訊飛來(lái)到我們學(xué)校開(kāi)講座,向我們很驕傲地展示了他們的成果,其中就包括一段完全用人工智能合成的特朗普對(duì)我們學(xué)校的致辭,既有英文又有中文,“特朗普”的肢體動(dòng)作和面部表情也完全以假亂真。
AI生成的賽博格特朗普 圖源網(wǎng)絡(luò)
科大訊飛向我們展示的技術(shù)的確震撼了包括我在內(nèi)的很多人,但讓他們和學(xué)校沒(méi)想到的是,這場(chǎng)講座給我們同學(xué)們整體帶來(lái)的關(guān)于人工智能的印象反而是負(fù)面的。在那之后,我們寫(xiě)過(guò)一次作文,結(jié)果同學(xué)們都在寫(xiě)對(duì)這種技術(shù)不可控和容易被濫用的擔(dān)憂。對(duì)政治感興趣的同學(xué),立即就認(rèn)識(shí)到這種東西會(huì)造成政治上的混亂,他們實(shí)際上已經(jīng)預(yù)料到了20年圣誕節(jié)的那場(chǎng)“女王”演講的惡作劇。還好那只是惡作劇,很可能再過(guò)幾年,我們真的就會(huì)看到白宮或者外交部的新聞發(fā)言人說(shuō)這樣的話了:“之前在網(wǎng)上流傳的那段總統(tǒng)/主席的視頻完全是用人工智能偽造的,我們強(qiáng)烈譴責(zé)這樣的行為”。
對(duì)互聯(lián)網(wǎng)和倫理感興趣的同學(xué)看得甚至更進(jìn)一步,他們認(rèn)為這樣的東西實(shí)際上會(huì)取消互聯(lián)網(wǎng)存在的意義。科大訊飛向我們展示的東西已經(jīng)證明,諸如視頻通話、網(wǎng)絡(luò)會(huì)議之類(lèi)的東西都不再可信了,打電話發(fā)短信更不必說(shuō),因?yàn)檫@些東西都可以被輕而易舉的偽造。未來(lái)的人們可能仍然會(huì)打電話發(fā)短信之類(lèi),但他們已經(jīng)不敢用他們談確切需要保證真實(shí)性的東西,要談這些的時(shí)候我們只能重新回到線下的時(shí)代。類(lèi)似的,網(wǎng)絡(luò)上的信息和文獻(xiàn)也不再可靠,我們很可能需要重新依賴(lài)紙質(zhì)的東西,即使從網(wǎng)絡(luò)上找東西,也只敢用發(fā)布時(shí)間早于生成式人工智能真正普及的時(shí)刻的。
我當(dāng)時(shí)記下了這些觀點(diǎn),但也不太確定是否是對(duì)是錯(cuò)。我們畢竟只是高中生,并沒(méi)有真正投入這個(gè)領(lǐng)域的研究。但是最近,我發(fā)現(xiàn)我們當(dāng)年想的東西其實(shí)是有道理的,在業(yè)內(nèi)也是有共鳴的。24年11月26號(hào),Open AI的前員工蘇吉爾巴拉吉被發(fā)現(xiàn)死在了自己家中。巴拉吉生前參與了chatgpt的訓(xùn)練工作,后來(lái)辭職,是open AI乃至整個(gè)人工智能領(lǐng)域的一個(gè)吹哨人,他指出,人工智能的培訓(xùn)以及使用過(guò)程中存在著嚴(yán)重的版權(quán)侵犯行為,比如培訓(xùn)過(guò)程中使用的很多文件未經(jīng)許可,諸如換臉、仿寫(xiě)這樣的生成結(jié)果顯然也構(gòu)成侵權(quán)。原本我只以為他只是在揭露版權(quán)方面,但最近才知道,他實(shí)際上已經(jīng)深入的探討了人工智能涉及的倫理問(wèn)題。尤其是他也認(rèn)為,人工智能在逐漸取代現(xiàn)有的各種網(wǎng)絡(luò)的服務(wù)時(shí),他們會(huì)提供錯(cuò)誤的,甚至純粹是編造的信息。他表示現(xiàn)在互聯(lián)網(wǎng)的生態(tài)系統(tǒng)已經(jīng)不可持續(xù),他不想再為這個(gè)技術(shù)繼續(xù)努力,也是因?yàn)樗庾R(shí)到它給社會(huì)帶來(lái)的傷害已經(jīng)大于利處了。
蘇吉爾巴拉吉 圖源網(wǎng)絡(luò)
原本以為技術(shù)能夠帶來(lái)福利,卻最終打開(kāi)了潘多拉魔盒,釋放出了我們控制不了的魔鬼。這種事在人類(lèi)的歷史上發(fā)生過(guò)很多次,比如著名的諾貝爾,原本希望他發(fā)明的安全炸藥能夠被用來(lái)從事工業(yè)生產(chǎn),造福人類(lèi),卻極其傷心發(fā)現(xiàn)它被用于戰(zhàn)爭(zhēng)。航空界的著名先驅(qū)人物阿爾貝托?桑托斯-杜蒙特晚年回到巴西后,發(fā)現(xiàn)自己的發(fā)明被用來(lái)從事內(nèi)戰(zhàn)、屠殺人民,留下了一句“我究竟發(fā)明了什么”之后自殺身亡。愛(ài)因斯坦和奧本海默這些研究原子彈的先驅(qū),后來(lái)都在從事反核運(yùn)動(dòng),愛(ài)因斯坦也說(shuō)過(guò)“早知是這種結(jié)果,我不如去當(dāng)一個(gè)修表匠”。
題目叫“零信任元年”,其實(shí)說(shuō)實(shí)話也不太清楚這個(gè)元年究竟是指哪一年,只是大致知道,它就在我們現(xiàn)在附近而已。我衷心希望像我們和巴拉吉這樣的觀點(diǎn)都只是一種悲觀的誤解,因?yàn)槲覀儗?shí)在是承受不起它變成真實(shí)的后果。但如果事實(shí)恰好證明我們是對(duì)的,那我們也沒(méi)有別的辦法。
作者簡(jiǎn)介
海北尬生:因其嘗求學(xué)于北海之北,每不顧環(huán)境而放尬言,故起此名也。喜航天,愛(ài)讀書(shū),本學(xué)理工,愛(ài)好文學(xué)。
平臺(tái)原創(chuàng)文章均為作者授權(quán)微信首發(fā),文章僅代表作者觀點(diǎn),與本平臺(tái)無(wú)關(guān)。
~the end~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.