人與AI的對(duì)弈是否已經(jīng)毫無意義?
——“總有一天AI會(huì)擁有自我,并將人類排除在外嗎?”
摘自:https://gendai.media/articles/-/149621
原題:「未來の囲碁を先取り」した!?…プロ困惑の一手で圧勝した囲碁AI「AlphaGo」はなぜこれほど強(qiáng)くなれたのか
摘自:現(xiàn)代Media
作者:田口善弘
“總有一天AI會(huì)擁有自我,并將人類排除在外嗎?”——對(duì)于2024年諾貝爾物理學(xué)獎(jiǎng)得主、天才科學(xué)家辛頓的警告,物理學(xué)家田口善弘提出了正面否定。
理由很簡(jiǎn)單:人工智能(AI)和人類的智能本質(zhì)上是不同的。然而,所謂“智能”究竟是什么?要解開這個(gè)謎團(tuán),就必須重新定義“智能”這一概念,并探究人類與AI之間“智能的差異”。
自我對(duì)弈
在電腦游戲領(lǐng)域引發(fā)革命的,是由Google DeepMind公司發(fā)起的圍棋挑戰(zhàn)。他們通過讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過去的圍棋對(duì)局?jǐn)?shù)據(jù),試圖使AI具備對(duì)抗人類職業(yè)棋手的能力。
機(jī)器學(xué)習(xí)要提高性能,需要大量學(xué)習(xí)數(shù)據(jù)。圍棋擁有悠久歷史,積累了數(shù)百萬局由職業(yè)棋手的“高水平”對(duì)局,這些都可以用作學(xué)習(xí)數(shù)據(jù)。
但DeepMind開發(fā)的AlphaGo不僅如此,還引入了“自我對(duì)弈”功能。所謂自我對(duì)弈,是讓AlphaGo彼此對(duì)弈,從中生成新的學(xué)習(xí)數(shù)據(jù),再用這些數(shù)據(jù)進(jìn)行學(xué)習(xí),從而變得更強(qiáng)。
引領(lǐng)未來的圍棋
乍一看,這種方式似乎無法變強(qiáng),但實(shí)際并非如此。通常,頂級(jí)職業(yè)棋手下一局棋需要幾天時(shí)間,而AlphaGo沒有這種限制。它可以生成無數(shù)個(gè)副本并行對(duì)弈,因此可以積累大量對(duì)局?jǐn)?shù)據(jù)。
AlphaGo通過學(xué)習(xí)128萬局完整對(duì)局來提升自己。結(jié)果,它掌握了許多連人類都未曾見過的下法。當(dāng)人類頂級(jí)棋手輸給AlphaGo時(shí),其落子甚至被評(píng)價(jià)為“AlphaGo的圍棋已無法用現(xiàn)有觀念解釋”。
尤其是在圍棋中后盤才應(yīng)處理的中腹,AlphaGo從開局就大膽進(jìn)攻,這令人類職業(yè)棋手感到困惑。或許人類職業(yè)棋手在遙遠(yuǎn)的未來也能達(dá)到AlphaGo的水平,但AlphaGo通過大量自我對(duì)弈,率先“預(yù)演”了未來的圍棋。
AlphaGo的ASI性
如今,關(guān)于是否存在超越人類的ASI(人工超級(jí)智能 Artificial Super Intelligence)、以及何時(shí)出現(xiàn)的討論熱鬧非凡。但如果僅僅指“超越現(xiàn)有人類智能”,那AlphaGo也可以算是其中一種。
但必須注意,這種“超越”只是提前獲得知識(shí)而已。就像“神童”有兩類:一種是早熟型,只是比同齡人成熟得早,但長大后優(yōu)勢(shì)會(huì)消失;另一種是真正的天才,成年后仍然維持領(lǐng)先優(yōu)勢(shì)。
AlphaGo的ASI性屬于前者。因此,在討論何謂ASI時(shí)必須保持警惕。
看似“超級(jí)智能”的AI終會(huì)出現(xiàn),但它是僅僅提前掌握了知識(shí)(即便這已很了不起),還是已經(jīng)達(dá)到人類無法企及的高度,這點(diǎn)需要我們保持辨別力。
畢竟,大學(xué)里現(xiàn)在教授的數(shù)學(xué),剛誕生時(shí)也只有極少數(shù)天才才能理解,曾被視為“高等”概念。
AlphaZero的驚人性能
靠自我對(duì)弈超越人類的AlphaGo后來不再與人類對(duì)弈,認(rèn)為那“毫無意義”。但它的進(jìn)化并未止步。
其繼任者AlphaZero能處理圍棋、將棋、西洋棋等所有對(duì)弈型游戲。其方法是:完全摒棄“從人類對(duì)局學(xué)習(xí)”的方式,只給予規(guī)則,其余全靠自己自我對(duì)弈進(jìn)化。因此,它成為了適用于各種游戲的通用型AI。
AlphaZero的能力極為驚人。它不僅超越了由自我對(duì)弈訓(xùn)練、并曾擊敗人類頂尖棋手的AlphaGo Zero,而且只用了短短8小時(shí)的學(xué)習(xí)時(shí)間,在100局比賽中以60勝40負(fù)的戰(zhàn)績(jī)勝出。而AlphaGo Zero在完全自我學(xué)習(xí)的前提下,擊敗舊版本則花費(fèi)了40多天,這一對(duì)比令人震驚。
這一發(fā)現(xiàn)——只要給出規(guī)則,再通過自我對(duì)弈學(xué)習(xí)即可變強(qiáng)——帶來了巨大沖擊。比如,AlphaZero的后繼者M(jìn)uZero更進(jìn)一步,連“規(guī)則本身”也納入學(xué)習(xí)對(duì)象。換言之,哪怕是圍棋、將棋,甚至是電子游戲,MuZero都可以通過觀察對(duì)局過程來推測(cè)規(guī)則、學(xué)習(xí)規(guī)則,并在掌握規(guī)則后通過自我對(duì)弈不斷進(jìn)化。
AlphaZero在棋盤上直接進(jìn)行戰(zhàn)略思考,而MuZero則是在某種由其內(nèi)部構(gòu)建的、代表棋盤或游戲畫面的“另一個(gè)空間”中進(jìn)行思考。
也就是說,MuZero并非直接處理現(xiàn)實(shí)世界,而是在其內(nèi)部構(gòu)建的“現(xiàn)實(shí)的解釋空間”中進(jìn)行模擬。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.