朱浩然 翻譯
摘要:
人工智能和機器學(xué)習(xí)的最新研究在很大程度上強調(diào)了通用學(xué)習(xí)和越來越大的訓(xùn)練集以及越來越多的計算。
相反,我提出了一種以認知模型為中心的混合,知識驅(qū)動,基于推理的方法,該方法可以為比當前可能的更豐富,更健壯的AI提供基礎(chǔ)。
1.邁向強大的人工智能
盡管沒有人完全知道深度學(xué)習(xí)或人工智能將在未來幾十年發(fā)展,但是如果我們要達到一個新的水平,那么既要考慮過去十年所學(xué)到的知識,又要研究下一步應(yīng)該研究的東西。
讓我們將其稱為健壯的人工智能新水平:雖然不一定是超人或自我完善的智能,但可以依靠它以系統(tǒng)和可靠的方式將其所學(xué)知識應(yīng)用到廣泛的問題中,從各種知識中綜合知識來源,這樣它就可以靈活,動態(tài)地對世界進行推理,以一種我們對普通成年人所期望的方式,將它在一個環(huán)境中學(xué)到的東西轉(zhuǎn)移到另一環(huán)境中。
從某種意義上說,這是一個微不足道的目標,既不像“超人”或“人工智能”那樣雄心勃勃,也沒有像它那樣無邊無際,但也許是邁出重要的一步,并且是可以實現(xiàn)的,如果我們要實現(xiàn)這一目標,那是至關(guān)重要的一步。創(chuàng)建我們可以信賴的人工智能,無論是在我們的家中,在道路上,在醫(yī)生的辦公室和醫(yī)院,在企業(yè)中還是在社區(qū)中,我們都可以信賴。
簡而言之,如果我們不能指望人工智能能夠可靠地表現(xiàn),那么我們就不應(yīng)該信任它。(當然,事實并非如此:可靠性不能保證可信度;相反,可靠性不能保證可信度。這只是許多前提條件之一,包括價值和良好的工程實踐;請參閱Marcus和Davis(Marcus&Davis,2019)進行進一步討論。)
有人可能會將強大的AI與例如狹義的智能,可以很好地完成單個狹窄目標(例如下棋或識別狗的品種)的系統(tǒng)進行對比,但這些系統(tǒng)往往以非常單一的任務(wù)為中心,并且不健壯且無法轉(zhuǎn)移到甚至適度不同的環(huán)境(例如,到不同尺寸的電路板,或從一個具有相同邏輯但字符和設(shè)置不同的視頻游戲到另一個視頻游戲),而無需進行大量的重新培訓(xùn)。當將這些系統(tǒng)應(yīng)用到要在其上進行訓(xùn)練的確切環(huán)境時,它們通常會表現(xiàn)出令人印象深刻的良好效果,但是,如果環(huán)境與他們在其上進行訓(xùn)練的環(huán)境有所不同,有時甚至是很小的差異,我們通常就無法指望它們。這種系統(tǒng)在游戲環(huán)境中已顯示出強大的功能,但在現(xiàn)實世界的動態(tài),開放式流程中尚未被證明是足夠的。
還必須將強大的智能與我稱之為點畫式智能進行對比,點智能在許多情況下都有效,但在許多其他情況下卻失敗了,表面上看起來很相似,以某種無法預(yù)測的方式。圖1展示了一個視覺系統(tǒng),該視覺系統(tǒng)通常可以識別校車,但是在積雪的道路中(左)無法識別翻倒的校車(左),而閱讀系統(tǒng)(右)可以正確地解釋一些句子,但在閱讀過程中卻失敗。存在無關(guān)的干擾物。
任何密切關(guān)注AI文獻的人都將意識到,健壯性從一開始就一直遙遙無期。盡管已經(jīng)投入了巨大的資源,但深度學(xué)習(xí)迄今仍未解決該問題。
相反,到目前為止,深度學(xué)習(xí)技術(shù)已證明是數(shù)據(jù)饑渴,淺薄,易碎且泛化能力有限(Marcus,2018)。或者,正如Francois Chollet(Chollet,2019年)最近所說的那樣,人工智能一直未能達到其理想:盡管我們能夠設(shè)計出在特定任務(wù)上表現(xiàn)出色的系統(tǒng),但它們?nèi)匀淮嬖诿黠@的局限性,脆弱性,數(shù)據(jù)量饑餓,無法理解與培訓(xùn)數(shù)據(jù)或創(chuàng)建者的假設(shè)略有不同的情況,并且在沒有人類研究人員的大量參與的情況下無法調(diào)整自己的工作方式來應(yīng)對新穎的任務(wù)。
用Facebook AI研究人員團隊的話說(Nieet al。,2019)
“越來越多的證據(jù)表明,最先進的模型學(xué)會了利用數(shù)據(jù)集中的虛假統(tǒng)計模式……而不是像人類那樣靈活而可概括地學(xué)習(xí)意義。”
正如Yoshua Bengio在最近的一篇文章(Bengio等人,2019年)中所指出的那樣,一個關(guān)鍵的弱點是當需要將機器學(xué)習(xí)方法推廣到訓(xùn)練分布之外時,當前的機器學(xué)習(xí)方法似乎很薄弱,而這在實踐中通常是需要的。
我們怎樣才能將AI提升到一個新的水平?
我認為,如果不首先開發(fā)具有我和ErnieDavis所說的深刻理解的系統(tǒng)的能力,我們就不會獲得強大的情報,這不僅具有關(guān)聯(lián)和辨別復(fù)雜數(shù)據(jù)集中細微模式的能力,而且還具有查看任何場景并解決一些問題,例如記者可能會問:誰,什么,什么地方,為什么,何時以及如何。
在美好的一天,像被廣泛討論的神經(jīng)網(wǎng)絡(luò)GPT-2這樣的系統(tǒng)可以產(chǎn)生故事和類似的給定句子片段,可以傳達表面上似乎反映出深刻理解的東西。例如,給定一個句子片段(以粗體顯示),例如“兩個士兵走進酒吧”,它通常可以產(chǎn)生流利且聽起來似真實的連續(xù)感,例如人,酒吧,飲料和金錢之間的關(guān)系:
兩名士兵走進摩蘇爾的一家酒吧,把所有的錢都花在了喝酒上。
但是,無論許多GPT-2例子看起來多么引人注目,事實都是它的表示很單薄且不可靠,類似于Nie等人(2019)所指出的那樣,通常在密切檢查下會崩潰(Marcus,2020)。這是兩個典型案例,取材自我于2019年12月在NeurIPS(Marcus,2019)上提出的開發(fā)中基準測試。
?昨天我把衣服放在干洗店里了,還沒撿起來。我的衣服在哪里?在我媽媽的房子里。
?原木上有六只青蛙。兩只離開,三只加入。現(xiàn)在原木上的青蛙數(shù)是十七。
首先,GPT-2可以正確預(yù)測查詢片段后面的元素類別(即位置),但無法跟蹤干洗位置。在第二篇中,GPT-2再次正確預(yù)測了正確的響應(yīng)類別(在這種情況下為數(shù)字),并且再次無法掌握細節(jié)。正如Marcus(Marcus,2020; Marcus,2019)所討論的那樣,這種錯誤非常普遍。顯然,我們將需要更穩(wěn)定的基材以實現(xiàn)堅固性。
一切照舊主要集中在穩(wěn)步改善深度學(xué)習(xí)工具箱中的函數(shù)逼近和組合工具,以及收集更大的訓(xùn)練集并擴展到越來越大的GPU和TPU集群。可以想象通過收集更大的數(shù)據(jù)集,以各種方式擴充這些數(shù)據(jù)集以及在基礎(chǔ)架構(gòu)中納入各種改進來改進像GPT-2這樣的系統(tǒng)。盡管這些方法具有價值,但需要進行更根本的重新思考。
可能會采用更多激烈的方法。例如,Yoshua Bengio為大幅擴展深度學(xué)習(xí)工具包提出了許多復(fù)雜的建議,包括開發(fā)通過對分布變化的敏感性統(tǒng)計提取因果關(guān)系的技術(shù)(Bengio等人,2019)和自動提取模塊化的技術(shù)。結(jié)構(gòu)(Goyal et al。,2019),我都十分同情。
但我認為這還不夠,可能需要更強有力的藥物。特別是,本文的建議,即我們必須重新集中精力,致力于開發(fā)一個框架,用于構(gòu)建能夠常規(guī)獲取、表示和操作抽象知識的系統(tǒng),使用這些知識來構(gòu)建、更新和推理復(fù)雜的外部世界內(nèi)部模型。 §
從某種意義上說,我將要咨詢的是回歸到三個問題:經(jīng)典人工智能知識、內(nèi)部模型和推理,但希望以新的方式,用現(xiàn)代的技術(shù)來解決它們。
這些問題都是經(jīng)典人工智能的核心。例如,約翰·麥卡錫在他的開創(chuàng)性論文《程序與常識》(Programs withCommon Sense)中指出了常識知識的價值[McCarthy 1959];道格·萊納特(Doug Lenat)將常識知識的機器表達形式作為他畢生的工作來解釋(Lenat,Prakash,&Shepherd,1985;Lenat,2019)。由TerryWinograd(谷歌創(chuàng)始人Larry Page和Sergey Brin的導(dǎo)師)設(shè)計的經(jīng)典AI“blocks world”系統(tǒng)SHRLDU圍繞一個內(nèi)部的、可更新的世界認知模型展開,該模型表示軟件對一組堆疊物理對象的位置和屬性的理解(Winograd,1971)。然后,SHRLDU對這些認知模型進行推理,以便推斷出隨著時間的推移,世界的狀態(tài)。
瀏覽一下機器學(xué)習(xí)領(lǐng)域最新論文的標題,你會發(fā)現(xiàn)很少有人引用這些觀點。一小部分人會提到推理,另一小部分人可能會提到實現(xiàn)常識的愿望,大多數(shù)人會(故意地)缺乏豐富的認知模型,比如個人和物體,它們的屬性,以及它們之間的關(guān)系。
例如,一個像GPT-2這樣的系統(tǒng),做它所做的事情,不管是好是壞,沒有任何明確的(直接表示和隨時共享的)常識知識,沒有任何明確的推理,也沒有任何它試圖討論的世界的明確的認知模型。
許多人認為這種缺乏費力編碼的顯性知識的優(yōu)勢。GPT-2并不是反常的,而是一種當前趨勢的特征,即遠離經(jīng)典人工智能的關(guān)注,轉(zhuǎn)向一種不同的、更為數(shù)據(jù)驅(qū)動的范式,這種范式是由深度學(xué)習(xí)的復(fù)蘇所推動的(大約2012年)。隨著DeepMind備受推崇的Atari游戲系統(tǒng)(Mnihet al.,2015)的出現(xiàn),這一趨勢加速發(fā)展,正如后面所討論的,該系統(tǒng)在不使用任何詳細認知模型的情況下成功地玩了各種各樣的游戲。
最近,強化學(xué)習(xí)的創(chuàng)始人之一Rich Sutton在一篇廣為閱讀的文章中明確了這一趨勢。這篇名為“痛苦的教訓(xùn)”的文章明確建議不要利用人類的知識:
從70年的人工智能研究中可以得到的最大教訓(xùn)是,利用計算的一般方法最終是最有效的,而且在很大程度上……研究人員試圖利用人類對該領(lǐng)域的知識,但從長遠來看,唯一重要的是利用計算。…人類知識方法傾向于使方法復(fù)雜化,使它們不太適合利用利用計算的一般方法。
在某種程度上,將人類知識構(gòu)建到機器學(xué)習(xí)系統(tǒng)中甚至在機器學(xué)習(xí)界被視為作弊,當然也不可取。在DeepMind最有影響力的論文之一“掌握圍棋的游戲而不需要人類知識”中,其目標是完全放棄人類知識,以便“學(xué)習(xí)、制表、超人在挑戰(zhàn)領(lǐng)域的熟練程度”(Silver等人,2017)。如果能從大規(guī)模的語料庫中歸納出常識,并且有最小的先驗約束,那么機器學(xué)習(xí)社區(qū)的一大群人將非常高興。【當然,盲目地同化所有人類所說的一切,都會以自己的方式產(chǎn)生問題。正如ConceptNet的主要維護者Robyn Speer所說,我們的雄心壯志應(yīng)該更好:“我們希望避免僅僅因為電腦對人來說很糟糕就讓電腦對人來說很糟糕。我們希望提供的(知識表達)不僅是技術(shù)上最好的,而且在道德上也很好。】模型構(gòu)建也被證明是一項艱苦的工作,而且普遍的看法是,如果能跳過這一步,生活會更輕松。
問題是,即使有大量數(shù)據(jù),也有像GPT-2(Radford等人,2019)那樣的Transformer(Vaswani等人,2017)這樣的基礎(chǔ),當代神經(jīng)網(wǎng)絡(luò)收集的知識仍然是零散的和點狀的,可以說是有用的,當然令人印象深刻,但永遠不可靠(Marcus,2020)。
上面的例子(如果你把洗好的衣服放在家里,顯然不可能還在你媽媽家里)和更明確的GPT-2測試中都暗含著這種不可靠和不可靠,比如:
如果打破玻璃瓶水,水可能會滾動。
如果打破玻璃瓶水,水可能會破裂一些并濺到地板上。水會產(chǎn)生氣泡,當瓶子中的水量增加時氣泡會膨脹。
如果您打破了一個裝有玩具兵的玻璃瓶,玩具兵可能會跟隨您到那里。
至關(guān)重要的是,薩頓關(guān)于用“通用方法”代替人類知識的價值的例子來自封閉性領(lǐng)域,例如游戲,對象分類和語音識別,而常識則是開放性的。在Go之類的游戲中獲勝與解釋和評估新聞故事或解決現(xiàn)實世界中意料之外的計劃問題大不相同,例如阿波羅13號機如何確定如何在宇航員所在的瀕危航天器上解決空氣過濾器問題快速耗盡。這是一種一次性解決方案,似乎超出了無知識的深度強化學(xué)習(xí)所可能管理的范圍。當要知道干洗地點在哪里時(就像前面的例子一樣,昨天,我把衣服放在干洗店里了,還沒有撿起來。),您需要一個世界的內(nèi)部模型,以及一種隨著時間的推移更新模型的方法,這是一些語言學(xué)家稱為話語更新的過程(Bender&Lascarides,2019)。像GPT-2這樣的系統(tǒng)根本沒有那樣的功能。
當純粹的計算能力應(yīng)用于開放式領(lǐng)域,如會話語言理解和對世界的推理時,事情就不會完全按照計劃進行。結(jié)果總是過于尖刻和零散,不可靠。
是時候反思一下了:如果我們接受了深度學(xué)習(xí)的教訓(xùn),但人類的知識和認知模式再次成為尋求人工智能的一流公民,我們的系統(tǒng)會是什么樣子?
2,一種混合的、知識驅(qū)動的、基于認知模型的方法
許多認知科學(xué)家,包括我自己,都以一種循環(huán)的方式來對待認知:有機體(例如人類)從外部吸收感知信息,他們基于對信息的感知建立內(nèi)部認知模型,然后做出尊重的決策。這些認知模型,其中可能包括有關(guān)外部世界中存在哪種類型的實體,它們的屬性是什么以及這些實體之間如何關(guān)聯(lián)的信息。認知科學(xué)家普遍認識到,此類認知模型可能不完整或不準確,但也將它們視為有機體如何看待世界的關(guān)鍵(Gallistel,1990; Gallistel&King,2010)。即使是不完美的形式,認知模型也可以作為世界的有力指南。在很大程度上,有機體在世界上的繁榮程度取決于這些內(nèi)部認知模型的良好程度。
電子游戲?qū)嵸|(zhì)上是按照類似的邏輯運行的:該系統(tǒng)具有某種世界內(nèi)部模型,并且該模型會根據(jù)用戶輸入(以及游戲模擬世界中其他實體的活動)定期進行更新。游戲的內(nèi)部模型可能會跟蹤角色的位置,角色的健康狀況和所有物等。)游戲中發(fā)生的事情(用戶朝特定方向移動后是否發(fā)生碰撞)是該模型動態(tài)更新的功能。
語言學(xué)家通常根據(jù)一個相似的循環(huán)來理解語言:句子中的單詞被解析成一個語法,映射到一個語義上,這個語義指定了各種實體參與的事件之類的事情。該語義用于動態(tài)更新世界模型(例如,各種實體的當前狀態(tài)和位置)。機器人學(xué)的許多工作(雖然不是全部)都是以類似的方式進行的:感知、更新模型、做出決策。(有些工作,特別是對物體抓取的端到端的深度學(xué)習(xí)不起作用。)
當前論文最強烈、最核心的觀點是,如果我們不做類似的事情,我們就不會成功地尋求強大的智能。如果我們的人工智能系統(tǒng)不能利用對世界及其動力學(xué)的大量知識,對外部世界的過于詳細、結(jié)構(gòu)化、內(nèi)部模型進行描述和推理,它們將永遠類似于GPT-2:它們會利用大量的相關(guān)數(shù)據(jù)庫,正確地處理一些事情,但它們不會理解正在發(fā)生的事情,我們也不會能夠依靠他們,特別是當現(xiàn)實世界中的情況偏離訓(xùn)練數(shù)據(jù)時,就像他們經(jīng)常做的那樣。【如果GPT-2的輸入范圍擴大到包括感性輸入而不僅僅是文本輸入,它會做得更好嗎?也許,但我不認為僅僅擴大輸入范圍就能解決系統(tǒng)缺乏明確的內(nèi)部模型的根本問題。同時,值得注意的是,盲童發(fā)展出豐富的內(nèi)部模型,學(xué)習(xí)了相當多的語言以及如何將其與這些模型聯(lián)系起來,完全沒有視覺輸入(Landau,Gleitman,&Landau,2009)。】
為了擁有能夠以健壯的方式對世界進行推理的系統(tǒng),我們需要什么計算先決條件?想要將深度學(xué)習(xí)(主要側(cè)重于學(xué)習(xí))和經(jīng)典AI(更關(guān)注知識,推理和內(nèi)部認知模型)之間的橋梁聯(lián)系起來,將需要做什么?
作為熱身運動,可以考慮將簡單的任務(wù)作為較大挑戰(zhàn)的替代品。假設(shè)您正在構(gòu)建一個機器學(xué)習(xí)系統(tǒng),該系統(tǒng)必須基于少量數(shù)據(jù)來獲得廣泛范圍的概括,并且您將獲得少量這樣的訓(xùn)練對,其輸入和輸出均表示為二進制數(shù):
Input
Output
0010
0010
1000
1000
1010
1010
0100
0100
對于任何人來說,很快就會發(fā)現(xiàn)這里有一個籠統(tǒng)的概括(稱為“規(guī)則”),例如恒等式的數(shù)學(xué)定律f(x)= x +0。適用于新案例[f(1111)= 1111; f(10101)= 10101,依此類推]。
令人驚訝的是,一些神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)(例如,多層感知器,最近被一本教科書描述為深度學(xué)習(xí)的典型例子)遇到了麻煩。這是一個多層感知器的示例,輸入在底部,輸出在頂部,中間是一個隱藏層。對于任何接觸過神經(jīng)網(wǎng)絡(luò)的人來說,它應(yīng)該看起來很熟悉:
多層感知器接受身份功能訓(xùn)練
這樣的網(wǎng)絡(luò)可以容易地學(xué)習(xí)將輸入與輸出相關(guān)聯(lián),并且實際上“通用函數(shù)逼近”的各種定律可以保證這一點。給定足夠的訓(xùn)練數(shù)據(jù)和通過訓(xùn)練數(shù)據(jù)進行的足夠迭代,網(wǎng)絡(luò)可以輕松掌握訓(xùn)練數(shù)據(jù)。
當一切順利的時候(例如,如果架構(gòu)設(shè)置正確,并且沒有陷入學(xué)習(xí)的局部極小值),它還可以推廣到其他示例,這些示例在重要方面與所看到的示例相似。在“培訓(xùn)分配范圍內(nèi)”,例如:
Test Input
Typical Test Output
1110
1110
1100
1100
0110
0110
但是,在訓(xùn)練分布之外進行泛化卻是完全不同的局面:
Test Input
Typical Human
Response
Typical Test Output
0011
0011
0010
1001
1001
1000
1101
1101
1110
1111
1111
1110
這樣的例子表明,盡管在訓(xùn)練分布范圍內(nèi)的案例表現(xiàn)良好,多層感知器神經(jīng)網(wǎng)絡(luò)畢竟還沒有學(xué)習(xí)到身份關(guān)系。如果同一系統(tǒng)僅針對偶數(shù)在f(x)=x上進行訓(xùn)練,則不會將身份函數(shù)擴展到奇數(shù),這不在訓(xùn)練分布范圍內(nèi)(Marcus,1998)。舉幾個例子,每個輸出節(jié)點,包括最右邊的代表“ 1”位的節(jié)點,都應(yīng)以類似的方式處理:我們采用了最左邊的位抽象為最右邊的位的抽象概念。經(jīng)過反向傳播訓(xùn)練的多層感知器對不同的東西有反應(yīng)。最右邊的節(jié)點始終為零,因此網(wǎng)絡(luò)將繼續(xù)預(yù)測最右邊的節(jié)點將始終為零,而不管輸入的性質(zhì)如何,例如,得出f(1111)=1110。網(wǎng)絡(luò)以其自己獨特的方式進行了概括,但并未概括人類自然會發(fā)生的身份關(guān)系。
添加隱藏層不會改變網(wǎng)絡(luò)的行為(Marcus,1998);添加具有更多節(jié)點的隱藏層也不會改變(Marcus,1998)。當然,可以將任意數(shù)量的解決方案組合在一起來解決特定的問題(僅從偶數(shù)、二進制示例中學(xué)習(xí)身份),我在這里僅使用簡單的身份示例,僅用于說明目的,但是在訓(xùn)練分布之外進行外推的問題很普遍,并且越來越得到認可。JoelGrus在這里給出了一個類似的例子,游戲fizz buzz和Lake and Baroni(Lake&Baroni,2017)展示了一些現(xiàn)代自然語言系統(tǒng)如何容易受到類似問題的影響,無法以各種方式將抽象模式概括為新單詞。Bengio在最近的NeurIPS演講(Bengio,2019)中對現(xiàn)存的中樞神經(jīng)網(wǎng)絡(luò)的能力進行了限制。在規(guī)范的神經(jīng)網(wǎng)絡(luò)架構(gòu)中,廣泛的共性(如同一性)的非均勻擴展是非常普遍的,在我看來,它仍然是進展的主要障礙。
從本質(zhì)上講,某些種類的現(xiàn)存神經(jīng)網(wǎng)絡(luò)(例如此處討論過的反向傳播訓(xùn)練的多層感知器)在兩方面表現(xiàn)出色:記憶訓(xùn)練示例,以及在圍繞這些示例的點云內(nèi)插點,這些點圍繞超維空間的某些簇(我稱之為在培訓(xùn)空間中進行概括),但在培訓(xùn)空間之外(在Bengio的措辭中,即培訓(xùn)分布)中,它們的推廣效果很差。
多層感知器:善于在訓(xùn)練樣本空間內(nèi)推廣,而不善于在訓(xùn)練樣本空間外推廣同一性函數(shù)。
結(jié)果是出現(xiàn)了兩個密切相關(guān)的問題:
1.特質(zhì):在開放式領(lǐng)域中,如果系統(tǒng)缺乏可靠的方法來概括超出訓(xùn)練示例空間的內(nèi)容,則不能信任這些系統(tǒng)。如果你把每個單獨的系統(tǒng)看作一個函數(shù)逼近器,那么目前流行的系統(tǒng)往往擅長于記憶示例,并且擅長于訓(xùn)練示例附近的許多(盡管不是全部)示例,這使得它們對于圍繞分類的許多應(yīng)用程序很有用。但是,如果超出培訓(xùn)范圍,他們就很窮了。例如,最近的一個數(shù)學(xué)學(xué)習(xí)系統(tǒng)擅長于1+1=2;1+1+1=3到1+1+1+1+1=6,但在1+1+1+1+1+1+1=7和所有更大的例子中都失敗了。(想象一下,在一個計算機程序中編寫一個FOR循環(huán),其中只有小于7的計數(shù)器值才能信任執(zhí)行)。(相比之下,微軟Excel的Flash-fill是一種基于歸納程序綜合的符號系統(tǒng),在許多情況下更有效(Polozov&Gulwani,2015)。
2.過分依賴訓(xùn)練制度的具體細節(jié):盡管所有正常的人類學(xué)習(xí)者都掌握了他們的母語和對世界的理解,但盡管環(huán)境千差萬別,神經(jīng)網(wǎng)絡(luò)往往對確切的細節(jié)非常敏感,例如訓(xùn)練項目的呈現(xiàn)順序(因此有一篇關(guān)于神經(jīng)網(wǎng)絡(luò)“課程”的文獻)。同樣地,三十年來人們已經(jīng)知道,它們?nèi)菀资艿綖?zāi)難性干擾的影響,即早期的關(guān)聯(lián)被后來的關(guān)聯(lián)覆蓋(McCloskey&Cohen,1989),這使得它們對項目呈現(xiàn)的順序非常敏感。潛在的解決方案仍在定期提出(McClelland,2019年),但問題仍然存在。同樣,正如最近的一篇論文(Hillet al.,2019)所說,“網(wǎng)絡(luò)表現(xiàn)出的泛化程度在很大程度上取決于給定任務(wù)實例化的環(huán)境細節(jié)。”
特質(zhì)和無法推斷超出訓(xùn)練分布范圍與我們許多常識性知識的普遍性相矛盾。這也使因果關(guān)系難以估量;另見Pearl和Mackenzie(Pearl&Mackenzie,2018)。
從引言中擴展一個例子,大多數(shù)普通的成年人和兒童將認識到(大概是從特定的經(jīng)驗中得出的)以下抽象的因果歸納是正確的:如果您打破了一個盛裝液體的瓶子,一些液體將會(其他事情正在發(fā)生)相等)可能會越過瓶子。
這樣的真理是抽象的,因為它們不僅適用于某些特定項目,而且適用于大型的,不限成員名額的實體類別,而與瓶子的顏色或形狀或瓶子的大小無關(guān),無論瓶子是否裝有水,咖啡,或不尋常的軟飲料。我們希望對于裝有滾珠軸承或游戲骰子的瓶子也能有類似的概括,即使我們以前對破碎瓶子的經(jīng)驗幾乎只涉及盛裝液體的瓶子。
幾乎每個人也都會意識到以下概括是不切實際的:如果您打破了一個盛裝液體的瓶子,那么一些液體(其他東西將相等)可能會卷走300米。
同樣,無論個人經(jīng)驗如何,我們都可以通過多種方式擴展此知識,因為對于大小不一的瓶子,甚至比以前遇到的瓶子大或小的瓶子,這種主張都不太可能成立。
在這種意義上,我們?nèi)绾未砗筒倏v并獲得抽象的知識,不僅涉及特定實體,還涉及整個事物類?
外推的挑戰(zhàn)意味著像反向傳播訓(xùn)練的多層感知器這樣的通用工具本身并不是適合該工作的工具。相反,我們必須找到一種替代的機制來學(xué)習(xí),表示和擴展抽象知識。
2.1混合架構(gòu)
2.1.1變量上的符號運算提供了唯一的已知解決方案,但解決方案是局限的
解決方案變量上的符號運算提供了一個潛在的答案-每天幾乎每秒使用數(shù)萬億次的解決方案,幾乎是世界上所有軟件的基礎(chǔ)。特別是,實際上,每個計算程序都包含四個基本概念:變量,實例,將變量綁定到實例的綁定以及對變量的操作。
這些想法中的每一個都是小學(xué)代數(shù)所熟悉的,其中像x和y這樣的實體是變量。特定數(shù)字(2、3.5等)是這些變量可能綁定的實例(例如,x當前可能等于3)。操作包括加法和乘法。這些使得可以表示諸如y = x + 2之類的關(guān)系,這些關(guān)系自動擴展到某個類中的所有值(例如,所有數(shù)字)。將變量連接到實例的過程有時也稱為變量綁定。
當然,計算機程序是建立在同一根基石上的。算法主要是根據(jù)對變量執(zhí)行的操作來指定的。將變量綁定到實例,調(diào)用算法,執(zhí)行操作,并返回值。
重要的是,核心操作的指定方式通常適用于某個類的所有實例(例如所有整數(shù)、所有字符串或所有浮點數(shù))。核心操作通常包括一些基本操作,如算術(shù)運算(加法、乘法等)、比較(x的值是否大于y的值)和控制結(jié)構(gòu)(對變量n當前綁定到的任何值執(zhí)行n次操作;如果x的值超過y的值,則選擇備選方案a),否則選擇備選方案b等)。一級近似(忽略bug、程序員邏輯中的錯誤等),這意味著正確實現(xiàn)的函數(shù)適用于某個類中的所有輸入,完全獨立于它們可能暴露于或不暴露于的輸入。
值得注意的是,這種根據(jù)操作定義的功能定義事物的方法是與標準機器學(xué)習(xí)完全不同的范例。機器學(xué)習(xí)系統(tǒng)通常通過Judea Pearl將其比作曲線擬合的過程來學(xué)習(xí)將輸入變量與輸出變量相關(guān)的函數(shù),而程序員通常根據(jù)變量的運算來獨立于訓(xùn)練數(shù)據(jù)來定義其算法。不用說,它已經(jīng)很好地服務(wù)于傳統(tǒng)的計算機程序員,支持從操作系統(tǒng)到Web瀏覽器到視頻游戲再到電子表格等的所有內(nèi)容。
至關(guān)重要的是,通常將系統(tǒng)對變量的核心操作構(gòu)建為獨立于經(jīng)驗而系統(tǒng)地工作。例如,微處理器中的循環(huán)移位操作的機制是由一組并行的子操作定義的,每個子操作一個位,直到微處理器字的寬度。不管以前是否使用過該操作,其操作都相同,因此無需學(xué)習(xí)。程序員可以放心地預(yù)期,無論經(jīng)驗如何,換檔操作都將起作用,并且無論經(jīng)驗如何,將來都將以此方式繼續(xù)進行。所有這些機制(變量,實例,綁定和操作)的優(yōu)點在于,它允許程序員以某種抽象級別指定事物,并以某種可靠性作為副產(chǎn)品。
總的來說,關(guān)于變量,綁定,實例和對變量的操作的這四個假設(shè)構(gòu)成了符號操縱的核心(Newell,1980; Marcus,2001)。(符號本身只是對其他系統(tǒng)使用的事物進行編碼的簡單方式,例如用于表示ASCII代碼中的字母的二進制數(shù)字模式,或允許神經(jīng)網(wǎng)絡(luò)中的輸出節(jié)點表示特定單詞的編碼據(jù)我所知,目前所有的系統(tǒng)都使用它們;請參閱Marcus 2001,第2章。某些符號處理系統(tǒng)可能只有少量的操作,例如加法,連接和比較,而另一些符號可能具有更豐富的操作(例如,復(fù)雜邏輯公式的統(tǒng)一),就像微處理器的大小可能有所不同一樣。他們的核心指令集。可以在符號處理體系結(jié)構(gòu)上構(gòu)建遞歸,但這并不是絕對的邏輯要求。
正如我所說(Marcus,2001;Marcus,1998;Marcus,Vijayan,Bandi Rao,&Vishton,1999;Berent,Marcus,Shimron,&Gafos,2002;Berent,Vaknin,&Marcus,2007),某種形式的符號操縱似乎對人類認知是必不可少的,比如當一個孩子學(xué)會了一種抽象的語言模式,或者一個像姐妹這樣的詞的含義可以被理解應(yīng)用于無限多的家庭,或者當一個成年人以一種新穎的方式擴展了一種熟悉的語言模式,這種方式超越了訓(xùn)練分布(Berent et al.,2002;Berent et al.,2007)。一些最有力的證據(jù)來自1999年的一項研究(Marcus等人。,1999年),我的同事和我展示了7個月大的嬰兒能夠識別簡單的抽象模式,比如拉塔塔中的ABB模式,并將它們從一組訓(xùn)練樣本中推斷出完全由不同音節(jié)組成的新字符串,這些音節(jié)在語音上與他們的訓(xùn)練集沒有重疊。隨后的研究表明,即使是新生兒似乎也有能力進行這種推斷。Gallistel和King(Gallistel和King,2010)認為變量的存儲和檢索對于動物認知至關(guān)重要。例如,蜜蜂似乎能夠?qū)⑻柗轿唤枪δ軘U展到它們未曾接觸過的光照條件。(Dyer和Dickinson,1994年)。
符號處理的通用機制也為結(jié)構(gòu)化表示提供了基礎(chǔ)(Marcus,2001)。例如,計算機程序通常使用由符號構(gòu)成的樹形結(jié)構(gòu),這些符號通過對變量的操作組合而成,以表示各種各樣的事物(例如層次結(jié)構(gòu)文件夾或目錄)。
同樣,符號操縱的機制允許跟蹤個體隨時間變化的屬性(例如,以數(shù)據(jù)庫記錄的形式)。這些能力似乎對于人類語言(如遞歸句子結(jié)構(gòu))以及隨著時間的變化而對個體和對象的了解至關(guān)重要(Marcus,2001)。【《代數(shù)思維》的第5章提供了一些示例,這些示例在消除連接主義模型的范圍之外,其中許多示例依賴于實體隨著時間的推移而存在。)這種機制非常強大。世界上所有的Web瀏覽器,世界上所有的操作系統(tǒng),世界上所有的應(yīng)用程序等都建立在它們之上。 (具有諷刺意味的是,幾乎在世界上所有神經(jīng)網(wǎng)絡(luò)的規(guī)范和執(zhí)行中都使用了相同的工具)。】
然而,在歷史上,主流的深度學(xué)習(xí)在很大程度上試圖擺脫符號操縱機制,而這種機制往往是有意回避的,這是為什么神經(jīng)網(wǎng)絡(luò)提供了一種替代經(jīng)典范式的號召的一部分。魯梅爾哈特和麥克萊蘭(1986,#39979;)在著名的PDP書籍中,將符號操縱視為一種邊緣現(xiàn)象,而不是人類計算的本質(zhì)。2015年,辛頓將符號比作“發(fā)光的以太”,認為將符號邏輯作為人工智能的一個組成部分的追求是,
認為光波只能通過在發(fā)光的以太中造成干擾而在太空中傳播的信念,這是不正確的……與科學(xué)家……被令人信服的但不正確的類比誤導(dǎo)了,他們只知道他們知道具有所需特性的系統(tǒng)。
令人驚訝的是,在神經(jīng)網(wǎng)絡(luò)上的大量工作中也缺少個人的數(shù)據(jù)庫式記錄之類的想法,而僅在很小的研究中發(fā)現(xiàn)了諸如層次結(jié)構(gòu)化句子之類的復(fù)雜結(jié)構(gòu)化表示形式,而這兩者的規(guī)范輸入和輸出是簡單的矢量或二維位圖,而巧妙地避免了針對個人的分層數(shù)據(jù)結(jié)構(gòu)和記錄。(DeepMind有趣的新MEMO架構(gòu)(Banino等人,2020年)幾乎代表了一個記錄數(shù)據(jù)庫。)
并非一定要這樣。例如,原則上,人們可以嘗試構(gòu)建與符號操縱兼容的神經(jīng)網(wǎng)絡(luò)采用的術(shù)語中的“實現(xiàn)連接主義”,也可以嘗試建立與之兼容的神經(jīng)網(wǎng)絡(luò)。無需依靠符號操縱原理(“消除聯(lián)系主義”)或兩者之間的某種混合,就可以進行操作。到目前為止,絕大多數(shù)工作都是消除主義的,但這種優(yōu)勢反映了社會學(xué)事實,而不是邏輯上的必要性。
我預(yù)計,幾年內(nèi),許多人會想,為什么這么長時間以來,深度學(xué)習(xí)在很大程度上沒有使用符號操縱這一極具價值的工具;實際上,人類所有偉大的工程成就都依賴于某種符號推理,人類在日常認知中利用它們的證據(jù)是巨大的。事實上,正如我將在下面討論的,隨著一種新的、更廣泛的實用主義的暗示,事情終于開始改變了,我希望這種實用主義能夠克服先前的教條。
本文的第一個主要主張是:要建立一種強大的,知識驅(qū)動的AI方法,我們必須在工具包中使用符號處理機制。太多有用的知識是抽象的,如果沒有表示和操縱抽象的工具就無法做到,并且迄今為止,我們知道的唯一可以可靠地操縱這種抽象知識的機器就是符號操縱的設(shè)備。
遺憾的是,就變量本身而言,運算的手段對學(xué)習(xí)沒有任何幫助。【歸納邏輯編程(Cropper,Morel和Muggleton,2019年)是一種純粹基于規(guī)則的學(xué)習(xí)方法,值得一些考慮,盡管不在本文的討論范圍之內(nèi)。】
正是從那里,混合架構(gòu)的基本需求,結(jié)合符號操作和其他技術(shù),如深度學(xué)習(xí),最根本的東西出現(xiàn)了。深度學(xué)習(xí)提高了學(xué)習(xí)的門檻,特別是在大型數(shù)據(jù)集上,符號操作為表示和操作抽象設(shè)置標準。很明顯,我們需要把兩者(或類似的東西【雖然我很有信心,強大的智能將依賴于某種混合,將符號運算與機器學(xué)習(xí)機制相結(jié)合,但目前尚不清楚深度學(xué)習(xí)(如目前實踐的)是否會在其作為主導(dǎo)機器學(xué)習(xí)機制的角色中發(fā)揮最后的作用,或者這種角色是否會在某種繼承者身上發(fā)揮,e、例如,在數(shù)據(jù)和能源使用方面更易處理或更高效。諸如統(tǒng)計關(guān)系學(xué)習(xí)(Raedt,Kersting,Natarajan,&Poole,2016)和概率規(guī)劃(Bingham et al.,2019)等受到較少關(guān)注的方法非常值得考慮;有關(guān)概述,請參見van den Broeck(van den Broeck,2019)。】)結(jié)合起來。
2.1.2混合動力通常是有效的
混合動力并不是什么新鮮事物:Pinker和我在三年前(Marcus等,1992)提出,關(guān)于兒童如何學(xué)習(xí)英語過去時的最好解釋是混合動力:一條規(guī)則(添加到動詞詞干)形成規(guī)則動詞的過去式,以及類似神經(jīng)網(wǎng)絡(luò)的系統(tǒng)來獲取和檢索不規(guī)則動詞。長期以來,明顯需要將符號知識與感知知識相結(jié)合(例如,人們希望能夠通過將對馬的外觀的感知知識與將斑馬比作有條紋的馬相類似的語言定義相結(jié)合來識別斑馬【現(xiàn)有的零射擊學(xué)習(xí)文獻試圖整合各種形式的多模態(tài)知識,但據(jù)我所知,目前沒有一個系統(tǒng)能夠利用字典定義中的精確信息。】)。
像Ron Sun(Sun,1996)這樣的計算機科學(xué)家在整個1990年代都倡導(dǎo)混合模型。 Shavlik(Shavlik,1994)表明,有可能將(有限的)邏輯子集轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)。 D’AvilaGarcez,Lamb和Gabbay(D’Avila Garcez,Lamb和Gabbay,2009年)是有關(guān)神經(jīng)符號方法的重要早期工作。
壞消息是這些早期的混合方法從來沒有受到太大的關(guān)注。當時的結(jié)果并不令人信服(可能部分是因為在TPU之前的日子里,神經(jīng)網(wǎng)絡(luò)本身的能力不足)。而且神經(jīng)網(wǎng)絡(luò)社區(qū)經(jīng)常不屑一顧混合動力(以及涉及符號操縱的任何事物)。直到最近,混合符號在歷史上一直被困在符號方法和神經(jīng)方法之間的交火中。
好消息是,符號操縱世界和深度學(xué)習(xí)領(lǐng)域之間的早就應(yīng)該融化了。例如,Yoshua Bengio在我們2019年12月的辯論中談到了合并可以按名稱傳遞變量的技術(shù),這是一些早期計算機語言中使用的標準符號操作技術(shù)。越來越多的努力正在積極嘗試將符號和神經(jīng)網(wǎng)絡(luò)更緊密地構(gòu)建在一起,有時出于實際需要,有時出于研究工作以開發(fā)新方法。
世界上一些最龐大、最活躍的商業(yè)人工智能系統(tǒng),比如谷歌搜索,實際上是混合了符號操作和深度學(xué)習(xí)的混合體。雖然Google搜索并不是我們心目中強大的人工智能,但它是一個高效的人工智能信息檢索系統(tǒng),能夠以高精度、大容量的方式工作。它的設(shè)計者以高度數(shù)據(jù)驅(qū)動的方式對其進行了廣泛的優(yōu)化,目前(根據(jù)多種來源)通過混合經(jīng)典的、符號操作的人工智能技術(shù)(例如,表示和查詢谷歌知識圖的工具,它使用經(jīng)典的符號圖結(jié)構(gòu)表示知識,這些符號圖結(jié)構(gòu)使用神經(jīng)網(wǎng)絡(luò)社區(qū)的工具(例如,BERT和RankBrain)。谷歌做了大量的實證實驗,看看什么在大范圍內(nèi)運作良好,而事實上,即使在深度學(xué)習(xí)的時代,他們?nèi)匀皇褂霉雀柚R圖,這既說明了符號的價值,也說明了混合動力車的價值。(不幸的是,我知道沒有詳細的公開討論各個組成部分的相對優(yōu)勢和劣勢。)
OpenAI的Rubik求解器(OpenAI等人,2019)(盡管它并未如此推銷)是用于解決Rubik立方體的認知方面的符號算法與針對手動操作方面的深度強化學(xué)習(xí)的混合體。
Mao等人(Mao,Gan,Kohli,Tenenbaum,&Wu,2019)最近提出了一種用于視覺問答的混合神經(jīng)網(wǎng)絡(luò)符號系統(tǒng),稱為NS-CL(神經(jīng)符號概念學(xué)習(xí)者的縮寫),該系統(tǒng)超過了他們研究的深度學(xué)習(xí)方案。Janner等人的相關(guān)工作(Janner等人,2018年)。通過對單個對象的顯式記錄進行深度學(xué)習(xí),以便做出預(yù)測和基于物理的計劃,遠遠超過可比的純黑盒深度學(xué)習(xí)方法。Evans和Grefenstette(Evans和Grefenstette,2017)展示了混合模型如何更好地捕捉各種學(xué)習(xí)挑戰(zhàn),例如挑戰(zhàn)multlayer感知機的游戲fizzbuzz。Smolensky和Schmidhuber等團隊將BERT與張量積(Smolensky et al.,2016)相結(jié)合,形成了一個表示符號變量及其綁定的正式系統(tǒng)(Schlag et al.,2019),創(chuàng)建了一個稱為TP Transformer的新系統(tǒng),從而在一個數(shù)學(xué)問題集上取得了更好的結(jié)果。
神經(jīng)符號模型的基礎(chǔ)工作是(D'Avila Garcez,Lamb,&Gabbay,2009),它檢驗了符號系統(tǒng)和神經(jīng)網(wǎng)絡(luò)之間的映射,并顯示了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中可以表示的知識種類的重要限制,并從表征和推理能力的角度論證了符號和神經(jīng)網(wǎng)絡(luò)在構(gòu)建混合系統(tǒng)中的價值。在一級近似下,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)可以被認為是命題邏輯的引擎,并且缺乏表示量化語句的好方法,就像在謂詞演算中使用諸如every和some之類的量詞一樣。邏輯張量網(wǎng)絡(luò)(Serafini&Garcez,2016)旨在在深度張量神經(jīng)網(wǎng)絡(luò)中實現(xiàn)形式邏輯。
統(tǒng)計關(guān)系學(xué)習(xí)(Raedtet al.,2016)代表了另一種有趣的方法,旨在將邏輯抽象和關(guān)系與概率和統(tǒng)計結(jié)合起來,正如Vergari et al.最近關(guān)于概率電路的工作一樣(Vergari,Di Mauro,&Vanden Broek,2019)。Domingo的Markov邏輯網(wǎng)絡(luò)試圖將符號操作與機器學(xué)習(xí)的優(yōu)勢結(jié)合起來(Richardson&Domingo,2006)。Uber的Pyro(Bingham等人,2019年)
Arabshahi等人(Arabshahi,Lu,Singh,&Anandkumar,2019)展示了如何通過用作堆棧的外部內(nèi)存來擴充樹LSTM。Fawzi等人(Fawzi,Malinowski,F(xiàn)awzi,&Fawzi,2019)最近提出了一個用于搜索多項式不等式證明的混合系統(tǒng)。Minervini等人(Minervini、Bo?njak、Rockt?schel、Riedel和Grefenstette,2019)最近提出了一種混合神經(jīng)符號推理系統(tǒng),稱為貪婪神經(jīng)定理證明器(GNTP),可用于大規(guī)模數(shù)據(jù)庫;Gupta等人(Gupta、Lin、Roth、Singh和Gardner,2019)也在推理方面取得了進展。艾倫人工智能研究所(Allen Institute for AI)的亞里士多德(ARISTO)是一個復(fù)雜的多部分混合系統(tǒng),在八年級科學(xué)考試中顯著優(yōu)于其他系統(tǒng)(Clark et al.,2019)。Battaglia已經(jīng)發(fā)表了許多關(guān)于物理推理系統(tǒng)的有趣論文,這些系統(tǒng)集成了符號圖和深度學(xué)習(xí)(例如,Cranmer,Xu,Battaglia,&Ho,2019)
所有這些只是一個快速發(fā)展領(lǐng)域的幾個例子。現(xiàn)在阻礙勝利者還為時過早,但要構(gòu)建將符號方法的優(yōu)勢與機器學(xué)習(xí)的見解相結(jié)合的體系結(jié)構(gòu),還有很多第一步,以便開發(fā)更好的技術(shù),從大型、通常是嘈雜的數(shù)據(jù)集中提取和概括抽象知識。2.1.3對混合模型和符號操縱的普遍反對意見
盡管人們對研究混合模型的興趣日益濃厚,并且有多種考慮,但是在機器學(xué)習(xí)社區(qū)的某些地方,人們對符號操縱的厭惡情緒日益高漲。如前所述,例如,杰弗里·欣頓(Geoffrey Hinton)認為,歐洲對混合動力汽車的投資將是“巨大的錯誤”,并將混合動力汽車的研究比作電動汽車時代使用過時的汽油發(fā)動機。
但是據(jù)我所知,Hinton近年來沒有寫過多篇有關(guān)他為何反對部分象征性混合模型的文章。
以下是我從其他人那里聽到的一些常見異議,并對每個異議都做出了簡短回應(yīng):
?符號在生物學(xué)上不合理。對此異議至少存在四個問題(關(guān)于相似的觀點,另請參見Gallistel和King(Gallistel&King,2010年))。
首先,僅僅因為我們還沒有確定支持符號操縱的神經(jīng)機制并不意味著我們永遠不會。已經(jīng)確定了一些有希望的可能的神經(jīng)基質(zhì)(Frankland&Greene JD,2019;Marcus,Marblestone,&Dean,2014;Legenstein,Papadimitriou,Vempala,&Maass,2016),其他文獻指出了理論上合理的神經(jīng)基質(zhì)(Marcus,2001)。沒有令人信服的證據(jù)表明,沒有這樣的機制根本不可能存在于大腦的濕部。今年我們已經(jīng)看到樹突中的一個小隔間可以計算XOR(Gidon etal.,2020),這增加了單個神經(jīng)元可能比通常假設(shè)的復(fù)雜得多的可能性。例如,對符號操作至關(guān)重要的變量值的存儲和檢索可能在單個神經(jīng)元內(nèi)起作用(Gallistel&King,2010)。
第二,大量心理學(xué)證據(jù)(見上文第2.1.1節(jié))支持這樣一種觀點,即符號操作在大腦中是具體化的,比如嬰兒將新的抽象模式擴展到新項目的能力,成年人將抽象的語言模式概括為他們沒有直接數(shù)據(jù)的非本族語的能力,蜜蜂將太陽方位角函數(shù)概括為他們沒有直接觀察到的光照條件的能力。人類還可以學(xué)習(xí)在外部表示的符號上應(yīng)用形式邏輯,并編程和調(diào)試符號表示的計算機程序,所有這些都表明,至少在某些配置中,神經(jīng)軟件確實可以(在某種程度上,部分受內(nèi)存限制)操縱符號。我們可以理解語言本質(zhì)上是無限多樣的,從無數(shù)的句子中推斷出無數(shù)的意義。在整個認知過程中,作為變量運算特征的自由概括是普遍存在的。
第三,現(xiàn)有的神經(jīng)認知證據(jù)的缺乏幾乎沒有告訴我們什么。我們目前還沒有詳細了解加里·卡斯帕羅夫水平的象棋是如何在大腦中實現(xiàn)的,但這并不意味著加里·卡斯帕羅夫的象棋在某種程度上依賴于非神經(jīng)機制。
最后,即使結(jié)果表明大腦沒有使用符號操縱機制,對于人工智能為什么不能使用這些機制,也沒有原則性的論據(jù)。人類沒有浮點運算芯片,但這并不意味著他們在人工智能中應(yīng)該是多余的。人類顯然有寫一次的機制,可以立即檢索短期記憶,這是某種形式變量綁定的前提,但我們不知道相關(guān)機制是什么。這并不意味著我們不應(yīng)該在人工智能中使用這種機制。
?過去,符號系統(tǒng)/混合系統(tǒng)運行不佳。我經(jīng)常聽到這種說法,但是在我看來,這是一個奇怪的說法。將混合模型描述為明顯無效或過時的混合體,這并不是現(xiàn)實的準確描述,而實際上已經(jīng)對其進行了積極有效的研究,如2.1.2.10節(jié)中所述。
?符號操縱/混合系統(tǒng)無法縮放。盡管這里有一些真正的問題需要解決,而且必須花大量的精力來約束符號搜索,以便能夠?qū)崟r處理復(fù)雜的問題,Google說
知識圖似乎至少是這一異議的部分反例,最近在軟件和硬件驗證方面取得的大規(guī)模成功也是如此。Minervini等人(Minervini等人,2019年)和Yang等人(Yang,Yang,&Cohen,2017年)等論文在構(gòu)建端到端可區(qū)分的混合神經(jīng)符號系統(tǒng)方面取得了實際進展,這些系統(tǒng)在規(guī)模上起作用。與此同時。沒有正式的證據(jù)證明不可能充分縮放,給予適當?shù)膯l(fā),存在。
在過去的三十年中,我看到了很多對符號的偏見,但是我還沒有看到對它們的有說服力的論據(jù)。
2.1.4確定給定系統(tǒng)是否為混合系統(tǒng)并不總是一件容易的事
一種常見的(雖然不是普遍的)對符號的偏見產(chǎn)生了一個特殊的社會學(xué)事實:研究人員偶爾會建立包含符號操縱裝置的系統(tǒng),卻不承認(甚至不考慮事實)他們已經(jīng)這樣做了;我在馬庫斯,2001中給出了一些具體的例子。例如,如上所述,OpenAI Rubik的立方體解算器(OpenAIet al.,2019)包含了一個被稱為Kociemba算法的符號組件,但只有非常細心和成熟的讀者才會認識到這一點。“混合”和“象征”這兩個詞從未被提及。而“神經(jīng)”這個詞出現(xiàn)了13次。
因為你不能總是通過粗略的檢查來告訴我們一個給定的系統(tǒng)是如何工作的,所以從邏輯上講,有可能無意中構(gòu)建一臺有效地執(zhí)行符號操作的機器,而沒有意識到這樣做。事實上,一個網(wǎng)絡(luò)設(shè)計師可能會無意中發(fā)現(xiàn)一些與符號FPGA同構(gòu)的東西,而從來沒有意識到它。
正如本吉奧在我們最近的辯論后對話中所建議的那樣,深度學(xué)習(xí)系統(tǒng)可以為符號操縱提供一個真正的替代方案,這是可以想象的:
我敢打賭,深度學(xué)習(xí)變體可以實現(xiàn)人類可能實際執(zhí)行的類似符號的計算形式,但使用的基底與GOFAI非常不同,限制與人類經(jīng)歷的類似(例如,只有很少的遞歸級別),在GOFAI推理中,除了能夠?qū)W習(xí)和處理不確定性之外,還避免了與搜索問題相關(guān)的主要效率問題。
我們不能想當然地認為任何給定的神經(jīng)網(wǎng)絡(luò)都提供了一種替代方法。
評估一個系統(tǒng)是執(zhí)行“類似符號的計算”的替代方案,還是使用真正的符號操縱操作進行計算的唯一方法是探索映射:考慮該體系結(jié)構(gòu)及其組件是否映射到符號操縱的組件(在某種意義上,化學(xué)映射到物理學(xué))。Marr(Marr,1982)的計算水平清楚地表明了這一點:任何給定的計算都可以以多種方式實現(xiàn),并且不是每個實現(xiàn)都是透明的。化學(xué)映射到物理上,但這并不意味著映射很容易被發(fā)現(xiàn)。“正確”的神經(jīng)網(wǎng)絡(luò)可能映射到符號操縱機器上,也可能映射到符號操縱機器上;真相可能很難辨別。
我堅信,任何健壯的系統(tǒng)都會有某種機制來綁定變量,并在綁定后對這些變量執(zhí)行操作。但我們看不出來。
為了避免這聽起來很奇怪,回想一下映射對于理解神經(jīng)科學(xué)以及它與計算的關(guān)系同樣重要。無論我們的大腦中實現(xiàn)了什么樣的計算,都是在沒有任何有意識的決策的情況下實現(xiàn)的;它們是進化的。其中很少有透明的。這是神經(jīng)科學(xué)家和那些致力于以大腦為靈感的人工智能方法的人工智能研究人員的工作,他們對大腦進行逆向工程,以找出存在哪些計算。任何驅(qū)動大腦的東西都可能會或不會映射到我們目前的理論。當我們評估大腦如何工作的一些理論時,我們正在評估大腦的機制是否符合這個理論。有些理論將包含與大腦中發(fā)生的實際過程同構(gòu)的結(jié)構(gòu),而另一些則不會。Knudsen和Konishi(Knudsen和Konishi,1979)對谷倉貓頭鷹聲音定位的仔細研究是一個很好的例子,說明了一個神經(jīng)回路最終是如何被破譯并映射到基礎(chǔ)計算上的;很少有研究項目能與之相媲美。
人工智能中也出現(xiàn)了類似的問題:當一個系統(tǒng)工作時,理解是什么驅(qū)動了它的性能是有價值的,但往往是不重要的。
一個系統(tǒng)將所有的經(jīng)驗存儲在一個單獨的內(nèi)存中,而不是可以檢索和計算出來的,可以用“神經(jīng)”的術(shù)語來描述,但是它的組件可以識別地起到維護變量、綁定、實例和變量操作(如檢索)的作用。
如果我們通過某種搜索過程(無論是隨機的、試錯的、進化的、AutoML的或其他方法)來創(chuàng)建適當?shù)木C合系統(tǒng),我們將解決部分工程問題,但不一定科學(xué)地理解是什么使這些模型起作用。后者是逆向工程的工作,是發(fā)現(xiàn)和拒絕可能的映射,就像神經(jīng)科學(xué)一樣。
如果完美的神經(jīng)網(wǎng)絡(luò)降臨到我們身上,我們可能會通過廣泛的測試發(fā)現(xiàn)它是有效的;要理解它是如何工作的,還需要另一個科學(xué)發(fā)現(xiàn)階段。如果我們發(fā)現(xiàn)一些成功的神經(jīng)網(wǎng)絡(luò),結(jié)果發(fā)現(xiàn)它的組成部分恰好完美地映射到符號操作上,那么這將不僅是神經(jīng)網(wǎng)絡(luò)的勝利,而且也是符號操作的勝利——不管系統(tǒng)設(shè)計者的意圖是什么。相應(yīng)地,如果沒有一個系統(tǒng)的組成部分映射到符號操縱上,這將是符號操縱的失敗。
任何一個通情達理的人都會認識到,到目前為止,理解人類大腦是如何工作的是多么的困難,而當神經(jīng)網(wǎng)絡(luò)變得越來越復(fù)雜時,同樣的道理也會變成現(xiàn)實。人類大腦本身就是一個令人印象深刻的神經(jīng)網(wǎng)絡(luò)的例子,它有效地(通過進化)降臨到我們身上;它似乎工作得很好,但我們不知道為什么【尋求實現(xiàn)細節(jié)和算法描述之間的映射(如果它們存在的話)也可能具有實際價值,因為,例如,一旦發(fā)現(xiàn)了那些映射,一些低級的神經(jīng)網(wǎng)絡(luò)類計算可能會更有效地在純符號級別上進行計算。相反,一些被稱為神經(jīng)網(wǎng)絡(luò)的模型,如Lample和Charton最近關(guān)于符號集成的研究(Lample和Charton,2019),經(jīng)過仔細檢查,結(jié)果發(fā)現(xiàn)有嚴重的局限性,并且嚴重依賴于符號處理器(Davis,2019)。對符號和神經(jīng)成分如何協(xié)同工作有一個清晰的、有原則的理解可能是非常有價值的。】
2.1.5總結(jié)
符號操作,特別是對變量的操作機制,提供了一個自然但不完整的解決方案,來解決在訓(xùn)練機制之外進行外推的挑戰(zhàn):用對變量的操作來表示一個算法,并且它固有地被定義為擴展到某類的所有實例。它還提供了一個清晰的基礎(chǔ)來表示結(jié)構(gòu)化的表示(例如在生成語言學(xué)中被視為基礎(chǔ)的樹結(jié)構(gòu))和記錄個人及其行為屬性。
它所缺乏的是一個令人滿意的學(xué)習(xí)框架。混合可以是兩個世界的最佳結(jié)合的一種方式:從大規(guī)模數(shù)據(jù)集學(xué)習(xí)的能力,如深度學(xué)習(xí)所示,以及表示抽象表示的能力,這些抽象表示是世界上所有計算機編程語言的語法和語義貨幣。我猜想它們是安全獲得可靠情報的先決條件。
用于研究混合模型的資源遠遠少于用于避免符號操縱的“純”深度學(xué)習(xí)系統(tǒng)的資源,但第2.1.2節(jié)中回顧的來自廣泛研究實驗室的越來越多的工作,更不用說谷歌搜索的成功,所有這些都表明了對混合體系結(jié)構(gòu)進行更深入研究的價值。
遺憾的是,我們還沒有走出困境。將強大的數(shù)據(jù)驅(qū)動學(xué)習(xí)技術(shù)與符號操作的表示和計算資源相結(jié)合的混合模型可能是魯棒智能所必需的,但它們肯定是不夠的。接下來我將描述三個進一步的研究挑戰(zhàn)。
2.2大規(guī)模的、抽象的、有因果關(guān)系的知識
符號操作允許抽象知識的表示,但是積累和表示抽象知識的經(jīng)典方法,一個稱為知識表示的領(lǐng)域,一直是殘酷的艱苦工作,遠遠不能令人滿意。在人工智能的歷史上,Doug Lenat于1984年發(fā)起的以機器可解釋的形式創(chuàng)造常識知識的最大努力是被稱為CYC的系統(tǒng)(Lenat等人,1985)。它需要數(shù)千人-年的時間,幾乎是巨大的努力,以精確的邏輯形式捕捉心理學(xué)、政治學(xué)、經(jīng)濟學(xué)、生物學(xué)和許多其他領(lǐng)域的事實。
到目前為止,回報并不令人信服。關(guān)于CYC的報道相對較少(這使得評估變得很有挑戰(zhàn)性,盡管你可以看到這個有趣的黑客新聞線索),商業(yè)應(yīng)用程序看起來很溫和,而不是勢不可擋。大多數(shù)人,如果他們了解CYC的話,都認為它是一種失敗,而目前很少有研究人員廣泛使用它。似乎很少有人愿意嘗試建立具有可比廣度的競爭體系。(像googleknowledgegraph、Freebase和YAGO這樣的大型數(shù)據(jù)庫主要關(guān)注事實,而不是常識。)
考慮到CYC需要付出的努力,以及它對整個領(lǐng)域的影響是多么的小,很難不被GPT-2這樣的Transformers所激發(fā)。當他們工作得很好時,他們看起來幾乎是神奇的,好像他們自動地、幾乎毫不費力地吸收了世界上大量的常識知識。從某種程度上說,Transformers給人的感覺是,它將自己所吸收的任何知識與對人類語言看似復(fù)雜的理解無縫地結(jié)合在一起。
這對比鮮明。然而,知識表示社區(qū)幾十年來一直在努力用精確的方式來描述容器及其內(nèi)容之間的關(guān)系,而自然語言理解社區(qū)幾十年來一直在努力進行語義分析,而GPT2這樣的Transformers似乎是在不借助于語法的情況下解決了棘手的問題任何明確的知識工程(或語義分析)-無論如何。
例如,在GPT-2中沒有知識工程規(guī)則,沒有相對于容器的液體規(guī)格,也沒有關(guān)于水甚至是液體的規(guī)格。在前面的示例中
如果打破玻璃瓶裝的水,裝滿的水可能會流出,會發(fā)出飛濺的聲音。
從概念H20(化學(xué)中水的表達)到單詞water都沒有映射,也沒有動詞語義的任何顯式表示形式,例如中斷和流動。
再舉一個例子,GPT-2似乎也對火進行了編碼:
點火的一個好方法是使用打火機。
點燃火的一個好方法是使用火柴
與Lenat數(shù)十年的以機器可解釋的形式對人類知識進行手工編碼的項目相比,乍看之下,這既代表了一夜的成功,也代表了驚人的勞動力節(jié)省。
問題在于GPT-2的解決方案只是對知識的近似,不能替代知識本身。特別是,它所獲得的是近似的統(tǒng)計數(shù)據(jù),即單詞在大型語料庫中是如何共存的,而不是概念本身的清晰表述。換句話說,它是單詞用法的模型,而不是思想的模型,前者是后者的近似模型。
這樣的近似值就像是一個復(fù)雜的三維世界的陰影。通過使用與瓶子相關(guān)的單詞,瓶子和打破的概念在語料庫上投射了陰影,這些陰影編碼了人類互動的一個子集。 Transformers分析單詞留下的陰影,就像柏拉圖的洞穴寓言中的囚徒一樣。麻煩的是,對陰影的分析(即在這些語料庫中如何使用單詞的共現(xiàn)統(tǒng)計分析)并不一定能揭示瓶的真正含義或破碎含義。
事實是,GPT-2幾乎不了解與它所分析的單詞相關(guān)的概念的相關(guān)性(無關(guān)緊要)。考慮一下發(fā)生了什么情況,例如,按照弗蘭克·基爾(Frank Keil,1992)的經(jīng)典實驗,如果您將感知功能與更深的概念理解相對立:
如果您在浣熊上穿上服裝使它看起來像臭鼬,那將是臭鼬。
如果將飛機噴漆成看起來像龍,那將是龍。
顯然,僅了解某個概念中如何使用單詞的某些統(tǒng)計屬性不足以理解基礎(chǔ)概念的本質(zhì),例如使飛機變成飛機而不是龍的原因(反之亦然)。這份最近匿名的,正在審查的手稿也提出了類似的觀點。
我想起了像Nigel Richards這樣的Scrabble冠軍,他們在不懂法語的情況下贏得了法國Scrabble?比賽;各個單詞僅用作游戲代幣,而與它們的含義無關(guān)。本質(zhì)上,GPT-2可以預(yù)測單詞序列作為游戲代幣的屬性,而不會暗示所引用的基本概念。
它做得如此之好,以至于有時會引起“伊麗莎效應(yīng)”,在這種效應(yīng)中,幼稚的人對機器的歸屬要比對機器的實際歸屬更多,但是除了表面的概念理解之外,別無所求。
如果我們繼續(xù)探究起火的例子,我們會得到類似的結(jié)果
點火的一個好方法是用干燥的棉球遮蓋保險絲!
點燃火的一個好方法是使用一品脫大小的爐子
“火”,“融合”,“光”等詞都是相互關(guān)聯(lián)的; GPT-2能夠做到這一點,但這還不足以讓GPT-2引發(fā)對火的性質(zhì)的概念性理解;結(jié)果參差不齊。換句話說,就像朱迪亞·珀爾(Judea Pearl)所說的那樣,這種異常行為是您試圖通過近似統(tǒng)計單詞用法的統(tǒng)計曲線來誘導(dǎo)世界如何運轉(zhuǎn)時得到的結(jié)果,而不是歸納出對世界的更抽象,因果的理解。【在深度學(xué)習(xí)社區(qū)的某些部分中,有一種積極的努力試圖整合因果方法;我的猜測是,如果不在因果知識的表示和操作上增加一些固有的約束,這就不可能成功,很可能導(dǎo)致某種混合網(wǎng)絡(luò)。】有時行得通,有時卻行不通。
一個人不可能用如此缺乏可靠性保證的零件來設(shè)計一個健壯的系統(tǒng)。
用如此低的可靠性試圖用零件構(gòu)建系統(tǒng)的一個問題是,下游推理將不可避免地受到影響。擁有知識的全部目的是將其用于行動,解釋和決策中。如果您不知道會引起火災(zāi)的原因,或者瓶子破裂時會發(fā)生什么,則很難推斷周圍的情況。同樣,您不能可靠地進行計劃。想象一下,一個家用機器人無法點燃頑固的爐灶,用干燥的棉球花了幾個小時,一個又一個地覆蓋了一個保險絲。
語言理解也不可避免地會受到影響,因為我們經(jīng)常根據(jù)話語的真實性和語境來消除話語的歧義(Tanenhaus,Spivey-Knowlton,Eberhard和Sedivy,1995)。像GPT這樣的系統(tǒng)具有一定程度的詞語用法語境,但缺乏對認知語境和合理性的可靠表示。
在充滿了如此淺薄的概念理解的系統(tǒng)中,可解釋性和可解釋性也將變得難以捉摸。將棉球和打火機凝結(jié)成同等有效的點火方式的系統(tǒng)可能沒有內(nèi)部一致性來滿足可解釋性的需求。
如果對基本概念沒有連貫的因果理解,則可能沒有辦法在復(fù)雜的實際環(huán)境中設(shè)計魯棒性。 Pearl是對的:如果我們的系統(tǒng)僅依賴于曲線擬合和統(tǒng)計近似,則它們的推論必然會很膚淺。
這使我想到了本論文的第二個主要主張:歸結(jié),表示和操縱通常具有因果關(guān)系的結(jié)構(gòu)化,抽象知識的大型數(shù)據(jù)庫的系統(tǒng)方法是強大情報的先決條件。
2.2.1強大的人工智能將需要什么樣的知識?
以下是一些基本注意事項:
?大部分(但重要但并非全部)知識(請參閱下文)都可以學(xué)習(xí)。沒有人生來就知道打火機會著火,干燥的棉球不會起火,玻璃瓶破裂時可能會做什么。可以想象,可以像CYC那樣,將這些知識硬連接到AI系統(tǒng)中,對每個事實進行手工硬連接,但是現(xiàn)代機器學(xué)習(xí)愛好者顯然不愿意這樣做。而且由于總是有新知識要收集,因此有必要學(xué)習(xí)新的抽象機制(通常是因果知識)。
??一個健壯的系統(tǒng)可能利用的知識中,有相當一部分是象征性地表現(xiàn)出來的外部文化知識。例如,維基百科的絕大多數(shù)內(nèi)容都是口頭表達的,一個強大的情報機構(gòu)應(yīng)該能夠利用這種知識。(目前的深度學(xué)習(xí)系統(tǒng)只能在非常有限的范圍內(nèi)做到這一點。)大部分知識都是根據(jù)變量之間的量化關(guān)系進行有效編碼的(例如,對于所有x、y和z,x、y和z都是人,如果有一個人y是x的父母和z的孩子,那么x就是z的孫子;對于所有x,x是一個物種,x物種的生物體產(chǎn)生的后代也是x物種的后代,等等)。
?健壯的系統(tǒng)需要的知識中有很大一部分可能是抽象的。當前的系統(tǒng)擅長表示特定事實,例如BORN(ABRAHAMLINCOLN,KENTUCKY)和CAPITAL(KENTUCKY,F(xiàn)RANKFORT),但缺少表示和有效處理信息的方式,例如如果瓶子壞了,其他條件相等時,瓶子中的內(nèi)容物可以逃逸。
?規(guī)則和例外必須并存。規(guī)則動詞(walk-walked)與不規(guī)則動詞(sing-sang)共存。不會飛的企鵝和其他很多會飛的鳥類共存。機器必須能夠以某種方式來表示知識,就像語言學(xué)家所說的泛型:知識通常是真實的,但也有例外(飛機會飛,但我們認識到,一架特定的飛機可能會被停飛),甚至不必在統(tǒng)計上準確地反映病例(蚊子攜帶瘧疾是重要的知識,但只有一小部分蚊子實際攜帶瘧疾)。只能獲取規(guī)則而不能獲取例外的系統(tǒng)(例如Evans和Grefenstette(Evans和Grefenstette,2017))是構(gòu)建能夠獲取抽象知識但還不夠的系統(tǒng)的一個有趣步驟。 ?一個健壯的系統(tǒng)可能是因果關(guān)系,并支持反事實的知識的一個重要部分。例如,封閉的人并不知道國家有首都,他們知道這些首都在政治上是由人民的行動決定的,而且這些決定有時會被改變。奧爾巴尼是紐約州目前的首府,但如果首府(事實上)被燒毀,我們認識到該州可能會選擇一個新的首府。孩子們知道,當玻璃瓶落在堅硬的地板上時,那些瓶子可能會碎。
?盡管在網(wǎng)上搜集諸如首都和出生地等事實知識相對容易,但我們掌握的許多抽象知識很難通過網(wǎng)絡(luò)搜集;例如,很少有人會寫關(guān)于破碎瓶子及其內(nèi)容的文章。大多數(shù)情況下,正如列納特曾經(jīng)指出的,作家不會寫下常識,因為他們的讀者已經(jīng)知道了。(盲目拉網(wǎng)也有其他問題;例如,歷史偏見,比如醫(yī)生是男性,往往會被天真的拉網(wǎng)系統(tǒng)自動延續(xù)下去。)
?相關(guān)知識的范圍必須非常廣泛。例如,理解一部小說可能需要技術(shù)、政治實體、金錢、天氣、人際交往、禮儀、性、暴力、貪婪等方面的知識。例如,約翰·格里沙姆(johngrisham)的第一部暢銷小說《公司》(TheFirm)中的關(guān)鍵情節(jié)轉(zhuǎn)折就建立在對影印機能做什么、能做多快的理解上,與對人類動機和時間推理的深刻理解并列。
?很難將知識付諸實踐。擁有一個龐大的知識數(shù)據(jù)庫是一回事,其中包括有關(guān)復(fù)印機及其運行速度的事實,另一種方法是將這些知識(在大量其他不太相關(guān)的信息庫中)整合到關(guān)鍵任務(wù)的時間推理中,即英雄律師在陷入秘密但高尚的信息收集行為之前所處的狹窄時間窗口。以一種有效的方式將抽象的知識與現(xiàn)實世界中的具體情況聯(lián)系起來,本質(zhì)上是一個尚未解決的問題。
??人類知識的一些小而重要的子集可能是天生的;健壯的人工智能也應(yīng)該從一些重要的先驗知識開始。在當代的ML中,人們常常強烈地希望將知識和天賦最小化;正如下面第2.2.3節(jié)所討論的,我認為這是一個錯誤。
2.2.2案例研究:容器
讓我們更詳細地考慮一個案例研究-一個事實(在通常情況下),帶蓋的茶壺中的水只能從壺嘴出來。
正如讀者現(xiàn)在所期望的那樣,GPT-2有時會做到這一點。
原則上,我們也許可以通過眾包獲得這一特定事實,但由于人們很少陳述如此明顯的事實,而且更不經(jīng)常精確地陳述,我們不應(yīng)該指望它。盡管我們可能需要在我們的數(shù)據(jù)庫中有這樣一個事實,例如,如果我們正在構(gòu)建人工智能來支持一個仿人的老年人機器人的決策,我們可能不會提前預(yù)料到這種需要。
如果我們能從更一般的知識中得出這樣的事實就更好了,例如,如果我們遇到一個外表陌生的茶壺,我們就會知道它是什么,以及如何與它互動。
Ernest Davis、NoahFrazier Logue和我提出了一個框架(Davis、Marcus和Frazier Logue,2017),可以幫助解決這類挑戰(zhàn):一大套獨立動機的邏輯公理,這些公理不是茶壺特有的,都是通用的,主要由大多數(shù)普通人在思考后認識到的抽象組成是真的,從中可以對容器做出正確的推斷。
總的來說,公理所處的框架是相當普遍的:關(guān)于時間、空間、操縱、歷史、行動等的公理。這些公理包括如下陳述(這里有一些稍微簡化的解釋):
?物理世界由一系列物體組成,這些物體在時間和空間上移動。
?對象是不同的;也就是說,一個對象不能是另一個對象的一部分,也不能在空間上與另一個對象重疊。
?物體占據(jù)某個三維范圍的區(qū)域;它不能是一維的曲線或二維曲面。
?特定數(shù)量的液體可以占據(jù)特定體積的任何區(qū)域。
?封閉容器是完全包裹內(nèi)腔的一個物體或一組物體。
?直立開口容器是頂部開口的開口容器。
配備了此類知識的探索性機器人(以及將知識與感知模型和認知模型聯(lián)系起來的其他機械)也許可以推斷出帶有幾乎隱藏的壺嘴的形狀異常的水壺的使用和功能:
理查德·威廉姆斯·賓恩斯(Richard Williams Binns,1837-1903年)設(shè)計的茶壺,其右手下方帶有隱藏式噴嘴。
經(jīng)過一定的擴展,這樣一個系統(tǒng)可以提供一個系統(tǒng)的基礎(chǔ),這個系統(tǒng)可以推理出送紗器的用途,即使人們以前從未見過送紗器;最終,人們希望,這些基礎(chǔ)可以作為機器人系統(tǒng)的一個組成部分,可以在一個動作過程中應(yīng)用這些知識,比如編織。
喂紗器。紗線球停留在較大的開口中,并保持在那里,即使將單股紗線拉出也是如此。
并推斷出新的供料器(或與用戶進行交流),甚至是完全不同的供料器:
這種情況在目前的神經(jīng)網(wǎng)絡(luò)方法中并沒有自然地表現(xiàn)出來。首先,這樣做可能需要一個對象的先驗概念,而這個對象本身在大多數(shù)當前的神經(jīng)網(wǎng)絡(luò)中并不容易表示。然而,這些知識需要成為健壯的人工智能的核心部分,我們必須擁有獲取這些知識的策略和能夠獲取、表示和操作這些知識的體系結(jié)構(gòu)——其中一些在本質(zhì)上似乎是象征性的。
原則上,也許我們提出的公理中有一小部分是天生的,其他人是學(xué)來的,盡管到目前為止我還不知道有哪個系統(tǒng)能夠?qū)W習(xí)這類公理。(這里再次強調(diào),具有嵌入式知識的神經(jīng)符號系統(tǒng)可能會有所幫助。)
重要的是,這組框架本身會聚集到一組相當容易識別的域中,例如關(guān)于空間、時間和因果關(guān)系的知識,如這里所示:
容器知識框架,摘自(Davis et al。,2017)
2.2.3固有的知識框架
把我們帶到本土主義。雖然沒有人可能認為所有的抽象知識都是與生俱來的,但其中一些可能是與生俱來的,而讓某些知識與生俱來的論點最終非常簡單:你一開始知道的越多,其他知識就越容易學(xué)習(xí);如果你能縮小自己的范圍,你就可以限制你試圖尋找的假設(shè)空間尋找。
LeCun關(guān)于卷積的開創(chuàng)性工作(LeCun,1989)事實上是對這一點的一個有力的實證證明,表明在數(shù)字識別任務(wù)中學(xué)習(xí),在一個預(yù)連線的層次結(jié)構(gòu)配備了平移不變特征檢測器(使用卷積)的系統(tǒng)中,準確度更好,相對于一個更簡單的體系結(jié)構(gòu)來說。唯一的先天優(yōu)勢,卷積,已經(jīng)被證明是非常有價值的。
然而(許多,并非所有)機器學(xué)習(xí)研究者反對在他們的系統(tǒng)中加入更多的固有約束,畫出一條看似任意的線,這樣網(wǎng)絡(luò)參數(shù)(有多少層,損失函數(shù)是什么,使用什么輸入節(jié)點編碼方案等等)對于先天性來說是公平的游戲,但大多數(shù)其他事情通常是公平的預(yù)計將被學(xué)習(xí)(馬庫斯,2020年)。有些人甚至認為這是一個值得驕傲的地方;正如一位研究人員在一封電子郵件中告訴我的那樣,“如果你主要對理解‘學(xué)習(xí)’感興趣,那自然會導(dǎo)致你貶低‘手工編碼’。”
我在2019年12月與Yoshua Bengio的辯論同樣具有啟發(fā)性。他說,預(yù)先指定卷積是可以接受的,因為它只需要“三行代碼”,但擔心將先驗知識(先天/先驗知識的位)的集合遠遠擴展到卷積之外,特別是如果這些先驗知識需要指定多于幾位的信息
正如我在那里向他表達的那樣,我不會太擔心那些零碎的東西。超過90%的基因組在大腦發(fā)育過程中表達(Miller et al.,2014;Bakkenet al.,2016),其中相當數(shù)量的基因在特定區(qū)域選擇性表達,從而產(chǎn)生詳細的初始結(jié)構(gòu)。有許多機制可以通過使用少量的基因來指定復(fù)雜的結(jié)構(gòu);本質(zhì)上,基因組是以半自主的方式構(gòu)建結(jié)構(gòu)的壓縮方式(Marcus,2004);沒有理由認為生物大腦僅限于幾個“小”先驗。凱文·米切爾最近在辯論后的一次跟進中很好地總結(jié)了形勢。
的確,基因組中沒有足夠的信息來說明神經(jīng)發(fā)育的確切結(jié)果,即大腦中每個神經(jīng)元的數(shù)量、位置和連通性。基因組只編碼一組無意識的生化規(guī)則,當這些規(guī)則在發(fā)育中的胚胎的動態(tài)自組織系統(tǒng)中發(fā)揮作用時,會導(dǎo)致在自然選擇定義的操作參數(shù)范圍內(nèi)的結(jié)果。但這些操作參數(shù)有很大的空間,包括我們認為是先天的各種因素。在許多物種中有大量證據(jù)表明,根據(jù)基因組中的指令,許多不同的先天前驅(qū)確實預(yù)先連接到神經(jīng)系統(tǒng)中。
如果基因組有足夠的先天先兆的空間,那么現(xiàn)代人工智能系統(tǒng)可能還有更大的空間;我們生活在一個計算機內(nèi)存以千兆字節(jié)和兆字節(jié)來衡量的時代,而不是以字節(jié)或千字節(jié)來衡量的時代。對于人工智能來說,真正的問題不應(yīng)該是,我們的先驗知識庫有多小?但是什么樣的先驗知識能最有效地為學(xué)習(xí)創(chuàng)造條件呢?就其本身而言,最小化比特數(shù)并不是目標。
如果有三個關(guān)于先天性的建議反復(fù)出現(xiàn),它們就是時間、空間和因果關(guān)系的框架。
例如,康德強調(diào)從時間、空間和因果關(guān)系的“流形”開始的價值。斯皮爾克長期以來一直認為,一些基本的,核心的知識,對象,集合和地點可能是先決條件,以獲得其他知識。正如她所說(斯佩爾克,1994年),
如果兒童天生具有感知物體、人、場景和地點的能力,那么他們可能會利用自己的感知經(jīng)驗來了解這些實體的屬性和行為……然而,如果他們不能在他們的環(huán)境中挑出那些實體。兒童如何才能了解某個領(lǐng)域中的實體,這還很不清楚.
戴維斯和我在我們對容器的分析(見上圖(Davis等人,2017))和我們最近的書(Marcus&Davis,2019)中都同樣強調(diào)了先前的空間,時間和因果關(guān)系框架的價值。 ; 多年來,許多其他發(fā)展心理學(xué)家也指出了類似的方向(Landau,Gleitman和Landau,2009;Carey,2009;Leslie,1982;Mandler,1992)。
正如斯佩爾克(Spelke)和康德(Kant)都強調(diào)的那樣,一旦您了解了物體及其在時間中的傳播方式,就可以了。您可以開始填寫其屬性,并開始獲得環(huán)游世界所需的知識。
殘酷的事實是,相反的方法(從近乎空白的板塊開始,然后在海量數(shù)據(jù)集上對其進行訓(xùn)練)到目前為止還沒有成功(Marcus 2020)。一些大型公司(例如Google,F(xiàn)acebook,Microsoft等)對由大數(shù)據(jù)集訓(xùn)練的相對空白的模型進行了全面的測試,并提供了幾乎無限的時間,金錢,計算人員和研究人員,但他們?nèi)匀粺o法可靠地推理出時間,空間或因果關(guān)系。如果沒有這樣的能力,我們的系統(tǒng)將永遠不會足夠強大以應(yīng)付現(xiàn)實世界的變化。
肯定是時候考慮一種更自然的方法了。
好消息是,盡管在深度學(xué)習(xí)社區(qū)中人們常常不贊成本土主義,但從歷史上看,越來越多的跡象表明對``先驗者''更加開放(例如Burgess等人,2019年; Rabinowitz等人,2018年) ; Maier等人,2017)。
當然,每個神經(jīng)網(wǎng)絡(luò)實際上都是先驗的,其形式是先天(即預(yù)先建立,而不是通過相關(guān)系統(tǒng)學(xué)習(xí))對特定層數(shù),特定學(xué)習(xí)規(guī)則,特定連通性模式,特定表示方案的承諾(例如輸入和輸出節(jié)點代表什么),等等。但是,這些先驗本質(zhì)上很少是概念性的。
真正的問題可能是關(guān)于可以代表什么樣的先驗,以及我們所需要的先驗是否可以自然地用我們已經(jīng)擁有的工具來代表,或者我們是否需要新的工具來代表更廣泛的先驗。深度學(xué)習(xí)社區(qū)似乎可以將卷積(自然適合神經(jīng)網(wǎng)絡(luò)框架)用作先驗,但是到目前為止,該社區(qū)對具有更復(fù)雜先驗的模型的關(guān)注程度大大降低,例如關(guān)于對事物永恒性的先天認知【參見Marcus(2001),第5章中有關(guān)為什么估計對象的軌跡本身不足以進行討論的討論】,或用于理解隨時間變化的事件的時間演算。
我們應(yīng)該問的不是我能去掉的的最起碼的內(nèi)在結(jié)構(gòu)是什么?而是我需要什么樣的先驗?zāi)兀恳约拔椰F(xiàn)有的體系結(jié)構(gòu)能否有效地將它們合并?我們是否可以建立一個更豐富的具有深層學(xué)習(xí)基礎(chǔ)的內(nèi)在基礎(chǔ),或者在這個框架中可以方便地內(nèi)在地表達的東西是否有限制?我們是否需要顯式的符號操縱機制來表示其他類型的抽象,比如因果抽象?事實證明,深度學(xué)習(xí)擅長表達關(guān)于物體外觀的知識,但不太擅長獲取和表達關(guān)于物理世界如何運作的知識(Zhang,Wu,Zhang,F(xiàn)reeman&Tenenbaum,2016),關(guān)于人類如何相互作用,以及更普遍的因果關(guān)系。
其他方法,如概率規(guī)劃,允許顯式表示的符號約束,同時努力學(xué)習(xí)微妙的統(tǒng)計信息,值得認真考慮。
退一步說,人類對世界的絕大多數(shù)了解都是從中學(xué)到的:
事實上,船只傾向于漂浮而不是沉沒
事實上,如果船只在水線以下形成洞,它們確實會下沉。
打火機比棉球更適合點火
破碎的瓶子會泄漏
一次又一次,幾乎沒完沒了。無論我們擁有什么樣的核心知識,都必須有大量的知識來補充。
認為普通人可能知道(或立即承認是真的)數(shù)百萬或數(shù)千萬這樣的事實并非沒有道理;其中絕大多數(shù)必須通過經(jīng)驗、明確的指示或其他方式來學(xué)習(xí)。重要的是,幾乎所有這些知識都可以付諸實踐,指導(dǎo)行動和決策(例如,如果我們發(fā)現(xiàn)船在水線以下有一個洞,我們會選擇不上船)。
但重要的是,我們所學(xué)到的知識中有相當一部分是因果性和抽象性的,根據(jù)上一節(jié)的討論,這可能需要使用某種混合體系結(jié)構(gòu)。
同時,純粹的預(yù)先連線永遠不夠,因為世界本身在不斷變化;例如,總會有新的因果原理與新的技術(shù)聯(lián)系在一起。如果有人介紹一個流行的新玩意兒叫花花公子?,我們很快就會知道虛擬機是做什么的,如何打開和關(guān)閉它,以及如何讓它做自己的事情。正如Gopnik和Sobel(Gopnik和Sobel,2000)優(yōu)雅地展示的那樣,孩子們很自然地做到了這一點;我們需要能夠做到這一點的機器。
但是我們可能不能也不應(yīng)該僅僅從經(jīng)驗中學(xué)習(xí)我們所有的抽象和因果知識。當這么多的知識已經(jīng)被編成法典的時候,這樣做將是極其低效的;例如,為什么要讓每個系統(tǒng)重新認識到,即使物體被遮擋,它們?nèi)匀淮嬖谟诳臻g和時間中,而這是一個普遍的真理?此外,正如我們所看到的,例如在GPT-2的討論中,從無到有的學(xué)習(xí)到目前為止是不可靠的。如果沒有一些先驗知識,例如生理和心理推理的基礎(chǔ)知識,我們可以稱之為常識的東西幾乎都學(xué)不好。我們需要一些核心知識來指導(dǎo)剩下的學(xué)習(xí)。
妥協(xié)和創(chuàng)新的必要性再次顯現(xiàn)出來。我們顯然需要能夠獲得新的因果知識的系統(tǒng)(可能是神經(jīng)符號的雜種),但為了獲得這種知識,我們可能需要比我們迄今使用的更強大的先驗知識。
因此,我的第三個主要主張是:我們不應(yīng)該把每一個新的人工智能系統(tǒng)從零開始,當作一張白板,對世界知之甚少,而應(yīng)該尋求建立從時間、空間和因果關(guān)系等領(lǐng)域的初始框架開始的學(xué)習(xí)系統(tǒng),以加快學(xué)習(xí)速度并大量限制假設(shè)空間。
無論這些框架是用形式邏輯(la-Cyc)表示還是用其他方法表示,也許還沒有發(fā)明出來,我強烈懷疑它們是朝著健壯智能方向取得任何重大進展的先決條件。再多的天賦也不能代替學(xué)習(xí),但不專注的學(xué)習(xí)是不夠的。這個游戲的名字是找到一組先天的先驗知識,無論是小的還是大的,這將最有利于學(xué)習(xí)我們系統(tǒng)最終需要的巨大知識庫。
盡管如此,光靠知識是不夠的。這些知識必須用推理工具付諸實踐,在認知模型的背景下,我接下來要談到的兩個主題。
2.3.推理
在一個著名的軼事,可能更好地在復(fù)述,但顯然是基于一個核心的真相,傳奇演員勞倫斯奧利弗是在現(xiàn)場與年輕的達斯汀霍夫曼,誰放棄了一些睡眠,以使他的角色可能會出現(xiàn)疲憊不堪。奧利弗對霍夫曼說:“親愛的孩子,你看起來真糟糕。你為什么不試著演戲呢?這樣容易多了。”
我對記憶和推理的看法是一樣的。目前的人工智能方法主要是試圖通過記憶(或至少是近似地記憶)整個世界的概率密度函數(shù)來應(yīng)對世界的復(fù)雜性,代價是無法滿足地需要越來越多的數(shù)據(jù)。考慮到世界的指數(shù)級復(fù)雜性,這一策略不太可能奏效。
推理提供了另一種選擇;你不需要記住所有的東西,也不需要在你以前可能遇到的近鄰之間進行插值,而是進行推理。你沒有記住柏拉圖、亞里士多德、歐里庇得斯和我們前面的其他數(shù)十億人都是凡人的事實,而是學(xué)到了一個普遍的真理,所有的人都是凡人,并根據(jù)需要將這個普遍的真理應(yīng)用到這個范疇的具體實例中。
正如我們所看到的,神經(jīng)網(wǎng)絡(luò),如Transformers(至少像目前通常使用的那樣,在端到端的方式中,與符號操作工具隔離)太不可靠,不適合合理的推理。它們可能在某些時候起作用,但不太可靠;只要有足夠的知識可用,符號操縱至少提供了朝著正確方向前進的希望。
在經(jīng)典模型中,推理引擎的最佳例子是CYC(相當于一個符號系統(tǒng))能夠在最佳情況下執(zhí)行的那種推理。舉個例子,CYC的創(chuàng)始人Doug Lenat(Lenat,2019,#3132},re Romeoand Juliet)最近的一次討論,在這里用兩個圖抽象出來,提供了故事的概要,一些與故事相關(guān)的知識,一些常識知識,以及CYC推理的一個例子(復(fù)雜推理者和大規(guī)模知識的結(jié)合)在最佳情況下可以得出
圖2羅密歐與朱麗葉,以及一些與故事相關(guān)的知識樣本,例如故事中的特定時刻和特定時間點的知識;摘自Lenat 2019。正如后面所討論的,中間和右邊的面板反映了CYC對情節(jié)的認知模式的一部分。
圖3相關(guān)常識知識樣本,以及CYC得出的復(fù)雜推論;Lenat 2019
上圖中間和右面板的詳細程度——列出了時間點和在這些時間點上保持正確的陳述——是我將稱之為豐富認知模型的一個例子。它是一個認知模型,因為它是一個復(fù)雜場景的內(nèi)在升華,它的豐富之處在于它充滿了關(guān)于特定主人公在特定時間點做什么、知道什么、打算什么和期望什么的微妙信息。
同樣地,我們可以認為下圖左半部分所示的常識知識相當豐富,因為它所編碼的行為、后果和人類互動的信息錯綜復(fù)雜。其中一些知識可能被明確地表示出來(例如,飲用某種毒物的后果可能是立即死亡),一些可以想象的知識可能是從更一般的事實在網(wǎng)上衍生出來的。(例如,“如果一個人死了,他們就不必和任何人結(jié)婚”可能是從一個更普遍的觀察中得出的,即義務(wù)往往只適用于活著的人。)無論哪種方式,擁有如此廣泛的知識儲備的回報來自于可以得出的推論的復(fù)雜程度(下圖右側(cè)),以及在他們的可解釋性水平上,這兩者與迄今為止通過深度學(xué)習(xí)產(chǎn)生的任何東西都處于完全不同的水平。
一些觀察結(jié)果:
?如果不廣泛使用結(jié)構(gòu)化表示、變量操作和個人記錄,這種方法是不可能的。
?這是一個最好的概念證明,表明擁有豐富的認知模型和豐富的生物學(xué)、心理理論等知識的潛在價值。
?然而,它在很大程度上依賴于知識工程師手工完成的大量前期工作,這些工程師已將《羅密歐與朱麗葉》手工翻譯成形式邏輯;一個能夠在可比水平上自動生成此類表示和推理的系統(tǒng)將是一個重大突破。
?推理本身不一定是通往強大人工智能的瓶頸;真正的瓶頸可能在于在現(xiàn)實世界推理的上下文中獲得正確的信息。
當然,CYC遠非完美。世界上有太少的東西是以充分的預(yù)先包裝的形式提供給CYC的。CYC沒有太多的自然語言前端,也沒有遠見;要讓它變得合理,你需要把你的問題用邏輯的形式表示出來。由于很少有問題是以這種方式預(yù)先包裝的,因此直接的商業(yè)應(yīng)用相對較少。但是,在一個將大規(guī)模抽象知識與以各種形式邏輯實現(xiàn)的高階推理相結(jié)合的系統(tǒng)中,精細推理是可能的,這是一個存在的證明。
即便是CYC的推理能力,無疑也有很大的提升空間。它的表示主要是(或者完全是)高階邏輯的東西;不清楚它能在多大程度上表示不確定性,以及對統(tǒng)計分布的推理,等等。正如伯特蘭·羅素曾經(jīng)說過的,“人類所有的知識都是不確定的、不精確的和部分的”,現(xiàn)在還不清楚CYC能處理多少不確定性、不完整性和不精確性。【另一個問題是人類在推理中面臨的諸多限制,如確認偏差、動機推理、語境效應(yīng)、連接謬誤等。在一個理想的世界里,我們會從人類做得好的事情中學(xué)到東西,但把這些異常現(xiàn)象拋在腦后。關(guān)于為什么人類可能進化出這種認知效率低下的討論,即使這種認知錯誤在功能上可能不是最優(yōu)的,參見Marcus(Marcus,2008)】
有人懷疑,就像經(jīng)典人工智能和神經(jīng)人工智能中的許多其他東西一樣,它很可能是脆弱的,高度依賴于數(shù)據(jù)庫中的特定知識以及復(fù)雜場景映射到其內(nèi)部邏輯的精確方式。
盡管如此,它——或者其他能夠做類似工作的東西,也許使用不同的方法——似乎是通往穩(wěn)健推理的必經(jīng)之路。一個不能理解羅密歐和朱麗葉的情節(jié)摘要的人工智能不太可能勝任現(xiàn)實世界的復(fù)雜性。一個人工智能,可以推理的動機交互人類作為復(fù)雜的事件,因為他們隨著時間的推移展開有戰(zhàn)斗的機會。
樂觀的可能性是,一旦混合架構(gòu)(architecture)知識的先決條件得到更好的發(fā)展,推理可能會自行解決;悲觀的可能性是,我們可能需要在推理本身方面進行重大改進,至少在可伸縮性和處理不完整知識的能力方面是如此。在我們把前兩個房子——建筑學(xué)和知識表示——整理好之前,我們可能真的無法分辨。
但我們已經(jīng)知道:由于世界的復(fù)雜性,我們需要這樣的東西。很明顯,我們需要新的基準來推動我們的系統(tǒng)進行羅密歐與朱麗葉場景所體現(xiàn)的那種復(fù)雜的推理。由于我們既不能預(yù)先對每一個場景進行編碼,也不希望總是在已知的場景之間進行插值,因此一個能夠有效地利用大規(guī)模背景知識的推理系統(tǒng),即使在可用信息不完整的情況下,也是魯棒性的先決條件。
Minervini等人最近的研究(Minervini等人,2019年)給了我希望,一種神經(jīng)符號混合的方法可以開辟新的領(lǐng)域。Besold等人(Besold、Garcez、Stenning、van der Torre和van Lambalgen,2017)提供了另一個起點。人們在努力這一事實給了我更多的希望;如果我們要前進,推理和知識需要成為一流的公民,看到人們在努力是件好事。
2.4認知模型
一種特殊的知識是隨著時間的推移積累起來的關(guān)于特定事務(wù)狀態(tài)的知識,例如我們在談話過程中可能了解到的關(guān)于一個朋友的信息,在閱讀新聞過程中了解到的關(guān)于一個國家的信息,或者在讀一本書時了解到的關(guān)于一群人的信息。在認知心理學(xué)中,我們稱這種累積表征為認知模型。你的認知模式可能和我的不同;你的可能更詳細,我...
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.