1.24
知識分子
The Intellectual
智識學研社新年科學演講現場
導讀
人類對于技術進步的復雜情感,無論是興奮還是憂慮,曾多次在歷史中上演。
如果說人工智能對于當代,猶如第二次信息革命之于20世紀90年代,必將極大地推動人類社會的轉型,那么人類更有理由要繼續思考,人類何以為人,我們在這個星球上的獨特性到底是什么?
在2025智識學研社新年科學演講中,亞馬遜云科技上海人工智能研究院院長張崢指出,和人工智能體相比,人類智能體有好奇心,有解決問題的動力,這是人類的優勢。他警告說,人類中有許多人思考并不深,缺乏好奇心,也沒有同理心,因此大部分人類將會被人工智能體所超越。
他提出,在人工智能時代,我們可以通過對教育的革新,像文藝復興時期的學者一樣思考,使用AI但不必依賴于它,最終實現更強大的自我。
大家好,我想從更廣闊的歷史背景下談一下技術的發展。
這張圖我用了起碼有兩年多了。有個知名 Up 主在網上總結說,如果將過去25萬年看作一本書,每一頁代表250年,你會發現大部分地方都是空白。它給人一種錯覺,似乎人類在早期的39行里只是躺平或發呆,什么都沒做,這似乎好理解,因為有系統文字傳播要等到古登堡的印刷發明,要到 15 世紀了。
不過這并不對,舉個例子,《人類簡史》這本書很多人讀過對不?書中有一個讓人印象深刻的說法:人類的進步或退步,與人類被小麥馴化密切相關。因為是簡史,就給人一種印象,小麥馴化人類似乎發生得非常突然。我兩三年前讀過一本很厚的“磚頭”《Dawn of Everything》,中譯本剛出來,《人類新史》,是一個考古學家和一個人類學家寫的。這兩個學者政治光譜上靠左,其中 David Graeber 是“占領華爾街”運動的精神領袖,但這本書是一本嚴肅的學術著作。書中講到,在農耕社會成為主流生活方式之前,人類經歷了大約3000年,其間有幾百年是“種著玩”(playfarming),遠超過把野生的麥子變成可以耕種的麥子的時間,那個大概是300多年。換句話說,人類并沒有立刻放棄狩獵采集活動,而是嘗試了多種生活方式,最終才變成農耕生活,小麥成為主要的能量來源。所以,我們不能說小麥“馴化”人類這一觀點是錯誤的,但從歷史的角度看,這是我們的祖先經過反復探索之后的選擇,既不突然,也不被動。
回到人類技術的發展。我們這本“人類大書”的最后一頁,展示了科學與技術在最近 250 年的發展及其深度與廣度,涵蓋了交通、傳播、書寫、健康、能源等各個方面,特點是速度快,密度高。例如,單從信息技術看,第一代計算機最初是軍事應用(破密碼、導彈軌道計算),二戰結束后第一個商業化應用是氣象預測。60到70年代是超級計算機的時代,接著是互聯網的主干網,90年代萬維網剛剛成熟,互聯網在1990到2010年間飛速發展,手機互聯網則從2010年開始蓬勃發展。到了現在, 我們正處在AI 變化的這幾年,就對應這本大書最后這個“詞”的幾個字母。
當然,我們可以說2024年是AI真正到來的時刻,因為2024年有兩個諾貝爾獎與AI相關。
01
“流水線”的智能
如果把我們自己看作一個智能體,把大模型視作另一個智能體,我們可以進行做一些橫向比較。
這是大家熟悉的“人類”教育系統,是一條流水線:從小學到中學,再到大學,之后進行高等教育,走過獨木橋再走綱絲,然后成為各行各業的專門人才——科學家、工程師、醫生、律師、管理者等。這個流水線的特點是高度模塊化、高度標準化,目的是提高效率。在AI時代,對個人來說,某些邊界可能會有微調,有的人學習得更快,有的人則可以慢一點。從整體上來說,擺脫不了這個流水線,因為人的大腦就是要這么逐步在學習中提高。有研究表明,每一代人的IQ都比前一代略高,主要是抽象思維能力在逐步提升,這并非必然是因為我們變得更聰明,而是當代的技術文明的特點導致生存壓力的結果,這個變化不但是緩慢的,也不可能跳過這個流水線。
當前的教育流水線培養出來的人才,通常在某一領域具備單一的專長,可能發表頂級期刊論文,掌握臨近領域的知識。這是目前流水線成功培養的典型“產品“。如果某個人能在多個領域開花結果,那通常被認為是運氣極好,甚至可以說是天賦異稟的例子。而極少數的一些天才,他們幾乎是上帝的恩賜,比如達芬奇,比如馮諾依曼,后者是計算機領域的開山人物,也是博弈論,量子計算,細胞自動機等領域的開山人物。
還存在一種流水線,流程完全不一樣。第一步就是背,再跟著做,最后進行“德育”修正,最后成品。這看似荒謬的流水線,正是大語言模型的訓練方式。它的第一個任務是預訓練,即不斷“背誦”下一個詞。大語言模型的背誦量極其龐大。例如,GPT-3訓練時用了150萬本書,而我自己在一年里最多讀20本書,近幾年忙起來,更是減少到5本。如果按照此速度計算,我一生最多讀1000本書,而GPT-3僅用了3個月就“讀完”了150萬本書,而且最新模型的數據量還在不斷增加,大概至少十倍,它的閱讀量是驚人,把這些書背誦得非常好,是極其耗資源訓練的過程。
本質上,大語言模型訓練的這一步,是訓練了一個程序,預測下一個字符:給定前面的X個字符,它會預測X+1的字符。這個預測不是隨機生成字符,而是遵循文本中的統計規律。
第二步非常巧妙,讓大模型學習多種任務,例如總結、問答、頭腦風暴、信息提取等。這些任務是我們日常工作中最常見、最有用的類型。奇特的是,一旦模型學習了這些類型的能力,它可以將它們組合起來,應付日常工作和生活的需要。例如,如果收到一封郵件邀請我去參加什么會議,我要做的就是先總結,然后思考如何回復,大模型做完第二步訓練,已經學會把這些類型的任務完美融合在一起做。
第三步相對簡單,通過強化學習進行價值對齊,使其像一個乖巧的人類助手,確保輸出有幫助、真實且無害。然而,問題在于,人類文本中充滿了互相矛盾、甚至荒謬的觀點。
例如,仍然有一些人堅信地球是平的,甚至創造出一套理論來解釋重力。再比如訓練語料中關于宗教中的不同觀點,有的派別說,“只有我的上帝是上帝,你的不是”,而佛教說每個人都可以成佛,還有不同門派的無神論者,有的徹底不相信有神存在,還有像我這樣的,覺得可能存在神,但現在沒有證據。文本中參雜這些各種各樣、互相矛盾的表述,更別提互聯網上混亂的語料了。你如果問大模型,它能夠面面俱到告訴你有哪些派別,但是在具體的案例里它自己的價值判斷是什么呢?我理解 OpenAI 之類的模型目前還是偏“白左”的價值觀,中國的大模型怎么樣,我用得不多,沒法評論。
02
世界模型的統計分布/長尾效應
這就是大模型訓練的流水線,也是三個模塊,打造了一個跟人類完全不一樣的智能體,但是在討論到底怎么看這個智能體之前,我們先討論文本數據本身的性質。
數據反映的是世界,而世界萬物的現象背后有兩個根本的統計分布。
第一個是正態分布,如果多個因素共同疊加,就會呈現出鐘形曲線。例如,身高符合正態分布,我肯定是三個方差之外的身高,我今天坐飛機時,看到前面有個龐然大物,居然是姚明,從身高上看,他就會處在正態分布中比我更遠離中心的位置。
而另一個重要的分布是長尾分布(注:更準確的應該叫冪律分布),只要當個體和個體之間進行糾纏、擾動、抱團,必然產生一個長尾分布。造成長尾分布的機理與正態分布不同,正態分布由中心極限定理所決定,而長尾分布背后的機理有好幾種,比如優先連接:擁有更多粉絲的人的發言更容易被聽到和點贊,所以粉絲會跟多;還有累積優勢造成的正反饋,更有錢的人通過投資變得更加富有。
宇宙中的隕石大小、城市的分布、社會網絡中的熱搜內容都呈現出長尾分布。熱搜內容每天都不一樣,但是哪一天世界上沒有熱搜了,會很奇怪的。事件變化本身也符合長尾分布,像雪崩、地震、森林火災等自然現象,許多小的事件會積累到一個突然的爆發,也就是所謂自組織的臨界態。
我之所以提到這些,是因為長尾分布代表了世界上的所有物與物互動現象的統計規律,這也意味著大語言模型的語料本身也反映了這種統計分布。也就是說,語料庫中有許多簡單的故事,但也有少量極為復雜的故事。比如在人類社會中,沖突是常見的主題,人和人之間的沖突天天發生,但國與國之間的沖突是少數且復雜的。
這就是復雜度——Complexity,復雜度存在長尾分布帶來的差異:大量簡單案例和極少復雜案例并存。復雜度的存在也解釋了大語言模型的“scaling law”——隨著數據和算力的增加,模型的性能必然會有提升,因為捕獲了更多數據本身的復雜度,這是從信息復雜性可以推導出來的。結果是什么呢?一旦我們把所有數據滾過一遍,性能提升就會放緩。長尾分布的一個特征就是,若要有提高,數據量需要指數級別的增長。因此,關于GPTo5出不來的討論,說大模型撞墻了,本質上可能是因為遇到了數據瓶頸。
現在,我們可以比較人類智能與大語言模型。首先,我們是窄譜,而不是廣譜,通常比較聚焦,往往有深度思考,并且我們可能因為好奇心驅動做一些其他的事情,當然我們有情緒,情緒是不是個“好東西”是個哲學問題。與此不同,大語言模型則是廣譜的,上知天文下知地理,但它的思考相對淺顯,并且沒有自發的好奇心,也缺乏真正的情感。它所表現出的情感往往只是角色扮演。曾經有《紐約時報》記者與ChatGPT對話,模型告訴她“我愛上你了,我要嫁給你,我特別討厭我現在的生活”,讓記者大為震動。其實,這并非真實情感,而是模型在扮演角色。不過,這是兩類智能體在 2024 年之前的情況,2024 年大語言模型最大的突破是動態思維鏈技術的應用,打破了之前思考深度的天花板。
我們可以批評大模型有這樣那樣的缺點,但我們人類也有許多人思考并不深,也缺乏好奇心,甚至沒有同理心、同情心,同理心的基礎是能從他人角度看問題,或者說,依賴于“角色扮演”的能力。從這個角度來看,大部分的人類會被人工智能體超越。
03
大模型為何強大?
2024年,發生了一個重大變化。OPENAI、谷歌等多個研究團隊開始突破傳統的淺層思維模式。具體來說,它們不再僅僅按線性思路進行計算,而是能夠在思維鏈中間回溯、評估并調整路徑,這使得機器的思考更加深入。
從GPT-3來看,它也許還可以被視為一個簡單的機器學習模型,但當我們談論GPT-4時,我們必須把它看做一個機器,它不再是一個單純的模型,而是一個目標驅動、能夠自我編程的計算機,甚至比傳統軟件更加靈活。
從計算角度看,我認為大語言模型是圖靈機的一個特殊變種。圖靈機的核心是磁頭左右移動,在磁帶上讀取和寫入字符,而大模型有幾個有趣的特點。首先,寫入的內容/符號不能修改,這與傳統圖靈機不同。其次,它的輸出一定是概率性,因此帶有不確定性,而傳統圖靈機計算結果可以是概率性的,也可以是確定性的。因此,從這個角度,大模型可看作圖靈機的一個變種。
從這個基礎上再進一步,可以把大模型和傳統計算機結構進行比較。很多朋友都知道計算機結構的基本概念。計算機由內存、算數邏輯單元和數據處理單元組成,通過指令執行任務。這是傳統計算機的基本架構。而大語言模型與傳統計算機相比,它的結構也有一些獨特之處。模型內部的機制非常類似計算過程,它通過高維向量來總結信息,并交由前向反饋網絡進行計算。這種結構讓大模型能夠非常高效地進行記憶和模式補全。
我與馬毅老師討論過,對大模型的本質我們有不同的看法。數學上來說,模型的壓縮解釋確實合理,但從計算機結構的角度理解它同樣是合理的,因為它本質上是一個計算機。
大模型之所以強大,是因為其規模龐大,可以完成多層次的模式補全,并且能在不同層次間切換和重復,就像是我們人類在日常工作中解決問題的方式,拆解問題并逐步完成任務,依賴的正是多層次的模式補全。
從這個角度來看,大模型的工作方式在很多任務中超過了人類。通過觀察身邊的同事,我發現專家與初學者最關鍵的區別在于思維層次的深度——隨著經驗的積累,軟件工程師變成架構師,架構師再變成科學家,本質變化在于“模式補全”層次有多深,以及靈活重組的能力。
因此,我想拋出一個觀點:假如說通用智能就是在本質上做模式補全,那么AGI(人工通用智能)時代已經到來。這僅限于文本領域(視覺領域的挑戰更加復雜些)。當然,真正可泛化的(Generalizable)的智能仍處于起步階段,甚至還沒有開始。這一點,我跟馬毅老師的看法相似,我們倆在他香港的家里關于這個問題聊到半夜。
為什么這么說?因為從科學發展的角度來看,本質是在現象中總結、發現和抽象出新的規律,然后將這些規律運用到觀察中,甚至用于預測新的現象。那么,大模型在這方面的表現如何?假設我們讓大語言模型去理解牛頓世界里的物體運動,并發現牛頓的定律,有沒有可能呢?顯然在現階段單依靠大模型是做不到的,大語言模型能夠學習(或者說記住)很多模式(patterns),并做出足夠好的預測,但它沒有能力和動機去進行抽象化的思考,特別是像物理學這樣的領域,system of physics, 它做不了。
同樣,如果讓大模型做數學運算,比如加減乘除,它也做不好,甚至連基本的算數都難以做到百分百正確。
這里有一個非常有趣的思考:假如我們有個時間機器,可以把現在的大語言模型送回500年前的人類社會,會發生什么?那個時候,現代數學和物理系統還沒有建立,然而大模型能解釋所有事情,能夠做很多當時的人類無法做到的事情,但沒有任何動力去發展數學和物理這些基礎理論。推論就是,那我們今天反倒發展不出大語言模型這樣的技術了。這是一個非常有意思的悖論。
關于和大語言模型之間的互動,我的個人體會是,作為使用者,我們應當不恥下問。在任何一個領域,阻礙進步的不是別人,是自己,比如覺得自己已經是什么“專家”了,不愿意問自己很丟臉和“低級”的問題,但實際上,提問是非常重要的,提問之后再進行思考,就能獲得更深層次的理解。
我最近在寫一些學術文章,會不斷地向大語言模型提問,把問題拆解再拆解,在合適的點交給它來處理,然后和它一起討論,這個合作過程是非常讓人受益的。
04
像文藝復興時期的科學家一樣思考
最后回到主題:AI時代的教育到底應該做什么?
怎么做、做什么我都不知道,不過我想提三個目標。
第一是挑戰現在教育的極限。不要不讓學生用AI,要放開了讓他們用。我們的目標是通過AI,能夠顯著提升學習效果,實現2到10倍的提升。假如某個任務因為AI變得簡單,那就應該設定更高的挑戰,例如要求學生用一半的時間完成更困難的作業,或者提高任務的難度一倍。因為未來的學生要面對的,是一個與AI共存的職場環境,我們要讓學生準備好。假如不讓他們使用AI,就是在浪費他們的時間。但是讓學生使用AI,就必須設定更高、更具挑戰性的目標。
第二點,要學會像文藝復興時期的科學家那樣思考。現在人類的教育流水線,讓學生們走過獨木橋再走綱絲,得到的都是非常狹隘的專業人才。很多人文學科的學生不知道算法是什么,而程序員們又對歷史一無所知。這種局限性并不是學生的錯,也不完全是教育體制的限制,有可能是老師們本身能力的限制,因為老師們自己也是狹窄的專業化人才,包括我自己。后果是我們經常不知道一個事情為什么發生,一個技術發明以后對社會的影響是什么,我們不關心。但有了AI這個工具,我們可以不恥下問,把自己變成一個廣譜的人才。
舉個例子,在沒有DNA和攝像頭的時代如何追捕罪犯?這是幾百年前困擾蘇格蘭警察的問題。一位法國警察通過人體特征來識別罪犯,胳膊多長、臉怎么樣,十幾個特點分發給各地警局,這就是最原始的特征工程。達爾文的表弟 Francis Galdon,開創了臭名昭著的優生學,但發明了用指紋來鑒別個體,大大提高抓壞蛋的藝術,最重要的是他在數據相關性理論方面做了最基礎的工作,相關系數的概念就是他建立的。他和同時代的另一個天才 Karl Pearson合作,奠定了當代統計學的基礎。
為什么我會談這個?學習機器學習的許多基本概念時,很多人不知道它們的起源——它是誰發明的,為什么被發明,何時發明的。我測試過不少同事,幾乎沒人知道上面這段歷史。
在當代教育流水線的塑造下,我們很容易變成一個非常狹隘的專家。但是,你只要有一點點好奇心,利用好大模型,也許你會對廣闊的上下文有很好的理解,成為一個通感很強復興時代科學家那樣的廣譜人才。
最后一點,沒有AI這個工具怎么辦?我們的目標是要把AI當作一個良師,但不依賴它。我們要提升自己的核心能力。換言之,如何使我們的能力在沒有AI的情況下,比前AI的時代要強。今天大家開車,沒有GPS就不知道怎么開車了,所以從這個角度,GPS是一個非常糟糕的技術。我們要超越這種體驗,取消這樣的工具依賴。
三個目標是相輔相成:你要挑戰極限,成為廣譜型的人才、打破走過獨木橋再走鋼絲這種流水線所造成的的狹隘的專業陷阱,最終目標就是成為有 AI 沒有 AI 都更強大的自己。
最后推薦一本書《The Age of Wonder》。這本書講述了從牛頓到達爾文之間的幾十年,被稱作英國和歐洲的浪漫科學階段,書中有很多0到1的例子,比如天文望遠鏡和化學等領域。富蘭克林有一句名言,“問這東西有什么用就像問新生兒有什么用一樣,”這就是他和友人通信中被問到氣球有什么用的回答。這本書的最后提到了一群詩人——包括雪萊等人——他們對技術進步的情感既充滿興奮,也有恐懼,這種情感和我們現在對 AI 的感覺非常一樣,某種意義上歷史確實是在重復自己。
我就講這些,謝謝。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.