圖15紋理合成:多層神經網絡的產生式模型圖22爬樹與撈月能否登月?
2.18
知識分子
The Intellectual
圖源:Pixabay
編者按
·為什么AlphaGo、ChatGPT沒有在中國誕生?
·為什么中國只能出現“百模大戰”?
·什么時候才能出現人工智能的“中國時刻”?
這是朱松純教授提出的關于人工智能的“中國之問”,在當前通用人工智能(AGI)發展進程中,西方主導的”大數據+大算力+大模型”的模式被認為是唯一正確的發展路徑。直到最近中國本土的大模型deepseek的出現才打破了這一根深蒂固的思維定式。
北京通用人工智能研究院院長、北京?學智能學院院長、清華?學基礎科學講席教授朱松純在蓮花山研究院成立20周年學術思想研討會和第四屆智能計算創新會議上回顧了數據驅動的人工智能研究的起源;2009年之后的技術范式從數據驅動轉變為因果與價值驅動的根本原因;更提出了我們要突破西方主導的敘事框架,發展中國特色的AGI道路的關鍵——基于中國思想、突破單純的數據驅動轉向更綜合的范式、構建融合”心”與”理"的通用智能體系、注重人機共生的智能社會構建。
撰文 | 朱松純
{ 目錄 }
一、引言:直面人工智能的“中國之問”
二、探源:大數據驅動的人工智能熱潮
三、局限:數據與統計方法驅動的局限
四、出路:探索數據背后的因果與價值
五、新標:全球首個AGI評級測試標準
六、思考:思想自主與敘事權爭奪
01
引言:
直面人工智能的“中國之問”
2022年底以來,以Chat GPT為代表的大模型進入公眾視野,并引發社會廣泛的關注。通用人工智能已經超越了純粹的學術研究層面,成為了國家間科技爭奪的前沿焦點。要知道2020年我剛回國時,提出要建立我國第一個通用人工智能研究院,那時還有人覺得談通用人工智能太遙遠,僅僅4年后的現在,很多人又覺得通用人工智能可以馬上實現。資本和流量擠進這個熱門賽道,聲稱他們已經“超英趕美”,故意激化國內的“百模大戰”……要么冒進,要么悲觀,就像很多人對通用人工智能的搖擺一樣。作為人工智能領域學者,我覺得自己有責任去做一個解釋說明,幫助大家去偽存真,讓人們能夠看到真實的通用人工智能。
《國家創新驅動發展戰略綱要》指出,我國到2050年要建成世界科技創新強國,成為世界主要科學中心和創新高地。中國人能否在人工智能領域建立自主的、原創的獨立思想和流派,關系到能不能在人工智能的前沿科技中搶占制高點。
每每站在國家命運的十字路口,中國人總會聽到來自歷史的叩問。無論是“李約瑟難題”“錢學森之問”“楊振寧三問”,還是今天的人工智能“中國之問”,都考驗著我們國家戰略方向的確立和科學家的使命感。我想,要交出一份滿意的答卷,就要走出一條屬于我們自己的路,走底層邏輯自主可控的創新之路,走人工智能與人類價值觀對齊的創新之路,走不隨大流、堅信人工智能的“中國時代”必將到來的創新之路。
2025年春節前夕,中國本土公司的人工智能創業公司,用更低的成本,做出了不遜于國外頂尖大模型的deepseek,就是很好的證明。
這就有必要從源頭捋清一條發展脈絡,說明我們的先進性。許多成果明明由我們先開始,卻被誤以為是別人先做出來的。這就像在體育場里跑馬拉松經常出現的“套圈”現象,我們已經領先了10圈,其他選手雖然看起來像是在我們前面,實際上卻忽略了我們已經遠遠超越了他們。
所以,我今天講的故事里,既有我從圖像大數據研究這個源頭出發,經歷人工智能逐漸興起的經歷,也有發現數據驅動人工智能存在巨大局限性的思考;有突破邊界,追求價值驅動通用人工智能道路的堅持,還有將“UV理論”應用在建立全球首個AGI評級測試標準的創新嘗試。
02
探源:
大數據驅動的人工智能熱潮
人工智能現在是全國乃至全世界都關注的熱門領域,這種“熱度”來自于大語言模型的流行,是在這幾年的資本炒作中帶來的。但實際上,在這股熱潮之外,人工智能已經在科學家們的艱辛探索下,走過了幾十年的發展路程。對技術發展溯源,其實也就是對人工智能進行探源,將有助于我們在熱鬧和喧囂背后進行清醒思考,并真正理性地選擇人工智能的未來之路。
探源是一個非常復雜的問題。以長江為例,儒家經典《禹貢》記載,長江的源頭是四川岷江,這種觀念持續千年,直到明末徐霞客才通過探源并在《江源考》中提出,金沙江是長江的源頭。我國科考隊在1976年,才論證了長江源是沱沱河和唐古拉山。歷史證明,盡管明代沒有地圖和導航,盡管科考要冒著風險、付出超乎尋常的代價,人們卻著迷于追求源頭對人類帶來非凡意義。
圖1 對數據的溯源就像對長江探源的過程,探索源頭能夠讓我們了解事物的歷史、本源,幫助我們更好地理解現在、展望未來
所以,我今天的報告是想追溯大數據的起源,做一次“數據溯源”的科學考察。首先,此處說的大數據尤其指在計算機視覺領域的數據,也就是圖像數據。為什么要從視覺說起呢?視覺是“五感”中接收信息量最豐富、系統最復雜、范圍最廣闊的覺知能力,人的大腦皮層的活動,大約70%是在處理視覺相關信息。我和團隊也是從視覺大數據開始,在技術創新的路上艱難突進,才走到今天,所以視覺大數據是我們的起點,是我們的“初心”。
其次,我希望大家能夠記得幾個時間節點:20世紀70年代、1999年、2001年、2003年、2004年,我還希望大家能記住幾個簡單的詞:PG0、PG+和PG++。這些關鍵時間發生的幾件大事,值得銘記,這幾個關鍵詞代表了我與團隊探索智能極限、不斷邁向通用人工智能的過程。下面我為大家展開講一講。
實現通用人工智能是全人類的夢想。要完成這個目標,有三個可以稱為哲學層面的問題需要回答:
到底多“通用”才算是通用人工智能?
通用人工智能需要完成多少項任務?
如何評估智能體的進步?
我從20世紀60年代到80年代期間說起。那時陸續出現了基于視覺的人工智能研究,但限于當時的條件,缺乏有效的數據支持。60年代早期研究中使用的線圖是由采樣人員手繪的。到了70年代,這些線圖被用于幫助理解和判斷物品。即使到了1994年,技術也沒有本質上變革,對于視覺數據的收集依然不盡人意。
圖21990s年代,2D形狀的表達與物體識別解譯(朱松純1994)
當我開始籌備我的第一篇關于計算機視覺的論文時,那時候是在做關于2D形狀的對稱中軸(media axis)表達,我們從明信片、拍照或書籍中掃描照片,然后手工將其轉化為二維照片來研究。研究團隊想建立一個葉子數據庫,需要我們去撿大量葉子進行掃描。那時我常在波士頓的路上邊撿葉子,有一次撿得太專注,直到被近處一聲呼喊嚇了一跳,原來我不小心誤入了別人的院子,被當作了小偷。
圖31960-1980年代主要是線畫的解釋(Line drawing interpretation,Waltz 1960s)和塊狀物體的解譯(傅京孫先生,block world parsing)
這個時期,研究主要是對線畫的解釋和塊狀物體的圖像解譯。傅京孫先生構建了這類研究方法。輸入線畫圖像就會出現線畫解譯圖(Parse Graph,簡稱PG),在結果中不僅能展示物體本身,還能標注物體之間的關系,例如“連接關系”“遮擋關系”等。
那時候對圖像的分析只能用線圖表示,圖像數據非常匱乏。為什么沒有數據呢?我認為主要有兩個原因:第一個原因是那時候的計算機資源有限。那時候的微機的速度只有640K,這是什么概念呢?現在手機拍一張照片也有好幾兆。手機拍照只要一瞬間,如果用那時的微機處理今天的一張圖片,可能就要花很長時間,更不要提處理大數據了。
圖4 左圖:微機的內存只有640K;右圖:世界上第一只數字攝像頭誕生于1975年
第二個原因是那個時候還沒有數字照相機。1992年,我所在的哈佛實驗室花費25萬美元構建了一個圖像采集系統。這樣的“天價”設備,從帶寬、內存等方面仍然無法滿足基本要求。即便到了1995年,我所在的實驗室給我配置了當時最先進的32兆內存工作站,處理圖片依然是個難題。編程時經常要讀盤,將中間數據載入并保存下來,系統崩潰、數據丟失仍是家常便飯。可以說,一直到90年代中期,人類的硬件條件和數據條件無法支撐大規模視覺數據研究,視覺研究只能做最簡單的幾何研究。直到在90年代的末期,感知器技術革命的到來,才帶動了大數據和機器學習的蓬勃發展。
90年代末,出現了大量圖像集,例如索爾比(Sowerby Image Database,簡稱SID)和科立爾(CorelDRAW)數據集。一些攝影師還會將自己的作品刻進光盤售賣,我把他們買回來嘗試讀取、研究,只是那時只有圖片,還沒有標注,算不上是數據集。
圖5 90年代末,感知器革命帶來了大數據處理能力的變化,出現了大量圖像集。例如,那時出現的索爾比數據集(Sowerby Dataset)就是其中之一
圖6世界上第一次被標注的數據集,正式發表于1999年的CVPR。它的作者是斯科特·小西博士
時間來到了1999年,它的重要性在于,這一年出現了世界上最早的標注數據集。這個標注數據集來自日裔科學家斯科特·小西(Scott Konishi)。他在1998年的研究工作中完成了最早的標注數據集,他的成果后來在論文《邊緣檢測的基本邊界:不同邊緣線索的信息論評估》(《Fundamental bounds on edge detection: An information theoretic evaluation of different edge cues》)中有體現,這篇文章是做邊緣檢測。當時還有一些任務數據集,比如手寫體識別,從0到9標十個數字,我認為那是分類,不是標注。
說起來我和小西還有一段故事。那時他是加州大學伯克利分校的博士生,沒人帶他,就跟了艾倫·尤利(Alan Yullie)做研究。小西博士當時在舊金山一所研究機構里做著枯燥的數據標注工作,經費捉襟見肘。我當時在斯坦福大學當講師,斯坦福系主任從保羅·艾倫(Paul Allen)那里要到了一筆六萬美元的經費(Paul Allen是微軟的聯合創始人之一)。我正準備辭職,沒用完的錢就資助了小西博士,也是第一次用統計的方法來做邊緣檢測數據集。
圖7統計建模與隨機計算首次進入CVPR。以此為起點,用統計方法來做邊緣檢測數據集成為一種新的趨勢。后來,在我們舉辦的“首屆統計建模與隨機計算工作坊”中,來的也多是統計學出身的學者
后來該成果發表在“計算機視覺與模式識別”會議(Conference on Computer Vision and Pattern Recognition,簡稱CVPR)上,隨后我們舉辦了首屆統計建模與隨機計算工作坊(First Int'l Workshop on Statistical and Computational Theories of Vision - Modeling, Learning, Computing, and Sampling),來者也多是學統計出身的學者。
圖8 2001年大衛·馬丁(David Martin)提出圖片分割(Image Segmentation)數據集,科學家們又向著更高層級圖像解析邁出了一步。左下圖為屠卓文的論文,意為《數據驅動馬爾可夫鏈蒙特卡羅圖像分割》
2001年,人工智能的重要時刻又到來了。加州大學伯克利分校的大衛·馬丁(David Martin)提出了圖像分割(Image Segmentation)數據集。我帶的第一個博士生屠卓文在這個數據集上用馬爾可夫鏈蒙特卡洛MCMC方法取得了最佳成績,遠遠超過了他們當初提出的算法。2003年,李飛飛提出了Caltech 101數據集,其實這個數據集沒有標注,只是包含了包括“狗”“飛機”“汽車”等在內的101個分類。
圖92003年Li Fei-Fei團隊提出Caltech 101數據集,但該數據集沒有標注,只是分類
到這里,源頭階段的脈絡就很清晰了,此時的我們已經身處“PG時代”。回顧這幾個對人工智能來說重要的時間節點,從20世紀70年代到1999年中間跨越了幾十年,從1999年到2001年、2003年僅僅只有幾年時間,我作為身在這個領域的學者,能夠深刻感覺到人工智能發展的“加速度”,成果誕生的時間周期越來越短,“奇點臨近”的感受愈發明顯,激動人心的未來似乎在向我們招手。
03
局限:
數據與統計方法驅動的局限
盡管早在20多年前就感受到了人工智能的“奇點臨近”,但我必須強調的是,幾十年的探索讓我們清醒地認識到,數據與統計方法驅動的人工智能發展道路存在自身的局限性,當時對人工智能的認知與開發還遠遠不足,到今天證明了,我的想法是對的。為了說清楚這個問題,讓我繼續從本世紀初的科研實踐講起。
2003年,我們開始超越線畫,做真正的圖像解譯(Image Parsing),這個工作在2003年國際計算機視覺大會上獲得了計算機視覺研究的馬爾獎。獲獎并沒有讓團隊停下思考的腳步,因為從上個世紀90年代最早將統計建模與學習方法引入計算機視覺,我們團隊發現統計在對圖像理解方面有著越來越重要的作用,所以我決定在湖北鄂州創立蓮花山研究院,開啟大規模、顆粒度極高的數據標注工作。
2004年,蓮花山研究院在湖北鄂州成立,是世界首個大型圖像/視頻解譯數據庫,也是中國首家民辦非營利性機構,具有劃時代的意義。這不僅對我個人的科研生涯至關重要,在人工智能發展史上具有標桿意義的存在,制定了圖像視頻標注的標準圖像解譯的測試集,為我國人工智能人才的啟蒙、乃至全球此輪由數據驅動的人工智能浪潮,起到了開創性的推動作用。
這個階段的圖像解譯不同于以前的單點分割和圖像分類,它需要解譯整個圖像的結構。舉個例子,如果給蓮花標記,我們不僅給蓮花分類,還要標注花瓣、花蕊等所有結構。此外,圖像解譯還關注物體之間的關系,例如標記一輛被柱子擋住的車時,我們會標記遮擋關系,還會生成圖像標簽圖、子圖和三維標記。這是一個非常復雜的過程,所以我們還制定了標注標準,并產生了手冊、定義了怎么解析圖像的細節。團隊后來承接了來自世界各地科研機構數據標注的業務,簽訂了不少合同。
圖10蓮花山圖像解譯操作手冊,圖像的分割、識別與解譯。對PG0階段,即對圖像本身的開發程度已經到了完整的程度
到這個階段,也就是我們現在可以稱之為“PG0時代”的時期,人工智能技術對圖像本身的解譯可以說是非常成熟了。大家可以看圖中的這個小三角形,其中的紅色節點(nodes)都已經被填滿了,這表示,此時技術能夠達到對圖片本身的解譯沒有“死角”的程度,通過“分割”(segmentation)“對象檢測”(object detection)和“三維構建”(3D construction)等技術,已經能夠對圖片畫面有充分理解。
圖11 對圖像的三維解譯。這個時期,技術對畫面上包括物體、場景等要素的“理解”已經很充分
到這個階段,也就是我們現在可以稱之為“PG0時代”的時期,人工智能技術對圖像本身的解譯可以說是非常成熟了。大家可以看圖中的這個小三角形,其中的紅色節點(nodes)都已經被填滿了,這表示,此時技術能夠達到對圖片本身的解譯沒有“死角”的程度,通過“分割”(segmentation)“對象檢測”(object detection)和“三維構建”(3D construction)等技術,已經能夠對圖片畫面有充分理解。
值得一提的是,蓮花山研究院還是人工智能生成內容(AIGC)應用的誕生地之一。我們開發了一種將結婚照轉化為油畫的技術。我們想,每年有數百萬對新人結婚,可以將油畫作為獨特的紀念品或禮品。這也是我們最早的產業創新之一。
圖12圖片意為“從圖像解析到繪畫渲染”。將結婚照轉化為油畫作為新婚夫婦的結婚紀念,成為我們最早的產業化嘗試之一
將結婚照轉化為油畫的技術依賴于我們在30年前提出的、用于紋理合成的模型,這可以算是世界上最早的生成式模型。目前流行的大模型GPT是pre-trained model(預訓練模型),在30年前我們將其稱之為prior learning(先前學習)。現在廣受關注的生成式對抗網絡(GAN),最早也是由我的學生屠卓文開發,后來被國外一些研究團隊聲勢浩大地推廣,并更名為“GAN”。
圖13世界最早的生成式模型:(Generative Model)紋理合成
圖14 論文題目意為《先前學習與吉布斯反應擴散》。先驗模型(Prior Model)最近被改稱為“生成式預訓練”(Generative Pre-trained)。最早叫做先前學習(prior learning)和生成圖片的“郎之萬動力學”(Langevin dynamics for generating images)
蓮花山研究院作為中國第一個“科民非”,可以理解為現在的新型研發機構。蓮花山研究院的建立開創了國際交流的盛況,當時很多青年學者后來陸陸續續都成了人工智能領域的中流砥柱。
圖16第一屆蓮花山研究院研討會合影。很多青年學者后來陸陸續續都成了人工智能領域的中流砥柱
到了2005年,歐洲出現了一個叫“帕斯卡(PASCAL)”的數據集(全稱Pattern Analysis, Statistical Modelling and Computational Learning,意為“模式分析、統計建模和計算學習”縮寫),它專注于圖像分類和分割,是一個非常有名的數據集。這里有個插曲是在2005年,我們開始對外接訂單,為美國一些公司標注數據,我們標注得非常準確,價格也比較便宜。當時這個數據集的人找到我們,希望我們標注他們的數據。按照我們的標法,每張圖片標注一千多個點,報價是每張照片一歐元。因為對方有數萬張照片,所以覺得價格太貴,最后沒談成,他們不再做圖像解譯,只做分割和分類。
大約也是這個節點,科研風氣發生了變化。在后來做單純的分割和分類這波人中,一部分是傳統20世紀70-90年代研究幾何的,因為1999年統計建模出現后,這些人陷入了危機,點云(Point Cloud)等技術難以繼續,所以他們轉向做大數據集分割和分類,組織競賽和刷榜。2004年之后,“刷榜”文化開始盛行,所謂刷榜,就是一般下載了人家的代碼,改進、調整、搭建更快的模塊,用一個數據集在不同場景下進行測試、評估和排名,不斷地在排行榜上拿名次。但是,這個代碼不是自主創新的,實際上對技術進步無益。
記得我們2006年在加州大學伯克利分校召開了一次會議,很多數學家在場,這波專門做大數據的人站起來說:“你不用管有的沒的,只需在我的數據集上測試就可以了。”我的導師,獲得過菲爾茲獎的知名數學家大衛·曼福德(David Mumford)當時在場,感到了很強的冒犯。這其實背后反映的是深層次的、用經驗主義還是理性主義來解決問題的爭論。
經驗主義和理性主義有什么不同呢?經驗主義完全依賴于數據驅動,但數據之外總有例外,世界的復雜性可能遠超數據所能涵蓋的信息。數據可以幫助我們窺見事物的一部分,但卻無法呈現完整的圖景。而理性主義則強調科學的美感,比如愛因斯坦所倡導的第一性原理,即通過對復雜世界的簡化,找到事物本質,形成普遍適用的理論框架,也就是“大一統理論”。
圖17經驗主義的審稿人和理性主義的審稿人產生了對立,凸顯了當時解決問題的研究路徑出現分歧
說到這里,我講一個非常典型的故事。2010年,我在一次發言中討論了理性主義和經驗主義的爭論。我們當時投論文的時候大概有兩類審稿人:經驗主義審稿人和理性主義審稿人。經驗主義的審稿人通常會要求你在不同數據集上運行你的方法,這些審稿人迷信模型,對理論本身是不感興趣的、質疑的。就像“如果你真聰明,怎么會不富有呢?”他們會說“如果你的研究方法真的好,那么為什么比不上現在的模型呢?”這種簡單粗暴的標準將評判科學成果“是否帶來創新、進步”變成了成果“是否符合模型”。其實,就像聰明和富有并無直接關聯,能不能在數據集上運行成功,跟成果的創新性也沒有必然關系。
對于那些偏好運行數據集的文章,理性主義的審稿人則會說:“你的算法只是在你選定的有限數據集上有效,但對解決真實問題沒有幫助。”堅持理性主義的研究者會從理論上證明某個問題不可解,以此作為拒掉文章的標準。因此,經驗主義和理性主義的分歧,導致了一個現象,就是當時論文能否被接受,很大程度上取決于論文被送到哪派審稿人手里。現在,經驗主義審稿人占據了主導地位,堅持理性主義的研究者就逐漸退出了計算機視覺領域。
我更傾向于理性主義,同時結合一定的經驗數據。用通俗簡單的話來比較,經驗主義就是立足于前人經驗,在現有的地基上“壘磚”,我堅持的理性主義更偏向于“輕裝上陣”,從一開始就抱定對世界本源、本真、本質的極致探索。明明是在前人經驗上“壘磚”更容易,就像做大模型,更容易出成果,為什么我還是這么執著于理性主義、堅持價值驅動的研究道路呢?因為,我認為我們國家已經到了鼓勵顛覆式創新的階段。什么是顛覆式創新?就是你這個技術一出來,之前的很多技術都直接歸零了。想要在人工智能這種絕對的前沿領域達到這種結果,你追求的不能是在別人的范式之下做科研,漸進地從1到3,從3到n。我們現在希望實現做“從0到1”的成果,只有這樣的技術突破多涌現在這個國家,中國才能成為真正意義上的世界科技強國。
04
出路:
探索數據背后的因果與價值
接下來我解釋PG+和PG++這兩個關鍵概念,這也是我們取得跨越式發展、找到出路的重要原因。
到了2008年,科學家在PG0階段對圖像的探索和創造到了一個“百花齊放”的時代。我曾經的同事、來自麻省理工大學(MIT)的安東尼·托拉爾巴(Antonio Torralba)曾經創建了一個網站叫做LabelMe,意為“給我打標簽”,這個網站讓人們在上面打標簽,他們只在乎兩種標簽:場景類數據(Scene category)和物體類數據(Object category)。每一個節點其實就是一個任務,這在當時是頗具影響力的一項研究。
圖18 來自麻省理工大學(MIT)的安東尼·托拉爾巴(Antonio Torralba)曾經創建LabelMe,意為“給我打標簽”,用來收集場景和物品數據
另一個例子是“圖網”(ImageNet)。他們在圖片本身的解譯工作中更加看重對物體的分類,大約分了1000個類別。這項嘗試后來也變得很流行。
圖19對圖片解譯的探索已經到了一個瓶頸期,研究只能在PG0框架內“打轉”
但是我想強調的是,這些努力都是在一個PG0的框架內做嘗試,科學家們此時并沒有跳出對圖片里內容的解譯,頂多是從不同角度在“場景”“物體”“物體關系”上著力,這個階段對“智能”的認知在今天看來確實比較狹隘,如何走向通用人工智能,需要從更深刻的角度去思考。
當技術來到一個瓶頸期,科學界就會存在大量的爭論和分歧。這就好比科學家們的面前有一扇門,大家都想要跨過這扇“通用人工智能”之門,需要正確的鑰匙。我認為,想要找到通往“通用人工智能”的大門鑰匙,需要先知道困住當下的究竟是什么,需要認識到當時圖片解譯這一套邏輯的局限性。
第一個局限性是大量物理和社會變量該如何標注的問題。物理學家認為,我們可觀察的物質和能量只占宇宙總體的5%,剩下的95%是觀察不到的暗物質(Dark Matter)和能量。這些變量包括在社會現象中,人的意圖和想法等。且不同于統計學中的潛在變量(latent variables),潛在變量是客觀的隱藏變量,而“暗物質”常常是主觀的、唯心的、內化在社會環境中的。人類能夠感知到這些變量,但機器無法識別,更無法直接標注這些內容。
圖20用傳統打標簽方式無法滿足多樣的標注需求。當標注了“電話”一詞,系統就會自動認定圖片中的物體就是電話,但現實生活中,電話不僅僅是個物體,圖片中的人會展示拿起電話、撥號、接聽等任務,此時系統可能沒法精準識別電話
第二個局限性是圖像和場景的解譯與具體任務高度相關,光靠標注這種“一刀切”的方法,是沒法應對復雜多樣的現實場景的。任務是無限的,并且與智能體的具身性有關,因此標注變得非常困難。正如馬爾所說,“the more you look, the more you see”,也就是說,感知到的內容取決于觀察者想做什么,也就是觀察者的價值,中國古話更簡明扼要,即“相由心生”。例如,標記一個電話,簡單地用一個框將電話框柱、打個標簽,系統就記錄和認定該物體是“電話”——這是傳統大數據驅動范式的做法,但在真實場景中,具體的標注方式取決于任務,比如撥號或接電話時,人需要接觸電話的不同位置,接觸的位置不同,標注方式也理應不同。傳統方法無法滿足這種多樣的標注需求。
第三個局限性是我們不僅希望進行簡單的標注,更希望實現圖像的理解。理解(Understanding)這一過程非常復雜,不同學者對此有不同的討論。一些學者認為需要定義語義,而語義依賴于任務、因果關系和價值系統等。
圖21計算機視覺的三種表達方式
計算機視覺中有三種和“理解”相關的表達方式:
第一種是以視圖為中心的(view-centered),基于二維圖像的外觀;
第二種是以物體為中心的(object-centered),即基于幾何進入三維場景;
第三種是基于任務的(task-centered),即從智能體的角度來理解世界。
當時大多數研究以視圖為中心,依賴數據驅動。我們希望能夠轉向任務驅動,以智能體為中心。
認識到現有方法的局限性還不夠,還需要提出解決方案。當時就“如何實現通用人工智能”這一問題,領域內不同學者各執一詞,一定程度上也反映了經驗主義和理性主義之間的矛盾。2010年,在美國自然科學基金委的推動下,就這一問題召開了一場學術會議,我應邀發言。發言之前,我讓我的大女兒畫了一幅畫。
如果說,實現通用人工智能就相當于登月,是一個非常困難的任務。有人會說“只要我爬得足夠高,我就能夠到月亮”,所以這些人去爬世界上最高的樹,去登世界上最高的山,試圖夠到月亮。資助者看到這些人每天都能在樹上、山上快速上升,就會很高興。但是因為無論樹還是山,都是有盡頭的,這個盡頭離月亮還是十萬八千里的。當然也有人會去選擇水中撈月、乘坐熱氣球,但是真正實現人工智能,去達到“登月”的高度,肯定是要造航天飛機的。只不過在現實生活中,制造航天飛機去登月,經常被短視的人們誤以為是“不靠譜”的,很難獲取信任,還要坐很多年“冷板凳”。
實際上,通用人工智能“航天飛船”的構建,不是單一部件、單一路徑去實現的。人工智能技術經過幾十年發展與分化,形成了計算機視覺、自然語言處理、認知推理、機器學習、機器人學與多智能體六大核心領域為主構成的復雜系統。其內部結構之復雜,其研發道路之艱難,不是“大數據”+“大模型”+“大算力”這種純經驗主義路線能夠解決的。如果把實現通用人工智能比作“登月”,目前大數據路線正在前進的方向相當于“攀登珠峰”,雖然有機會登上珠峰也是很了不起的成就,但是這和達成登月的目標相差甚遠。
圖23“小數據、大任務”范式獲得了學術界的廣泛認同
后來,我提出了“小數據、大任務”范式,獲得了學術界的廣泛認同。我認為,人工智能研究中存在兩種范式,一種是“大數據,小任務”,目前基于深度學習的很多大語言模型即屬于此類,其特點是需要極大的數據,但只能完成有限任務,不能對應現實的因果邏輯,無法泛化,類似善于學舌但無法進行認知推理的鸚鵡,你教一只鸚鵡大量內容,它才能說有限的幾句話;另一種是“小數據,大任務”,其特點是小數據、無監督,可以泛化,類似能在復雜情境中進行認知推理的烏鴉,僅僅靠示范幾次,就能完成一整套任務。
因為此范式的提出,我們還獲得了一些項目。我們的第一個DARPA(美國國防部高級研究計劃局,簡稱DARPA)項目(2010-2015年)專注于圖像解譯。通過層層解譯圖像,我們成功生成了文本,用自然語言描述圖像。這一項目成為后來視覺問答(VQA)模型的原型。
圖24美國-英國聯合AI研究團隊 MURI 2010-2015,MURI 2015-2020 (美國國防部部長辦公室資助),跨多個人工智能學科:計算機視覺、機器人、機器學習、認知科學、神經科學、統計學、應用數學。團隊來自:Berkeley, CMU, MIT, Stanford, Oxford, UCLA, UIUC, Yale 等大學
第二個DARPA項目(2015-2020年)則聚焦于場景理解,涵蓋語義解譯,并進一步探討了對物理和心智的理解。我們的主要目標就是通過一系列跨學科交叉研究,將計算機視覺、機器人、機器學習、應用數學、神經科學、統計與應用等各個領域專家聚到一起,探索出一條通用人工智能的統一理論。
我們很快發現PG0階段的技術已經不夠“智能”了。因為我們意識到,在現實中,當人看向一張圖片的時候,可能想到的并不是只有眼睛看到的,其中包含了很多“想象”成分。上面這張圖片中有人在做“倒水”這個動作,雖然看圖的人并沒有看見水,但是他能因此想象得到,水壺里是有水的,圖片中的人想要喝水,這些信息量都沒有在圖片中直接體現來,而是隱含在圖片背后,并且能夠廣泛被人們理解。
圖25在IEEE上發表的論文《從圖像解析到文本生成(From Image parsing to text generation)》,Proceedings of IEEE, (Yao et al,2010)
圖26 看圖的人即便沒有看到水,但是因為看到了倒水的動作,
所以人會判斷“水壺有水”“圖片中的人要喝水”這些信息
這對圖片解譯的意義非常重大。從此開啟了PG+時代。
在“PG+”的解釋框架中,很多圖片中不能肉眼可見的“暗物質”(dark matter)蘊含其中。例如物體的功能(functionality)、物質的機理(physics)、意圖(intent)、因果關系(causality)和價值觀(values)。你看不到人的價值觀,看不到物理世界的因果關系,而這些都是深植在世界的運行中,是人類社會的“約定俗成”。
圖27 在原有的PG0基礎上,圖像解譯的維度和空間被拓展,圖像解譯新時代到來
圖28 在“砸核桃”這張圖片中,有對空間、時間和因果的感知
在我們看來,圖片雖然是一個平面,但是蘊含了超越圖片本身的信息量。以這個“砸核桃”圖為例,看圖的人不難想象到,在這個瞬間發生之前,核桃要被拿起、放下、對準、砸碎,這是一種對時間的感知;榔頭的抬起、落下,這是對空間的感知;因為“砸”這個動作的發生,導致核桃碎了,這其中有對因果的感知。
圖29社會智能包含能夠對現象或行為進行推理的能力
到了PG+階段,我們覺得還不夠,最終延展到了社會智能(social intelligence),它被我們稱為PG++,其范圍遠超出了PG0和PG+。人是社會性的動物,人會與他人、與外界環境產生交互,認知也會由此發生變化,在這個過程中,人會產生對某些行為或現象的推理。
想象一下,當你在教室里演講,這時候有人舉起了倒計時牌子,提醒你時間快要到了,但你沒有看見,這時有位看見倒計時的觀眾沖你揮揮手并將手勢指向了倒計時牌。你可能會下意識地去看他手勢指向的方向,從而看到了倒計時牌。這樣一個過程至少包含了你腦內以下推理過程:“他對我揮手”“他指向了一個方向”“他在提醒我什么”“那是倒計時牌”“我演講剩下的時間不多了”“我要加快速度了”。所以,這個過程分解來看,是個很復雜的過程。
社會智能一般包括信念(belief)、意圖(intention)和社會性推理(social reasoning)等。可以說,人類作為智能體在“看”這樣一個看似簡單的過程中,其實在內部做了很多自上而下的決策,從高層次的認知出發,看圖或者分析場景時做了很多從社會智能到暗物質,再到場景和物體本身的思考。關于PG++的研究是很匱乏的,也是我們進行進一步探索的動力。
圖30PG++是比PG0、PG+更高一層的階段
我們認為,在這個包含PG0、PG+、PG++的系統中去構建智能,才是把智能的“版圖”拼完整了,即除了考慮視覺本身,還要考慮隱藏在背后的、人的內在要素和社會的內在機制,才能真正邁向通用人工智能,才能在時間、空間、因果上構成一個完整的智能體任務體系。
圖31 通用智能體的構建必須考慮暗物質和社會智能的存在,要在時間、空間和因果上構成一個完整的體系
沿著這條通路,我和研究團隊不斷拓展著對視覺大數據、對人工智能、對通用人工智能的邊界,完成了對個體意義上通用人工智能體的底層邏輯搭建。然而,這就像爬一棵樹,世界上有那么多樹,那怎么辦呢?在這個從PG0到PG+、再到PG++的框架下,搭建一個可以被廣泛使用的平臺,自然成為了我和團隊的下一個任務。
05
新標:
全球首個AGI評級測試標準
2024年,我們研發了首個通用智能體"通通",這一成果入選"中關村論壇重大科技成果"。通通突破了傳統人工智能系統僅關注具體任務的局限,展現出更接近人類的認知特征。她具備基本的物理常識和社會認知,能在價值驅動下完成無限任務,并具有自主定義任務的能力。這種能力是通用智能的核心特征,也是人類從兒童時期就開始發展的基本能力。
圖32全球首個通用智能人“通通”入選中關村論壇重大科技成果
以通通為基準,我們進一步開發了全球首個通用人工智能測試評級標準與平臺——通智測試(Tong Test)。該平臺借鑒人類嬰幼兒發育評估標準,構建了基于能力(U系統)和價值(V系統)的評測框架,同時開發了復雜的物理場景模擬和社會交互測試環境。
圖33研究團隊在2016-2019年之間,將豐富數據導入VR環境,用來搭建虛擬場景
圖34運用語言評估系統和以任務為導向的模擬器,構建對智能體的測試
平臺建設經歷了系統性的發展過程。2016年至2019年間,研究團隊致力于構建高度逼真的虛擬場景。我們將豐富的環境數據導入VR系統,通過深度學習和任務規劃實現智能體與虛擬環境的有效互動。同時,建立了完整的語言評估系統和任務導向型模擬器,形成了智能體測試的基礎框架。目前,該系統能夠模擬多樣化的現實場景,包括辦公樓、社區、學校等復雜環境,為智能體提供全面的測試條件。
圖35在2024年中關村通用人工智能論壇上發布的通智測試(TongTest)
通智測試的核心是其評價體系,即"V系統"和"U系統"。這一評價體系的設計深深植根于對人類智能發展的研究。實驗表明,人類的價值體系是與生俱來的,在嬰幼兒身上就能觀察到其雛形。例如,3-4個月大的嬰兒已經具備基本的因果推理能力,能夠識別魔術,即不滿足因果常識的物理現象;18個月大的嬰兒能夠識別他人意圖并做出回應。此外,研究還發現,人類能進化出大量的價值判斷。比如圖中這個實驗,12個月的嬰兒看到了兩個成人在分配玩具,會傾向于選擇分配“公平”的成人一起玩。8-12個月大的嬰幼兒對于相似族裔的偏好要勝過對“公平”這一價值的偏好。也就是這個階段的嬰幼兒會在“公平的人”和與自己族裔相同的成人之間選擇相同族裔者。這些研究發現為構建人工智能的價值評估體系提供了重要依據。
圖3612個月的嬰兒參與測試,傾向于選擇更加具有“公平”特征的成人
圖378-12 月大的嬰幼兒參與測試,相對具有“公平”特征的成人,更愿意選擇相同族裔成人
圖38人的需求既包括生理和安全這類基礎需求,也包含著的人類價值和社會因素,構建智能體價值體系時,需要以人類價值為基準,構建分層分級的價值體系
在價值體系(V系統)的構建中,我們采用了分層分級的架構,借鑒了馬斯洛需求層次理論和施瓦茨價值觀理論等經典心理學理論。價值系統分為五個層級:基礎自我價值、高級自我價值、多智能體交互價值、基礎社會價值和高級社會價值,涵蓋了從基本生存需求到高階社會價值的完整譜系。
圖39價值驅動:除了關于自身的價值驅動,人還具有與他人相互作用產生的價值,以及在社會中作為利益共同體的價值
圖40通智測試的能力測評系統,按照從L1到L5的順序,對能力要求的難度逐漸增加
能力評估系統(U系統)則構建了視覺、語言、認知、運動和學習五個維度的評估框架。每個維度設置了五個能力層級,隨著層級提升,任務復雜度逐漸增加,對智能體的要求也隨之提高。例如,在語言能力評估中,從最基礎的詞語理解發展到復雜的多主體交互推理;在運動能力評估中,則從基本的自主運動發展到高級的社會互動能力。
舉個例子,評估智能體語言能力時,第一層級就是理解詞語,第五層級就得實現推理和理解多人、多智能體交互;評估運動能力時,第一層級需要智能體控制自身運動,到了第五層級就包括社會交互與價值流動。這只是一個簡單說明,實際基于通智測試出版的書籍《通用人工智能:標準、評級、測試與架構》超過200頁,其中設置了86項能力測試,并進一步衍生出更大量的任務測試,累計任務指標多達上百項。
圖41《通用人工智能:標準、評級、測試與架構》形成了標準化、定量化和客觀化的完備評估體系
圖42能力系統與價值系統相互作用,價值驅動能力系統產生行為,能力產生的行為與外界相互作用,又能夠構建價值系統
在這個評估體系中,價值系統和能力系統緊密關聯、相互促進。智能體基于內在價值驅動外在能力,通過與環境的互動反過來強化和完善其價值體系。這種動態平衡與人類認知發展過程高度類似:價值導向推動行為表現,行為體驗反饋強化價值認知。
圖43 通智測試UV評價系統,兩個系統又各自分5個評價等級,構建了完整的“雙輪驅動”評價體系
至此,通智測試完成了它“價值”與“能力”的“雙驅動評價體系”。這個體系將能力空間和價值空間進行聯合考慮,設置了5個通智測試等級(Level 1-5),進而形成了一套基于能力與價值雙系統的通智測試評級理論。它建立的任務強調實用性、可測量性及與人類智能發展一致性,成為挑戰傳統理論的范式,彌補了傳統理論缺陷的典范。智能體能夠在通智測試中通過完成任務進行測評,能完成的難度越高,最終就能夠實現U(能力)和V(價值)越高的融合程度,就越接近真正的通用智能體。
不僅如此,我們還提出一套標準來闡釋我們的UV評級框架,即“四論標準”,在人類社會中,我們常會因評價標準單一而陷入困惑:是看“他做了什么”,還是看“他為何這么做”?這種“論跡不論心”的爭論,不僅存在于對人的評價中,也同樣適用于人工智能的評估。一個 AI 系統即便表現優異,但如果其動機不明、推理不合理,能否信任就會成為問題。為解決這些困擾,TongTest 提出了“四論”標準闡釋 UV 評級框架,從“論績、論跡、論理、論心”四個層次出發:
第一個層次是"論績",也就是考察最基本的結果。這就像考試打分一樣,首先要看答案對不對。
第二個層次是"論跡",關注行為過程。比如,一個AI系統即使給出了正確答案,如果是靠隨機猜測得出的,那么這個過程就值得打問號。這就像老師不僅要看學生的考試成績,還要觀察他們平時的學習態度和解題思路。
第三個層次是"論理",檢驗推理過程是否合理。舉個例子:解數學題時,即使最后答案對了,如果計算步驟錯誤,就說明這個解題過程不可靠。現在很多AI模型就存在這樣的問題 - 雖然能得出正確答案,但中間的推理步驟卻常常出錯。
第四個層次是"論心",審視AI系統的價值觀和動機。這是Tong Test最高層次的評估。因為即使一個AI系統能得出正確結果,推理過程也很嚴謹,但如果它的價值取向有問題,可能會帶來嚴重后果。
TongTest 的“四論”標準通過“論績”夯實基礎,“論跡”剖析行為,“論理”保障推理可信,“論心”聚焦價值觀正確,層層遞進、環環相扣。這一標準不僅是技術突破,更是倫理實踐的積極探索。它就像為 AI 量身打造的“體檢報告”,不僅關注身體健康(結果與行為),還深入檢查大腦(推理能力)和心靈(價值觀)。只有在“四論”都達標的情況下,AI 系統才能真正令人信任,并在未來社會中實現長期可持續發展。
從生物進化的角度看,智能體的發展遵循一定規律:大腦容量的增加往往帶來智能水平的提升。這背后是基因選擇、物種演化等復雜過程的結果。一個智能體的智能水平由三個系統決定:認知架構(Cognitive architecture, 字母C表示)、能力系統(Potential Functions, 字母U表示)和價值系統(Value System, 字母V表示)。盡管人類在某些具體能力上可能不及其他物種,但正是這三個系統的綜合優勢使人類成為最高級的智能體。基于此,通智測試致力于構建一個能夠涵蓋并超越現有智能體能力上限的評估系統。
圖44從數學的角度,可以將所有智能體看作CUV作為變量的函數。C代表認知架構,U代表能力系統,V代表價值系統。人比黑猩猩、猴子這樣的動物要高級,盡管人類的運動能力可能不如黑猩猩和猴子,但是從整體上來說人的CUV比黑猩猩、猴子的CUV整體上要高,所以綜合來看人的智能程度是要高于這些動物的。要達到能測試智能體這個目標,就要站在最外圈這個“點”上,即認知架構、能力系統、價值系統都超越現有智能體上限的這個位置去建構,去尋找智能體的“公倍數”
通智測試的創新性主要體現在三個方面:
首先,它采用無限任務框架。無限任務指的是在通智測試中,任務的數量是無限的。我認為,一個智能體需要完成無窮無盡的任務才能稱之為“通用”,真正的標準應該是在復雜環境中處理無限多項沒有預先設定的任務。在以往傳統大模型的設計中,智能體任務是由專一任務轉向多任務處理的,任務的數量是“疊加”起來的,這種疊加的方式帶來一個問題:要疊加到多少任務,才算真正的“通用人工智能”呢?如果100項任務算是“通用人工智能”,那么出現第101項任務怎么辦?所以任務的數量不能是絕對數,而是要滿足任務“無限”涌現才可以,只有像通智測試一樣,任務是無限的,才能夠實現真正優秀的泛化能力。
其次,它重視自主任務生成能力。人們憧憬著有朝一日智能體能夠很好地融入人類日常生活,這就需要智能體可以根據外部環境事件和自我內在狀態的變化,隨時隨地自動產生各種各樣的任務,這也意味著在投入實際場景前,智能體能夠應對和現實生活一樣的隨機要求。但是,如果智能體的運行完全依賴人類預設的任務目標,即便擁有海量訓練數據和全面規則,仍然無法很好地應對未經訓練的特殊情況和意外事件。例如,當孩子正拿著一個對他來說頗具危險性的小物件,沒有經受過該物件數據訓練的智能體能否自主識別出該任務的不合理之處并形成保護孩子安全的新任務?
為了應對這種情況,智能體需要具備自主定義任務的能力。當智能體處于開放環境時,它需要依據自身價值判斷并自主設定任務,甚至可以進一步通過實際觀察和體驗來學習,逐步累積經驗并塑造認知。這是通智測試的第二個特點。
最后,它強調價值驅動和人類對齊。通智測試的價值體系(V系統)是它的核心組成部分。為了讓智能體自主生成并完成符合人類需求的任務,通智測試融入了人類的基本價值觀,使智能體有能力學習和理解人類的價值偏好,并最終實現與人類價值的對齊。這意味著通智測試不但從功能上完成對智能體的測試和評級,同時還能保證被測試的智能體有足夠的、能通過人類社會安全“紅線”的能力。
圖45 通智測試與其他測試對比優勢明顯
這些創新點對通用人工智能領域意義非凡,也讓通智測試具有明顯比較優勢。
其他智能體測試往往有以下缺點:
第一,任務復雜度不足,主要基于在特殊設計的環境中的對話/圖像/操作,而沒有在人類世界中復制物理和社會互動。第二,主觀偏見與缺乏量化。不同的人有不同的主觀判斷標準,缺乏對不同智能體之間的量化評估。第三,缺乏價值測試,只有能力測試。第四,缺乏對自主任務生成的測試,只有人類指定的任務。
現在我們再來討論討論AGI的現狀,近些年,隨著人工智能的迅猛發展,尤其是自ChatGPT4發布以來,社會各界人士對人工智能的未來形態或者說通用人工智能愈發關注,行業內的高校與企業也頻頻聚焦通用人工智能,然而 AGI的定義、評級與測試依舊沒有達成共識并嚴格提出。制訂一個嚴格的 AGI 定義和定量評級標準與測試平臺是一個世界性的科學難題,我們列出了近年來國內外知名團隊所提出的AGI內容并進行比較。
表國際知名平臺在通用人工智能定義、分級與測試的比較
現階段,圍繞AGI定義、分級與測試的內容有以下三種情況:
①傳播廣但淺嘗輒止,如OpenAI提出的AGI五階段,然而我去搜索時發現OpenAI官方并未發布相關報告,所有消息來自2024年7月彭博社(Bloomberg)報道了OpenAI的內部傳聞,只給出了五行話以粗糙概括AGI的五個階段;
②嚴謹深入但仍無法給出答案,如Google DeepMind在2024年發布了一篇paper,它比OpenAI更全面地對AGI定義、分層與測試進行了闡述,深刻分析了其中的困難性,原文認為remains an open research question。舉一個例子,Google DeepMind對AGI分級時對第二級的定義是“熟練成年人的第50百分位”,這是不能直接拿來用的,光是這項層級指標就涉及兩類模糊問題:如何定義并建模熟練成年人?機器與熟練成年人如何比較(即它提出的50百分位)?
③給出了可行的方案但只解決單點問題,如之前走紅的ARC-AGI任務,建設性地提出簡潔的任務,評估復雜的抽象與推理能力,引發了人們對通用人工智能的思考。然而,它的著眼點相對單一,這一測試還不足以全面覆蓋通用人工智能測試的所有維度。
對比后我們發現,盡管國內外多個平臺已從不同視角對通用人工智能的定義、分級和測試進行了探索,但并未解決“給出嚴格的AGI定義和定量評級標準與測試平臺”這一世界性的科學難題。
通智測試則采取了一種全新的策略,為通用智能體的實現設計了一套頂層測試方案。通智測試的設計全面考慮了通用人工智能的關鍵特征,填補了通用人工智能評測的空白。這不但有助于指導研究者為通用人工智能構建綜合的設計架構與完善的評估體系,而且能夠為人工智能的安全治理問題提供積極的解決方案。
圖46 圖靈測試無法準確衡量人工智能的智能程度,通智測試彌補了圖靈測試方法的局限性
從實用性來說,在通智測試標準化、定量化和客觀化的評估體系下,政府可針對不同水平的智能體制定不同的監管準入機制,對于規范化通用人工智能的發展具有重要參考意義。另外,通智測試的評級機制還可以為通用人工智能的科研路徑提供明晰可靠的路線圖,協助相關領域的研究者找準科研道路上的前進方向。
構建通智測試平臺,形成全球首個AGI評級測試標準體系,就是對我開頭提到的那幾個問題的“答卷”:
到底多“通用”才算是通用人工智能?
我的回答是“能力與價值都與人類對齊”。
通用人工智能需要完成多少項任務?
我的回答是“無限任務”。
如何評估智能體的進步?
我的回答是“能力與價值雙驅動,分級評估”。
以什么標準評估智能體的能力與價值水平?
我的回答是“基于四論標準:論績、論跡、論理、論心”。
到2024年,蓮花山研究院已經成立20年了。我們從圖像大數據出發,現在火熱的大數據、大模型這條路我們也走過,但我們最終還是堅定地選擇和踐行了“小數據、大任務”的研究范式。我堅信這一份在科學創新中的理智和冷靜:堅持不“隨大流”,堅持長期主義,堅持人工智能與人類價值對齊的本質,做困難且正確的事。
我們在實現通用人工智能路上一直在不斷探索,不斷重構,不斷創造,不斷再出發。賡續“蓮花山”精神,建立基于價值的通用人工智能體系,獨立自主地實現中國通用人工智能,將是包括我在內的中國科學家的責任和不懈追求。
06
思考:
思想自主與敘事權爭奪
在當前通用人工智能(AGI)發展進程中,"大數據+大算力+大模型"的發展路徑已成為一種根深蒂固的思維定式。這種認知框架的形成源于深度學習在多個領域的成功實踐,同時也受到大型科技公司持續投入和商業成功案例的強化。隨著GPT系列、DALL-E等大模型的出現,這種發展路徑似乎獲得了更多支持。然而,這種思維定式可能過度簡化了AGI發展的復雜性。
西方主導的敘事與戰略布局
在這種思維定式下,一種特定的敘事體系逐漸形成。芯片算力被視為決定性要素,數據規模被認為是核心競爭力,模型參數量成為衡量技術進步的關鍵指標。資本市場將算力基礎設施投入作為重要的估值參考,媒體持續關注算力規模和硬件升級,企業則競相發布更大規模的語言模型。這種敘事不斷強化著既有的發展路徑。
這種敘事背后是西方主導的戰略布局。美國通過政府與企業的協同行動,構建了一個系統性的敘事框架。在政策層面,2023年4月設立"白宮人工智能特別顧問"統籌國家AI戰略,9月國防部啟動"AI曼哈頓計劃"整合科研資源。在產業層面,OpenAI、Google等科技巨頭不斷強調其在算力芯片與AGI研發的優勢地位,將技術門檻塑造為"難以逾越的鴻溝"。這種敘事得到資本市場的積極響應,進一步鞏固了美國在全球AI領域的主導地位。
在學術領域,西方的話語主導權同樣顯著。NIPS、ICML等高水平學術會議的投稿和評審長期由歐美學者主導。2024年諾貝爾物理學獎授予神經網絡領域的開創性研究,不僅是對Hopfield和Hinton個人成就的肯定,也強化了西方在AI基礎研究方面的學術影響力。這種學術話語權的集中,某種程度上限制了全球AI研究的多樣性發展。這種西方主導的敘事通過主流媒體和社交平臺得到廣泛傳播,國內媒體的跟風報道更強化了這種影響。
思想自主是科技創新的前提
面對這種情況,中國需要建立獨特的發展路徑。中國思想體系是在五千年文明發展中積淀而成的智慧結晶,其特點是"心"與"理"的統一,強調推己及人的價值判斷。這種思維方式為AGI發展提供了獨特視角:不僅關注技術本身,更重視其與人文價值的融合。從上古時期的河圖洛書,到儒、道、法等各家學說,再到理學、心學的發展,形成了一個完整的價值認知體系。
圖47中國思想的“五彩線”模型
注:最上層列出了時間標尺,以 1000 年為刻度,中國有超過 5000 年的文明史,這里顯示從公元前 3000 年到公元 2000 年。接下來的一層是中國的朝代,再下面是典型的思想,如上古時期的河圖、洛書,之后的周易,儒、墨、道、法,禪宗,理學,心學等。再下面是代表性人物,如伏羲、孔子等。再下一層是一個“五彩線”的模型,其中一些關鍵時間點做了標識,如公元前134 年出現董仲舒以及“罷黜百家、獨尊儒術”。最下面列出的是其他文明對中華文明的影響:它們對中華文明的影響不是一蹴而就的,而是有個過程,用不同顏色的曲線表示;線條的長短近似表示思想流傳的時間,但不能也無需過分精確,線條的顏色是隨機選擇的;公元前 800 年—公元前200年的所謂的軸心時代特意標示了出來。
基于中國思想的AGI發展模式,應該突破單純的數據驅動,轉向更綜合的范式。這包括提出"小數據、大任務"的技術路線,強調效率與價值;構建融合"心"與"理"的通用智能體系;注重人機共生的智能社會構建。在具體實踐中,如北京大學武漢人工智能研究院開發的社會模擬器,通過"價值驅動"算法研究不同治理模式的效能,開創了人文社科研究的新方法。
圖48 全球首個大型社會模擬器(大科學裝置)
發展中國特色的AGI道路需要強大的文化自信。這種自信體現在深入挖掘中華傳統文化中的科學智慧,推動古今中西的深度對話與融合,構建具有中國特色的技術評價體系。通過這種方式,中國能夠在AGI發展中提供獨特的價值主張:不是簡單追求技術領先,而是致力于構建一個更富人文關懷、更具普世價值的智能文明范式。
此外,中國還應該充分發揮自身優勢。龐大的應用市場、豐富的場景需求、完整的產業鏈,這些都是發展人工智能的重要基礎。通過建立獨特的發展范式和價值體系,中國能夠在AGI發展中貢獻獨特的方案。
構建自主的發展道路并非意味著封閉。相反,中國應該在保持技術自主的同時,積極參與國際對話與合作,推動全球AI發展的多元化。這不僅有利于打破現有的敘事壟斷,也能促進人工智能技術的健康發展。
總的來說,突破西方主導的敘事框架,建立思想自主的發展道路,是中國AGI發展的關鍵。這需要學術界、產業界和政策制定者的共同努力,在認清現實的基礎上,探索符合中國特色的人工智能發展之路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.