99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

港大馬毅談智能史:DNA 是最早的大模型,智能的本質是減熵

0
分享至



理解智能,并不只是研究者和工程師的課題。

文丨程曼祺 劉倩

大模型看起來已具備智能的形式:能陪你聊天,步步思考,做高等數學題,高效地寫代碼……這對很多人來說已經足夠——足以帶來更多研究成果、產品機會、巨額投資和股價攀升。

而馬毅是那類覺得不夠的人,他于無聲處開始提問:智能的本質是什么?

這個問題的題面簡單,答案卻尚無共識。馬毅認為,對智能的理解不應過于表面和短期,而應回到源頭厘清智能誕生和發展的歷史。

自 2000 年從伯克利大學博士畢業以來,馬毅先后任職于伊利諾伊大學香檳分校(UIUC)、微軟亞研院、上海科技大學、伯克利大學和香港大學,現擔任香港大學計算與數據科學學院院長。他和團隊提出的壓縮感知技術,到現在還在影響計算機視覺中模式識別領域的發展。

在浩瀚的宇宙里,除了我們正在一手制造卻尚不完全可解釋的 “機器智能” ,人類所見識過的智能只有一個大樣本:生命。

馬毅認為,智能的本質是 “學習”——生命就是智能的載體,從 DNA 出現,到神經系統誕生和寒武紀物種大爆發,再到人類的語言與數學的誕生,智能有不同的表現形式;但不變的是,智能都是在學習外部世界的知識與規律,從而進行預測,使知識可以為我所用。智能是在尋找規律并利用規律,是一個對抗宇宙熵增的過程。

從智能的歷史開始,本次訪談也延展討論了機器智能的 80 年歷史起伏,馬毅自己親歷了部分變化:他剛博士畢業時,找不到對口方向的教職;他現在被引用最多的成果,一度沒有任何會議接受。

馬毅也分享了一個研究者的技術品味如何形成?“品味” 不僅是一種認知,也是認知被挑戰時能繼續堅持的自信。馬毅的品味,使他進入了一個目前在 AI 工業界還不那么主流的方向:白盒大模型,和能實現 “閉環、反饋、糾錯” 的機器智能。

今年 9 月開始,港大所有本科新生即將開始學習一門新的必修課——AI 通識課程,計算與數據科學學院主導設計了這門課,馬毅會自己教智能歷史的部分。

當 AI 和大模型越來越多進入我們的生活,理解智能、思考智能,并不只是研究者和工程師的議題。

推理模型沒有在真正 “推理”;DeepSeek 這樣的開源趕超者一定會出現

晚點:o1、R1 等推理模型是當前 AI 領域最主流和重要的方向,在你的認知里,它們是真的在做推理嗎?

馬毅:今天在清華演講時,正好也有同學問這個問題。我是當老師的,就從老師角度來回答。

比如說教數學,很多學生看起來都能答題,但其中的邏輯推理能力至少有三個層次。

第一類學生是靠填鴨式的記憶來做題——看大量題,記住其中的模式,但并不一定真理解了。他們也能考出不錯的成績。

第二類學生是真正學懂了邏輯推理方法,遇到新問題時能嚴謹推理、判斷對錯,每一步都很清晰。

第三個層次更高,是在一個系統原本沒有邏輯時,能 “發現規律”——比如歐幾里得提出公理體系、亞里士多德提出三段論推理等,這是從經驗中抽象出了新邏輯。

所以,邏輯推理能力可以分為三層:模仿,理解并嚴謹運用,抽象出新規律。但現實中,大家常把這三種混為一談。我們做科研,就是試圖厘清什么才算智能,才是真正的邏輯和推理,而不是籠統定義。

晚點:現在的 o1 和 R1 更多處于你剛才說的第一層嗎?

馬毅:至少目前,我沒看到有嚴格證據顯示大模型是在用邏輯來解決問題。

比如陶哲軒(知名數學家、菲爾茨獎得主)也在用數學題測大模型,他發現在訓練過的題上,大模型能解決奧數級別的復雜問題,但同一個模型,又做不對小學階段的初等數學問題。如果真具備嚴密推理能力,不該出現這種情況。

所以評價模型能力不能只看 “刷分” 表現。做學問要嚴謹地厘清問題和尋找證據。

晚點:現在推理模型展現的長思維鏈(long CoT)——它看起來能像人那樣一步一步地思考,這實際上是什么?

馬毅:這種 “思維鏈” 還是需要人協助生成,有兩種主要方法:一種是由研究生或專家手工寫解題或邏輯思考過程,即 “思維鏈”,供模型學習;一種是在一個不錯的預訓練基礎模型上,給出 prompt(提示詞),一步步引導模型自己生成一些思維鏈,再篩選出好的例子,讓模型做 fine-tuning(精調),或者也可以讓模型根據這些例子學會打分機制,這就可以用強化學習了(注:強化學習的核心思路是給系統表現設置對錯反饋)。第二種方法的自動化程度更高、成本更低,但也需要人參與。

總之,這其中有很多不同環節。就像配中藥一樣,大家在嘗試不同組合,各種成分都有。

晚點:所以業內經常說訓練模型像煉丹。

馬毅:確實有一些經驗性的東西。工程界里,一個團隊如果在某個路線上做得比較好,超過其他人,他們可能就會經驗性地覺得這種 “配方” 更重要,是效果為王。而我們學界會更關注每種方法在系統中具體起什么作用,希望搞清楚機制。

晚點:DeepSeek 在 R1-Zero 中展現出了從 0 開始強化學習,也能取得不錯效果,這是個多重要的突破?

馬毅:我個人理解,現在要提升一個基礎模型,也就是在一個比較好的預訓練模型上提升編程、數學等能力,其實沒太多秘密,核心方法主要是兩種:

- 一是 Supervised Fine-Tuning(SFT,監督微調),通過提供范例,讓模型學習并模仿其中的解題思路;

- 另一種就是 Reinforcement Learning(強化學習)。通過 “做對加分、做錯扣分”,引導模型逐步掌握任務解法,它尤其適用編程、數學題這類有明確對錯的推理任務。

到底哪種方法用得多,目前有爭議。外界認為 o1 是先做微調,再做 RL;DeepSeek 又展示了直接做 RL 也可以。但這有夸張的成分,因為 R1-zero 的前提還是它的基礎模型,也就是 DeepSeek-V3,V3 本身就很不錯。而基礎模型要好,前期也得做微調。

我們最近有篇論文,叫 Supervised Fine-Tuning Memorizes, Reinforcement Learning Generalizes(《監督微調記憶,強化學習泛化》),就解釋這兩種方法在提升模型推理表現方面相關、但不同的角色。結論是,兩種方法都需要,一般而言,先微調,再強化學習效果更好。

晚點:你覺得這不是什么秘密,甚至推理模型都不是真的 “在推理”,但去年至今,整個行業都為推理模型振奮,不少人認為這是一次范式轉移。這是為什么?

馬毅:這有炒作的因素。OpenAI 去年有不少內部問題,沒能繼續拉開和其他公司的技術優勢??赡苁且驗楫敃r要融資吧,Sam Altman 在 o1 發布前各種暗示,似乎已發現了通往 AGI 的秘密。

結果 o1 實際做的事,就是用 SFT 和 RL 提升模型能力——這套方法學界之前也知道有效,也在做,Google 等公司都知道。這和當年 GPT 帶來的變化不是一個等級的。

晚點:o1 在編程、解數學題、研究復雜問題上的效果確實有明顯提升。

馬毅:刷題是會有提升。我以前考 GRE,刷到了快滿分,但剛到伯克利時簡直又聾又啞,我寫的第一篇文章,被導師狠狠罵了一頓。奧賽也類似,刷過題和沒刷過題的人完全兩回事,分高的人并不一定數學水平更高。

工業界追求效果沒問題,但學術上我們要搞清楚問題本質。

晚點:DeepSeek 的影響力狂潮說明了什么?

馬毅:我覺得 DeepSeek 有點像《皇帝的新衣》里那個小孩。 R1 驗證了 o1 沒有什么別人不掌握的秘密,同時它還能做得更便宜,更高效。

當然 DeepSeek 的 “便宜” 程度也被誤讀了。500 多萬美元是最后一次的訓練成本,而訓模型的更大成本是前期試錯。就像做題,第一遍很辛苦,最后謄一遍答案總是簡潔、容易的。Google 等公司最后一次的訓練成本也就千把萬美元,沒有貴那么多。

晚點:去年時,你有想過中國會冒出 DeepSeek 這樣的團隊嗎?

馬毅:我一點不驚訝。過去兩三年我多次公開說過,開源很快會超過閉源。因為目前大模型在方法和技術上沒有護城河,護城河在于數據、算法,試錯時間、成本和過程中積累的經驗,所以開源遲早會超過閉源。

就算中國沒有出現 DeepSeek,也可能是法國、英國、美國的團隊冒出來。這是一個 “where and when”(何時何地)的問題,不是 if or not(會不會)的問題。

從 DNA 到數學與科學,智能的一種本質和四種機制

晚點:你對當前 AI 發展的一些獨特看法基于你對 AI 歷史的了解和系統梳理。這次也想從問題的源頭開始聊。你覺得智能的本質是什么?它最初如何產生的?

馬毅:某種意義上說,生命就是智能,或者說是智能的載體。我很喜歡一句話,大意是:整個宇宙在熵增,世界越來越混亂,而生命則是熵減的。

我認為,生命和智能的本質,就是 “學習”——是要在還沒有變得完全不可預測的世界里,找到有規律、有結構、可預測的東西,進而能預測外部世界,這才能生存。

(注:根據熱力學第二定律,封閉系統的熵不斷增長,即混亂度不斷提升,在系統平衡時達到最大值;熵減則是混亂度減少的過程。)

晚點:低等生物也能學習和預測外部世界的規律嗎?

馬毅:這要回到大約 40 億年前,生命在地球上的最初狀態,這和現在的大模型也有關聯。

生命最初怎么編碼外部知識?是通過 DNA(脫氧核糖核酸)??梢哉f DNA 就是世界上最早的大模型,它通過脫氧核糖核酸的堿基結構,有規則地記錄外部世界的規律,這很像語言。

靠 DNA 學習的狀態持續了 30 多億年,這時單個生命體無法 “學習”,但通過一代代基因變異和自然選擇,完成了物種層面的學習。即一個物種,整體上能跟環境形成閉環,能通過一代代遺傳、變異,改進對外部世界的知識。所以單個生物個體沒有智能,但進化本身實現了物種層面的智能機制。

晚點:大模型是不是主要就在這個階段?因為現在的大模型,訓好一版后不能自己迭代,需要人幫助它微調或重新訓一版才能提升性能。

馬毅:對,主要還在這個階段。這一階段的實質其實是整個生態系統在物種層面的 “強化學習”,要構造一個能給出正負反饋的環境。在生命進化中,自然界就是評判標準,變異得對,就存活,變異得不對,就滅亡,“適者生存,物競天擇”。

深度學習的發展也類似——AlexNet、VGG、Google Net、ResNet,再到 Transformer……過去十年不知道提出了多少網絡結構,好多連名字都沒人記得了,就像不知道多少 DNA 在億萬年的自然選擇中被淘汰了,“一將功成萬骨枯”。

晚點:物種層面的強化學習是生命前 30 多億年的狀態,最近 5 億年發生了什么?

馬毅:約 5.5 億年前,生物開始出現神經系統,隨后視覺也開始出現。神經系統和視覺給了單個生物體對外部具體環境的新記憶,這是除了遺傳而來的 “大模型”,也就是 DNA 之外,對外部世界信息和規律的另一種建模。這相當于單個物體可以自己 fine-tuning(微調)了(但生物體的記憶和微調的優化機制不太一樣)。所以個體生存能力大大提高,有了 5 億年前的寒武紀物種大爆發。

一個直觀的現象是,隨著生命或智能形態越來越高,個體出生后與上一代相處的時間越來越長——鳥類 1 個月就離開父母自己飛了,貓科動物要一年,猴子要五六年……這是因為生物體逐漸擺脫了對預訓練 DNA 的依賴,而更重視親代傳授、后天記憶、或在特殊環境中學到的東西。

從這里就能看到,隨著智能形式提升,個體的智能系統減少了對預訓練的依賴,而更多依靠后天記憶。這也和我們最近的工作很有關系,就是怎么讓有了一定知識基礎的系統,能自主更新、改進、完善記憶和知識,朝智能的第二階段發展。

晚點:到這里是動物也有的智能,當生命進化到人類誕生后,智能又有了什么變化?

馬毅:人出現之后,有了一件了不起的事——語言文字。這極大提升了群體獲取和傳遞知識的效率,進而提高了生存概率。比如一個人找到了水,就能告訴其他人,大家不用再試一遍。有了文字后,知識又開始更高效地傳給下一代,語言文字和 DNA 一樣,都能代際傳承知識,只是 DNA 變異很慢,而語言文字使文明發展速度大大提高。

然后到大約 3000 年前,更神奇的事發生了,在古印度、古希臘、古中國,哲學家、數學家開始理解一些抽象概念,1、2、3、4、5、6、7……數字可以延伸到無窮,進而出現了自然數、分數、實數、虛數等抽象代數概念,以及點、線、平面、三維甚至多維空間等抽象空間概念。在我看來,像數理邏輯、因果推理這些并非源于經驗,而是一種升華,但這種升華背后的機制至今仍是個謎。

這樣來看,生物的智能經歷了 4 個發展階段,從 DNA 到記憶,再到文字和科學;它們機制各有不同,后期的智能并沒有取代早期智能,它們是疊加、并存的關系:

- 第一階段,物種通過基因變異實現進化,靠的是強化學習、自然選擇。

- 第二階段,單個生命體出現神經系統,形成記憶,個體增加了自適應和不斷糾錯的能力。

- 第三階段:文明依靠語言和文字流傳。但這部分知識只是每個人能學到的外部物理世界模型的一小部分。

- 第四階段:數學和科學產生,能對外部規律作高度概括、抽象、凝練,科學能被證實或證偽,在不斷改進。

整個過程中,智能始終在做一件事——對外部世界的知識做編碼。但要搞清楚,知識本身并不是智能,知識是智能活動的結果;通過觀測和感知外部信號,從中抽取描述外部世界規律的能力,也就是 “學習”,才是智能。

現在很多人對大模型的誤解,就是把知識當成了智能。如果一個系統僅是擁有知識,而沒有更新和修正自身已有知識的機制,它仍然沒有智能。

所以再大的大模型現在也沒有智能,GPT-1 沒有,GPT-2 沒有,GPT-3 同樣沒有。但結合 OpenAI 工程師的不斷研發和改進,GPT 的整個迭代過程是有智能的。這就像 DNA 本身沒有智能,但它不斷隨機變異,再被自然界選擇這個過程,具備了智能。

晚點:你總結的這四個智能階段,是在模仿地球上的生物智能。機器智能有沒有可能有不同的機制?

馬毅:有可能。這就要回到對智能的嚴謹定義——真正的智能應該能自主獲取新知識、修正已有認知。自然界的智能至少是一個可行解,雖然未必是最優解。

但至少現在看來,自然界的智能在效率上,比我們當前實現人工智能的方法不知道高多少倍。我們還停留在類似單細胞生命的階段,主要耗費大量資源一版版訓模型,系統還缺乏主動學習和糾錯能力。

這也能解釋,為什么楊立昆(Yann LeCun,圖靈獎得主)經常說,現在的大模型還不如貓、狗聰明——因為大模型只有靜態知識,沒有像動物那樣自主糾錯、適應環境、產生個體記憶并不斷修正的能力。

現在很多模型在嘗試像人一樣做推理,但主要是靠死記硬背,并沒有真正理解,它都無法自己產生抽象自然數的概念。所以我常說,這個時代需要重新嚴謹定義圖靈測試。

晚點:很多人認為圖靈測試已經通過了。

馬毅:實際上并沒有??茖W、嚴謹地看,刷題提分不是智能的充分證明,要設計合理的測試方式區分生搬硬套還是真的懂,目前缺乏驗證大模型理解、抽象和泛化能力的科學評估方法。

機器智能的機制仍未完全明朗,炮彈很難連續兩次打進同一個坑里

晚點:和當前 AI 發展直接相關的是機器智能的歷史,去年我們聊到過,你認為目前對這部分歷史的一些常見理解并不準確,而這又會影響當下的一些學術判斷——比如 AI 的起點不是在 1956 年的達特茅斯會議,而是更早之前的控制論、信息論等。

馬毅:對,達特茅斯會議是計算機科學視角下的 AI 起點,但更廣義看,對智能的研究開始于 1940 年代研究動物智能和智能本身的特征。

從智能特征出發,引出了一系列相關重要成果:

- 發現神經網絡特征,在 40 年代構造了第一個神經網絡的數學模型。

- 控制論,認識到閉環反饋是生物改進學習和自適應的基本機制。

- 信息論,人造系統如何像大腦那樣對外部世界信息編碼、解碼。

- 博弈論,當動物或人類處于未知環境時,如何提高自身決策能力。

圖靈正是受這些研究啟發,開始思考如何區分機器與人類智能,在 50 年代提出了 “圖靈測試”。而 40 年代的研究可以看作是一種 “維納測試”(維納是控制論的提出者),主要是區分機器和動物。這又啟發了 1956 年,一群年輕人開始研究人類智能特有的特征。

晚點:維納、香農當時去研究控制論、信息論的背景是什么?為什么 1940 年代,科學家成批關注動物智能?

馬毅:答案很簡單,打仗。比如大炮怎么能有效追蹤飛機?這和動物捕獵過程相似??茖W家想搞清楚,動物為什么捕獵時反應又快又敏捷,還很穩定,而且決策能力能不斷提升。

馮·諾依曼提出現代計算機構架(馮·諾依曼架構),就是為了實現維納的控制論設想————用計算框架實現類似動物的反饋、決策和優化機制。他的手稿也描述了,維納控制論如何啟發了他的博弈論。

晚點:到 1956 年的達特茅斯會議,明斯基、麥卡錫等人對智能的研究有了什么不同?

馬毅:當時信息論和控制論已建立得相對完善了,所以這些年輕人想找這些理論框架還沒觸及的人類智能領域,包括邏輯、抽象能力等。

他們也不想跟隨主流。我覺得這對現在的年輕人也是啟發,要出頭,就別總想隨大流。

晚點:所以對應到前面說的四種智能機制,他們是想研究數學、科學的那部分智能?

馬毅:對,是最后一層。但他們只是在研究這些現象,并沒有解釋這些機制是怎么產生的——人類大腦到底在幾千年前發生了什么變化,才開始從僅能從經驗中獲得知識發展到有抽象、邏輯能力。這種新能力和我們從觀測物理信號中提取知識的機制是否一致?現在還不完全清楚。后者主要是通過去噪、壓縮。

晚點:可以更清楚定義一下這里的去噪、壓縮的意思嗎?因為有人也會認為牛頓定律等物理公式也是一種 “壓縮”。

馬毅:這里指動物和人都有的直覺性能力產生的機制。比如在發現重力的數學表達之前,動物和人的大腦早就對重力 “建模” 了,所以我們踢球時能預判軌跡,一個物體掉落,能接住,而且這種預判非常精準。這是通過神經網絡結構形成記憶,完成了預測。一些腦科學的研究指向這個過程是在做 “壓縮”,比如猴子的大腦會把高維信息壓縮到低維子空間?,F在的 Diffusion Model (擴散模型,主流的視覺生成模型結構)就是在做類似的事。

而當人類有了數學和科學,又高度概括和抽象了原本從經驗學到的東西,還能互相傳授,能舉一反三到很多情況。所以這兩種方式(直覺和物理公式)都能預測外部世界,但它們的預測機制和泛化性不一樣。

晚點:如果以 40 年作為智能研究的起點,至今的 80 多年里,整個人工智能或者說機器智能發展中有哪些關鍵時刻?

馬毅:如果看深度學習、神經網絡這條線,大致的過程是:

- 1940 年代,有了單個神經元的數學模型,最初大家忘乎所以,后來發現遠不能模擬智能,神經網絡進入第一次低谷;

- 1980 年代,通過視覺貓的視覺系統,發現了卷積性質,出現了卷積神經元,最早由日本科學家福島邦彥提出,89 年時,楊立昆將其實現(CNN 卷積神經網絡),并取得了不錯的成果。同期,Hinton 為實現自編碼做了大量嘗試,也運用了一些物理學思路,去年諾獎的物理學獎也發給了他。不過自編碼當時沒引起重視。這之后,這個領域(深度學習)又變得很冷。

- 2012 年,新的決定性因素是有了足夠的數據和 GPU 算力助力,深度學習得以真正爆發,成為轉折點,隨后擴展到圖像、語音、語言、蛋白質等多個領域。

最近的十幾年,神經網絡的進步主要就是靠經驗試錯、不斷淘汰優化,一步步走到今天。

晚點:這其中有什么共通的規律嗎?

馬毅:說實話,還真沒什么特別明顯的規律。因為一直以來深度學習都缺乏第一性原理,智能在做什么(目的)不很清楚,學習機制也不很清楚。

但有兩條線索:一是從生物學獲取靈感,比如單個神經元的建模、神經元排列方式、卷積結構、大腦皮層組織方式等,Hinton 很多早期理論創新就是受神經科學啟發。二是工程優化,不斷試錯、改進模型結構,期間誕生了大量結構,不少已經湮滅在歷史里。它確實像早期的生命進化。

晚點:這會讓做 AI 研究有一種宿命感嗎?一個方向,一個研究者的個人前途好像比較難被預測。

馬毅:如果繼續靠試錯為主的方法論,確實會有運氣成分。一個現象是,新進展、新框架的提出,往往不是哪個團隊系統性推進的結果,而是像打炮一樣,一會打這兒,一會兒打那兒——一會兒 DeepMind、一會兒 OpenAI、一會兒 DeepSeek,比較隨機。因為現在的進步主要是靠經驗和資源。

總有人問我這家大模型公司值不值得投,或者那家大模型公司值不值得投?我的意見都是,炮彈一般不會連續兩次落在同一個彈坑里。除非真有方法創新,真能有系統、有規律地改進。

晚點:在對智能的機制理解還不完善的情況下,你覺得現在工業界靠不停去試帶來的進展,能持續多久?

馬毅:現在預訓練已經到了邊際收益遞減的階段。Grok-3 用了 20 萬張卡,提升才 1% 多一點, GPT-5 到現在還沒出來。(注:指 Grok-3 發布后,在 Chatbot Arena 上比之前的冠軍的 PK 評分提升了 1.6%。)

就像靠基因突變和自然選擇進化的階段,生命也在前進,但走了 30 億年也主要是單細胞生物。現在大模型也卡在這種低效演化里。

科研品味來自勇氣和能力:一旦找對方向,證據會帶來自信

晚點:技術 “品味” 對探索未知領域很重要。這里的 “品味” 是指——當一個領域沒有太多可跟隨的參照物時,能自己提出對的問題、做出技術判斷,而且自信的能力,尤其是當中間出現波折時,仍能自信。其實你經歷過這個過程,1995 年你從清華去伯克利時,目前變成 AI 主流方法的神經網絡還很冷門,你是怎么逐漸進入這個領域的?

馬毅:我是先在學生時代意識到了視覺的重要性。當時我在伯克利機器人組,我導師 Shankar(Shankar Sastry),還有師兄李澤湘都在做控制。

那時已經有了雙足行走的機器人,能跑、能跳、能上樓梯,但都是提前編程好的,只能做預先設定的動作。

我老師就跟我說,你看這些機器人系統控制做得挺好,但它們是 “瞎” 的,沒有大腦、眼睛,反饋,只有動作輸出,沒有信息輸入,怎么閉環呢?這就是瞎動。

所以 Shankar 的組是第一個開始做視覺的,要讓機器人能獨立適應外部環境,當時我們是研究三維視覺,探索機器如何感知和重建外部世界。

到了我博士畢業找工作時,還是沒有這個就業領域。我在伊利諾伊是在系統組教控制,沒有 Computer Vision、3D Vision。比三維重建更冷的是視覺識別,所以李飛飛在自傳里也說她 2006-2007 畢業時不好找工作。

就是在這樣的環境下,一群研究者自發地探索感知、視覺重建、識別等問題。那時 CVPR 開會也就幾百人,一個大教室就能坐下。

(注:CVPR 為計算機視覺領域頂級學術會議,2024 年 CVPR 參會者超過 1.2 萬人。)

晚點:在找教職都找不到對口方向時,你還是覺得這個研究方向有前途。這種相信來自什么?

馬毅:證據??茖W探索本身充滿不確定性,十個想法可能九個都失敗,但一旦找對了方向,證據會給你帶來自信。自信不是盲目樂觀,而是來自數學、實驗和邏輯上的驗證——哪怕別人暫時還看不懂。

晚點:什么因素或經歷可以幫助塑造更好的技術品味?

馬毅:一是學術價值觀。真正做科研要探索未知、打破常規,不應從眾。能做出新東西的,往往是特立獨行、能看到主流不足、發現現存問題的人,雖然他們一開始往往很難得到認可。

二是通過嚴謹學術訓練,有嚴密的邏輯和實驗能力。我讀數學碩士時,老師就跟我說:“做數學家的第一條,就是把自己訓練成世界上最難被說服的人。這樣,當你找到一個證明并能說服自己時,才足以嚴謹到說服所有人?!?實驗也要很嚴謹——數據、報告、現象判斷以及假設驗證,都得嚴謹,不要輕易下結論。

所以科研要有探索未知的勇氣,也要有能力,這是形成科研品味的本錢。只有特立獨行、沒有訓練,可能會變成 “民科”。最可怕的是自己不知道自己是錯的。

晚點:伯克利對你的影響是什么?我們也訪談過你的師兄李澤湘,他當時說,伯克利對他的世界觀和做科研的方式影響很大,那兒的氛圍特別平等、自由,大家喜歡討論、爭論,不存在權威。

馬毅:這非常了不起。我讀博時,導師手下有 18 個學生,來自 13 個國家,大家沒有等級觀念,就是一心想把事情搞明白。

后來我自己在伯克利當教授,帶的一些學生畢業后回來聊天,都說特別懷念這里,因為這兒的交流氛圍很好,可以完全跨組開放交流。我組里就十幾個學生,但開組會時經常有三四十號人來一起聽,沒有秘密。這在其他地方并不常見。

晚點:這也是對品味的一種培養,讓研究者有更廣闊的視角。

馬毅:對,后來我發現,在伯克利,從同學身上學到的比從老師那兒還多,尤其是實用技能。學生間的合作也常常跨組,一起寫論文、改代碼、做各自擅長的事,你幫我,我幫你。這能提升人的綜合素質。我也特別希望在港大,還有中國其他大學看到這樣的氛圍。

晚點:現在一些企業家和創業者并沒有系統的 AI 研究背景,但他們在努力學習 AI,比如張一鳴就請馮佳時來講解 AI 技術。你覺得他們能通過學習,對技術理解到什么程度?這也會影響投資和業務判斷。

馬毅:如果只是了解 AI 技術在做什么,有扎實的本科數學和科學背景就夠了。要更深入,就需要更深的知識儲備。我們去年在港大還真做了一件相關的事。

因為過去幾年,不少企業家會來找我和同事請教 AI 問題,大家焦慮于要不要用 AI?怎么用?值不值得投?但我們每個老師也只深入了解自己研究的那部分。所以我們在港大開設了一個面向 CEO 和投資人的專門講 AI 的班,類似 EMBA,由數據與計算學院主導,一方面讓科研老師用通俗方式提供技術介紹和證據,另一方面邀請一線科技企業的人來分享真實的使用 AI 的經驗——成功也好,踩過坑也行。

這個班原計劃招 40-50 人,結果第一期來了 80 多位,主要是國內頭部企業和上市公司創始人、企業高管和投資人。

晚點:這些 CEO 同學們的科學素養如何?

馬毅:總體很好。他們都是成功的企業家,更想了解技術的本質,學習態度也誠懇,并非來交朋友的。這個班的出勤率很高,前面幾個核心模塊幾乎全勤。

晚點:他們應該也會問一個問題——判斷一個 AI 新成果靠不靠譜,有沒有什么簡單的原則或方法?

馬毅:看是否有嚴格的證據,比如真實實驗數據,而不是只看自媒體里講的表現好的案例。我們也會坦誠分享負面案例或不確定的判斷。

給港大所有本科生講 AI,重要的是訓練思考,不是給出答案

晚點:去年我們聊時,你提到當時港大正在計劃 AI Literacy 課程,讓 “AI 通識課” 成為包括文科、社科、醫科、商科在內的所有本科生的必修課。因為我們未來都要和機器共處,需要理解機器。今年春季學期,港大 AI 通識課已開始試上,秋季會開始包含 4000 多名全部大一新生。這個課程怎么設計的?

馬毅:我們分了幾個模塊:

- 第一,要讓學生搞清楚 AI 和智能的基本概念;

- 第二,我非常強調歷史,這部分是我自己在教,會涵蓋生命起源時的智能、機器智能的歷史;

- 第三,介紹具體技術本身,比如語言模型、圖像處理、機器人等,講這些技術的概念、作用和局限性;

- 第四是倫理問題,引導學生思考如何正確面對和使用 AI 工具,這涉及隱私保護、安全、法律規范等。

教學上,每個模塊都有團隊支持,每節課由多位老師協作設計,內容每年更新,確保學生接觸到新的 AI 發展與研究成果。

晚點:最核心是想教給學生什么?

馬毅:總的來說,是旨在讓學生:一、了解 AI 的歷史和概念;二、了解當前技術;三、思考 AI 技術對個人、行業乃至社會的可能影響。

但傳授知識本身還不是最重要的,最終目的是提升學生的獨立思考能力。所以我也跟授課老師強調,現在很多問題沒有標準答案,要引導學生學會搜集證據、形成自己的想法,不要人云亦云。

因為技術會不斷改進,炒作會反復出現。即便我們把當下知識解釋清楚了,如果學生不能獨立思考,以后還是會被誤導。AI 本身是訓練批判性獨立思維的很好的主題。

晚點:這門課程怎么描述 AI 和人的關系?

馬毅:課程會講清楚智能的本質,然后讓學生自己去判斷如何與 AI 交互。關鍵在于啟發思考,不是灌輸答案。

晚點:學生們可能會有天馬行空的暢想——AI 會不會產生自己的意識?AI 會是一種新生命和物種嗎?你會怎么解答?

馬毅:至少目前,AI 還在做機械的數據壓縮和生成。學生了解這一點后,也就知道如何與當下的 AI 打交道了。至于未來,當智能機制被更全面地發現、實現,系統真正能自主學習、獨立思考時,個人和社會該如何應對?我們現在可以探討,但希望他們能客觀認識當前的技術。

晚點:維納在《人有人的用處》里討論過智能機器對社會倫理和政治的影響。80 年前,他已在思考未來技術可能會壓迫人,威脅人的尊嚴和價值感?,F在關于 AI 和人的未來也有 “合作共生” 和 “對立” 的兩種觀點。從感性角度來說,你更傾向哪一派?

馬毅:我沒有確定答案。從歷史看,智能機制并非人類獨有,許多動物也有,自然界早把它 “開源” 了。人類能成為世界主宰,也是進化的階段性結果。這些不同的智能過去可以共存,未來也可能有共存方式。

但另一方面,一旦機器能實現智能機制,在記憶、推理、學習效率上可能遠遠超越人類。那時我們該怎么辦?這得留給大家一起思考。

A close-looped system is for an open world, no matter how small it is

晚點:你現在致力于研究怎么讓機器系統有閉環反饋糾錯機制,也就是向第二階段的有神經系統和記憶的智能演進。這個方向是主流還是少數派?

馬毅:其實從早期研究動物智能時就發現,幾乎所有高級動物都是靠閉環反饋來糾錯、學習、提升決策能力。這不是我們發明的,是自然界的選擇。我相信它不是某一種方向,而可能是唯一的方向。真正有效的智能系統,都具備閉環反饋機制。

晚點:我和工業界的一些人交流你們團隊的研究成果時,他們覺得這是故事會,是 “刷存在感”。

馬毅:甚至還沒有存在感了。但我們的初衷就是把問題搞明白,我們的信心也正來源于此。Hinton 前 30 年都沒什么存在感,他的信心不來自一定找到了正確答案,而是知道自己提出了對的問題。

當然科學需要證據,不能只講原理。我們過去幾年就是在讓白盒大模型、閉環反饋機制變得可實現、可驗證。這個過程很痛苦,也可能很漫長。Hinton 也是等了很多年,直到條件成熟,有了更讓人信服的驗證,才被接受。這是我們現在正經歷的過程。

晚點:你以前經歷過類似過程嗎?

馬毅:我現在被引用最多的成果,一度就沒有任何會議接收,大家覺得結果太好,可能作弊了。后來我們花了一個暑假做嚴謹對比,才被期刊接收。

科學家也是人,學術圈也有 “回音壁效應”,多數人相信當下的主流,不愿花精力理解新 “雜音”。就像這兩年拿了諾獎的 Karikó(卡塔林·卡里科,生物化學家) 和 Ambros(維克托·安布羅斯,發育生物學家) ,一個當年被賓大降級降薪,一個沒拿到哈佛的教職。

我常用這些故事激勵年輕人:很多人覺得現在的方法就是通向 AGI 的陽光大道,其實陽光之下,新發現還會出現,那些沒被看到的東西未來會顛覆認識。

晚點:具體到你對白盒大模型和閉環反饋機制的研究,從我們去年聊到現在,有哪些新進展?

馬毅:這分兩部分,一是原理發現和初步驗證,二是大規模工程實現和驗證。

白盒大模型,之前我們在學校已經驗證了方法可行,現在在公司(馬毅創立的憶生科技)是做產業化——用大量數據,在更大規模上做驗證或改進效率。

這類偏工程化的工作往往不是學校愿意做和應該做的。學界應該做與工業界互補的東西:就是發現新原理和方向。這也是為什么要創立公司來做后面一部分的工作。過去十年一個讓人失望的現象是,學術界被工業界牽著走。

(注:白盒大模型是指,為 Transformer 結構大模型里,從高維到低維的壓縮過程中提供數學解釋,以去除經驗性的冗余,提高效率和效果。)

在閉環反饋自主糾錯機制這塊兒,我們在嘗試不同路徑?,F在的主流是用單一模型做開環系統,我們認為這并不自然。大腦不是單一的一個環,而是多個環在并行。大腦皮層中有幾十萬個形態相似的皮質柱(cortical column)在各自編碼、解碼,協同處理信息,每個都是閉環系統。我們正在探索構建更接近人類大腦形態的架構,實現多路閉環反饋。

晚點:所以這個大的閉環系統的結構是很多模型組合在一起,其中每一個都是閉環的?

馬毅:至少人腦的形態是這樣一個并行、分布式的、有層次的結構。人類大腦只有前額葉的一小片區域在處理自然語言,其他絕大部分在處理視覺、觸覺、聲音等其他物理信號,小腦則負責運動控制。

晚點:閉環系統的一個特點是,能在開放的真實物理世界中運轉和自己學習,它會更多指向具身智能嗎?

馬毅:對。我常說,“A close-looped system is for an open world, no matter how small it is.” 哪怕小如一只螞蟻,也能在大世界里自主學習。

相反, “An open-looped system is for a close world, no matter how big it is.” 所以一個端對端的開環系統,只能應對封閉世界,這個模型不管多大,也不能自我改進。

晚點:端到端和閉環是互斥的嗎?

馬毅:不完全互斥,這是兩件事。目前為止,大模型訓練好后,如果不借助人為的微調或迭代就不能改進了。這就像只靠 DNA 來學習的階段,從受精卵形成那一刻起,個體能力就被預定了,生物完全靠本能而活。

晚點:看好 VLA 方法的人會說,這個方法確實提升了泛化性。

馬毅:這就好比造飛機,現在的飛機能飛、能載客,也能盈利,但這是不是飛行最高效的方式?未必。

當前的 VLA 是通過大量數據和算力,把感知、視覺、語言和動作整合在一起,它能提升機器人性能,不過方式比較簡單粗暴。

晚點:什么時候能實現更優雅的閉環機制呢?

馬毅:You never know. 雖然概念很清晰,但實現時,工程是否到位、方法是否正確,都是變數。GPT 花了好幾年才驗證效果更好??萍继剿麝P鍵在于找對方向,方向對了,已經很幸運了。

晚點:探索前沿方向有諸多不確定性,而你現在也創立了公司來做工程實現和驗證,公司是需要更確定的發展節奏的。你對處理這二者之間的張力有了什么體會?

馬毅:我一直相信,無論做學問還是做公司,都要有品味和信念。阿爾特曼曾說,GPT 有什么用他一開始也不知道,但他相信讓機器理解自然語言這件事值得做。

很多技術在沒突破臨界點前,看起來都沒用,但一旦突破,就可能釋放巨大價值。如果等看到特別明確的收益才做,那是純商業公司,而不是科技公司。

晚點:當你身邊現在的一些非 AI 研究者,為 AI 感到焦慮或困惑時,你會和他們說什么?

馬毅:焦慮來自不了解。所以我喜歡寫書,只有自己梳理一遍,才會發現哪里沒弄明白。

AI 現在還是一個黑盒子,正因為是黑盒,一部分人覺得很難搞明白,另一部分人會利用它的模糊性炒作或制造恐懼。迷信是這么產生的,(某些)權力也是這么產生的。

題圖:2025 年 4 月底,馬毅在人工智能領域頂會 ICLR(International Conference on Learning Representations,國際表征學習大會) 上做學術報告。來源:馬毅。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
好一個圍魏救趙!宗家的遺產內幕,你們都吃錯了瓜,真重點在這里

好一個圍魏救趙!宗家的遺產內幕,你們都吃錯了瓜,真重點在這里

美美談情感
2025-07-18 21:13:41
孫紅雷一家度假,小15歲妻子背影人高馬大,不用帶娃愜意的玩手機

孫紅雷一家度假,小15歲妻子背影人高馬大,不用帶娃愜意的玩手機

猛哥的搞笑視頻
2025-07-19 15:51:09
被騙至緬甸失聯半個月的19歲高考生已找到,正準備回國事宜,父母已趕至云南

被騙至緬甸失聯半個月的19歲高考生已找到,正準備回國事宜,父母已趕至云南

極目新聞
2025-07-19 12:26:57
兩女子在合肥萬象城香奈兒門前當眾扭打,警方:事情已處理好了

兩女子在合肥萬象城香奈兒門前當眾扭打,警方:事情已處理好了

極目新聞
2025-07-19 16:05:38
73年歷史的星級酒店擺攤賣鹵味 記者實探:1小時賣斷貨,大廚刀功切出花

73年歷史的星級酒店擺攤賣鹵味 記者實探:1小時賣斷貨,大廚刀功切出花

封面新聞
2025-07-18 19:40:09
臺風“韋帕”向深圳到湛江一帶沿海逼近,近岸海浪警報升級為橙色

臺風“韋帕”向深圳到湛江一帶沿海逼近,近岸海浪警報升級為橙色

界面新聞
2025-07-19 17:45:57
向美國捐8億被罵叛徒!無錫唐氏21代掌門:我的錢只認文明歸屬

向美國捐8億被罵叛徒!無錫唐氏21代掌門:我的錢只認文明歸屬

李砍柴
2025-07-18 23:42:24
我不想死!游客在米蘭被割喉,血流滿身絕望哭喊,原因結果曝光

我不想死!游客在米蘭被割喉,血流滿身絕望哭喊,原因結果曝光

鋭娛之樂
2025-07-19 01:55:03
福建福耀科技大學最低投檔線公布,超過多所雙一流名校!曹德旺:首年8億元預算招50個學生,對標斯坦福

福建福耀科技大學最低投檔線公布,超過多所雙一流名校!曹德旺:首年8億元預算招50個學生,對標斯坦福

每日經濟新聞
2025-07-19 17:50:10
交警查違章駕車追緝10公里 貨車慌亂之下撞殘路人

交警查違章駕車追緝10公里 貨車慌亂之下撞殘路人

大象新聞
2025-07-19 13:44:14
1984年,賀子珍遺體在上?;鸹囆∑降弥?,親自打破一個常規

1984年,賀子珍遺體在上?;鸹?,鄧小平得知后,親自打破一個常規

簡史檔案館
2025-07-19 10:35:03
中國不會慣著歐盟,對等反制即日立刻生效,馮德萊恩手中無牌可打

中國不會慣著歐盟,對等反制即日立刻生效,馮德萊恩手中無牌可打

boss外傳
2025-07-18 17:50:03
宗家遺產風波升級!族譜被扒出,宗家老太太健在,已經103歲高壽

宗家遺產風波升級!族譜被扒出,宗家老太太健在,已經103歲高壽

火山詩話
2025-07-18 21:59:22
交易與買斷障礙重重:為何詹姆斯今夏離開湖人幾乎是不可能的事情

交易與買斷障礙重重:為何詹姆斯今夏離開湖人幾乎是不可能的事情

直播吧
2025-07-19 15:01:07
5個老婆7個娃,中國賺錢美國花?胡錫進:別罵太很,宗曾捐7億

5個老婆7個娃,中國賺錢美國花?胡錫進:別罵太很,宗曾捐7億

麥杰遜
2025-07-18 19:12:59
19歲高考生講述被騙緬甸經歷:通過招聘軟件求職,有人稱當主播掙大錢

19歲高考生講述被騙緬甸經歷:通過招聘軟件求職,有人稱當主播掙大錢

極目新聞
2025-07-19 14:20:09
特朗普確認:印巴空戰有5架戰機被擊落,我們通過交易解決了問題

特朗普確認:印巴空戰有5架戰機被擊落,我們通過交易解決了問題

不掉線電波
2025-07-19 13:36:14
大V:看宗慶后自傳才知道,與女下屬搞婚外情也是企業管理手段

大V:看宗慶后自傳才知道,與女下屬搞婚外情也是企業管理手段

小星球探索
2025-07-19 08:22:44
孟超:美國媒體對楊瀚森的驚喜程度是150% 他們對他沒什么期待

孟超:美國媒體對楊瀚森的驚喜程度是150% 他們對他沒什么期待

直播吧
2025-07-19 16:47:06
緬甸園區老板送回高考生,“你前途光明,不該留在這里”

緬甸園區老板送回高考生,“你前途光明,不該留在這里”

觀察者網
2025-07-19 16:48:37
2025-07-19 19:15:00
晚點LatePost
晚點LatePost
晚一點,好一點。商業的真相總是在晚點?!锻睃cLatePost》官方賬號
2766文章數 21794關注度
往期回顧 全部

科技要聞

工信部等約談17家車企巨頭,競爭劃新紅線

頭條要聞

越南前國家領導人阮春福、武文賞等3人被解除黨內職務

頭條要聞

越南前國家領導人阮春福、武文賞等3人被解除黨內職務

體育要聞

韋德:楊瀚森讓我想起王治郅 打球都非常聰明

娛樂要聞

肖戰微博改名:去掉X玖少年團頭銜

財經要聞

娃哈哈爭產大戰:杜建英的進擊

汽車要聞

中汽中心新能源檢驗中心煥新發布"汽車行車控制安全技術驗證VCTA"

態度原創

旅游
房產
數碼
親子
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

漏水、開裂…為阻止降價,??谶@個盤業主集體爆黑料,還講鬼故事!

數碼要聞

三星最親民耳機繼任者,Galaxy Buds 3 FE 渲染圖首曝

親子要聞

這下完了,被果果抓現成了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 仁寿县| 扎赉特旗| 大港区| 清苑县| 内丘县| 兴文县| 平谷区| 报价| 阿图什市| 洛扎县| 彭州市| 定结县| 合水县| 小金县| 施秉县| 工布江达县| 莱西市| 沽源县| 乐清市| 北海市| 龙门县| 安庆市| 北海市| 南涧| 揭西县| 万源市| 阿勒泰市| 雅安市| 大竹县| 阿荣旗| 承德市| 突泉县| 安图县| 青田县| 胶南市| 车险| 四川省| 永济市| 湄潭县| 辉县市| 徐汇区|