搜狐科技《思想大爆炸——對話科學家》欄目第113期,對話浙江大學計算機學院教授莊越挺。
嘉賓簡介:
莊越挺,浙江大學求是特聘教授,浙江大學學術委員會副主任,浙江大學計算機科學與技術學院原院長,中國人工智能學會副理事長,長期從事跨媒體、人工智能、數字圖書館等領域研究。
這次AI熱潮與以往不同,主要由工業界的需求驅動,應用領域比較廣泛。
AIGC未來的發展方向是from X to Y 的多模態大模型。目前的技術,無論是文本還是圖像生成,都只是基于概率的采樣,而沒有真正的推理過程。
我們的想法是讓大模型和小模型協同工作,用最少的成本達到最好的效果。
出品|搜狐科技
作者|漢雨棣
編輯|楊 錦
當ChatGPT掀起全球狂歡,當杭州“創業六小龍”在資本浪潮中嶄露頭角,很少有人注意到,中國人工智能的起點,始于上世紀90年代圖書館里手抄文獻的學者背影。浙江大學莊越挺教授,已經親歷了AI的兩次起落。
90年代,他參與的國家七五重點攻關項目“天馬”專家系統斬獲國家獎項,在隨后漫長的“AI寒冬”中堅守陣地;2017年后,AlphaGo與深度學習重燃AI戰事。從“紙上談兵”的理論爭議到醫療、文化的落地革命,他坦言“這次熱潮不一樣”——工業需求與技術突破的雙重推力,正將AI推向一個更務實卻也更顛覆的時代。
當被問及“杭州為何跑出六小龍”,莊越挺認為,關鍵因素離不開“浙大人的踏實”與政府的開放包容。杭州這座城市的創新生態,既有海歸帶來的全球視野,也有阿里系鍛造的商業敏感,更離不開浙大校友“總工程師式”的技術執著。
作為高校研究者,他表示現在高校項目中,AI研究的真正價值在于“頂天立地”——既要攀登理論高峰,也要解決癌癥篩查、古籍數字化等民生痛點。
在近日“吳文俊人工智能科學技術獎”頒獎典禮期間,搜狐科技與莊越挺展開了一場深入的對話。
對AI的三十年追問
搜狐科技:您在碩士研究生階段就開始研究人工智能,當時主要研究的是專家系統,那時候這個領域非常熱門。后來您擔任了十年浙江大學人工智能研究所的所長。經過這么多年人工智能又重新火熱起來。您認為這兩次熱潮有不同之處嗎?
莊越挺:有區別。我讀研究生是在90年代,當時人工智能的熱潮主要集中在專家系統上,基于符號主義,通過總結知識形成規則,再用邏輯推理的方式進行處理。當時人工智能的研究就非常火爆了。我在碩士期間參與了一個由中科院數學所陸汝鈐院士牽頭的國家七五重點攻關項目,主要是專家系統開發環境,后來這個項目還獲得了國家科技進步二等獎,可以說是當時做得最好的項目之一。
后來我在浙江大學人工智能研究所擔任所長。當時人工智能就轉入低潮期了,但我說仍然還是要堅持人工智能的研究。
中國新一代人工智能研究的熱潮開始于在2017年,國家發布了《新一代人工智能發展規劃》。這次熱潮與以往不同,主要是由工業界的需求驅動,應用領域比較廣泛,得益于像深度學習這樣的技術突破,即數據驅動的神經網絡方式。比如,阿爾法狗(AlphaGo)是一個標志性事件,說明深度學習技術為代表的、數據驅動的神經網絡方式可以擔當大任。
搜狐科技:您提到浙大牽頭創建了數字圖書館。經過了幾十年您對目前的數字圖書館發展情況滿意嗎?
莊越挺:那時候的情況是很多書都躺在圖書館里,沒有電子版。不像現在,你要寫一本書,寫完之后圖書館都會有電子版,這就是“原生電子書”,出版的書“生下來”就有電子版。但以前可不是這樣,我們讀書的時候找文獻非常困難,所以當時我們經常要跑到北京查資料,比如到國家圖書館或者其他研究機構的圖書館,找到資料復印后再帶回去。尤其是2000年之前,很多文科類的書基本都沒有掃描和數字化,研究歷史和古籍的資料尤甚。
我們當時就在思考,圖書館的理念應該是“Anyone Anytime Anywhere can access Any information”,也就是任何人、任何時間、任何地點都可以獲取任何知識。這個理念在今天已經基本實現了。
在這個過程中大數據的概念剛好出現。我們在研究圖書館技術時就發現大數據技術非常有用,就同時也做了一些研究。大數據智能恰恰就是新一代人工智能的核心之一。
現在,如果把所有書放到人工智能模型中進行訓練,模型就掌握了所有書里的知識,可以進行推理。你問它任何問題它都能回答。所以數字圖書館未來一定會走向基于大語言模型的智慧圖書館,這是必然的趨勢。
搜狐科技:目前的大數據還有哪些新的發展方向嗎?
莊越挺:比如GPT,它主要是完成從文本到文本的任務。但AIGC的內容遠遠不止這些,比如說以文生圖、以文生聲音,以文生視頻等等。這個概念實際上還可以進一步泛化,就是從 X 到 Y。即輸入是任意的媒體類型或組織,輸出也是任意的媒體類型及組合。比如輸入是圖像,輸出是文本;輸入是文本,輸出是聲音。各種各樣都有。這是多模態的大模型,突破點就在這里。但顯然,這塊還沒有達到我們完全滿意的地步,還有很多工作要做。
搜狐科技:主要的技術難點在哪里?
莊越挺:這個問題需要一步一步來分析。文本生成的后訓練中我們可以給AI加入一種思維方式,比如現在的“思維鏈”方法。通過強化學習對思維鏈進行訓練后,可以產生很好的效果。但是對于圖像生成這一類的任務,目前還沒有辦法將思維鏈這種方式應用到圖像推理中。因此,圖像生成更多依賴于擴散模型學習,底層思路和文本生成有所不同。
從人類思考方式的角度來看,我們的大腦在想到某個事物時會有一個推理過程。但目前的技術,無論是文本還是圖像生成,都只是基于概率的采樣,而沒有真正的推理過程。也就是說,文本中使用的思維方式目前還無法應用到多模態的生成中,在這方面仍然存在局限性。
搜狐科技:您預計我們需要多長時間才能攻克這個難題?
莊越挺:系統每天都在進步,沒有一個明確的“攻克”時間點。它不像某一個數學難題,一旦解出來了就是徹底解決了。AIGC的任何方面都是每天都在進步,今天比昨天好,昨天比前天好。我認為當它達到某個足夠好的階段,能夠滿足大家的需求時,就可以認為是“攻克”了。
浙大是怎么培養出梁文鋒們的?
搜狐科技:今年以deepseek為代表的“杭州六小龍”很火。有人說杭州是新的硅谷,其中浙大系的創業者占了很大比重。您覺得這是不是和浙大的基因有關?
莊越挺:有人統計過,在杭州創業公司的CTO中有相當大比例是浙大的校友。像杭州城西這一帶創新氛圍很好,有幾個因素:一個是浙大系,一個是阿里系,還有一個是海歸系。海歸也發揮了很重要的作用,帶來了很多新的想法。
搜狐科技:北京、上海也有大企業、好高校,還有更多的海歸,為什么是浙江?為什么是杭州?是不是浙大有什么特別的校友基因?
莊越挺:這種校友的基因一定是有的。每個大學都有自己的氛圍和習慣,比如清北的人有清北的基因,同樣,浙大人有浙大的基因。浙大的校訓是求是創新,浙大人很踏實。以前很多浙大校友在國家重要單位做總工程師,技術扎實。我覺得這種基因是有的。
我沒有深入研究過校友創業,但最近浙大校友的確在創新創業上表現得特別出色。整個杭州也很開放,尤其是城西科技城,政府對企業非常支持,對人才也很寬容。我覺得這些支持因素起了很大的作用。我也經常參與一些人才項目評審,確實能感受到杭州對創業和人才的重視程度。
搜狐科技:您作為吳文俊人工智能科學技術獎勵委員會秘書長,在評選項目的時候,以及平常帶學生的時候,是更看重項目的落地能力,還是更看重創新能力?
莊越挺:作為高校工作人員,我們一方面肯定要注重理論研究。對于AI的研究,肯定不僅僅是工程師行為,不是單純地調參數調算法、達到最優結果。理論研究需要有一些創新的想法,這是科研的基礎。
另一方面,這些想法也不能完全脫離實際,不能搞一些不著邊際的研究。理論必須聯系實際,即我們常說的,既要“頂天”,也要“立地”。我們現在強調的是結合應用的創新,比如解決醫療問題,像醫學圖像識別,幫助篩選疾病、癌癥等。這不僅是解決實際問題,還隱含著理論上的突破。
我非常反對單純以論文為導向的模式——寫完一篇論文就認為任務完成了,這種從論文到論文的做法我很反對。特別是現在大模型方向的研究,論文中提到的一些內容是需要在實踐中驗證的,實踐需要能夠支持你的研究,這樣才能支撐你的研究走得更遠。論文要寫在祖國的大地上。
搜狐科技:您覺得AI發展會導致失業嗎?
莊越挺:技術進步只是改變了一些行業,而不是消滅它們。就像蒸汽機的出現取代了馬車和馬夫,電力的出現取代了蒸汽機,當時很多人因為汽車的出現而不得不適應新的變化。
同樣,計算機的出現也改變了某些行業。我認為那些能夠將人工智能作為工具并善于使用它的人會更有優勢。就像電子詞典的出現,人們不再需要翻紙質詞典,因為電子詞典速度更快,效率更高。人工智能系統也是如此,它們可以在短時間內解決問題,為什么還要依賴人工呢?這樣節省下來的時間可以用來做更有價值的事情。
搜狐科技:那這么說那您其實是技術樂觀主義者了?
莊越挺:是的,我是樂觀的。
搜狐科技:您現在在關注什么AI問題?
莊越挺: 我現在在做大小模型協同、跨媒體智能等方向的研究。
搜狐科技:小模型現在用得不多了。
莊越挺:不完全是這樣。應該說對小模型的關注少了。大模型確實很好,像Open AI、DeepSeek的那些大模型都很出色。但大模型用來解決一些小問題時,有時就像是殺雞用牛刀。因為大模型的使用成本很高,所以有時候我們應該廣泛使用小模型。比如你問AI“請你介紹一下北京的人文歷史”,這樣的問題用小模型就可以解決。北京的歷史文化都是標準的、教科書上會提到的內容。這種情況下,使用大模型就是白花錢。
很多小模型非常實用,尤其是那些用于視覺和多媒體的模型。現在網上已經積累了大量開源的小模型,比如Hugging Face,以及國內的魔塔社區。我們的想法是讓大模型和小模型協同工作,用最少的成本達到最好的效果。
運營編輯 |曹倩審核|孟莎莎
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.