出品 | 網(wǎng)易科技態(tài)度AGI欄目
作者 | 袁寧
編輯 | 丁廣勝
如果說(shuō)大語(yǔ)言模型是語(yǔ)言的造夢(mèng)人,那 AI for Science 更像是現(xiàn)實(shí)世界的建構(gòu)者。
前者讓 AI 能寫詩(shī)、畫圖、編程,但它畢竟只活在數(shù)字世界里;后者卻試圖讓 AI 學(xué)會(huì)物理定律、化學(xué)反應(yīng)、分子結(jié)構(gòu)——它想讓 AI 理解世界是如何運(yùn)轉(zhuǎn)的,并親自參與其中。
“你讓大語(yǔ)言模型生成一個(gè)圖片,它可能會(huì)畫出一只三條腿的貓;讓它理解一個(gè)瓶子摔到地上的反應(yīng),它卻分不清是摔碎還是彈起來(lái)。這是因?yàn)樗欢锢硪?guī)律,AI for Science 試圖補(bǔ)足的正是這部分?!?/p>
深勢(shì)科技合伙人、AI算法負(fù)責(zé)人柯國(guó)霖告訴《網(wǎng)易科技態(tài)度 AGI》。在他看來(lái),想要真正實(shí)現(xiàn)AGI,必然要走出數(shù)字世界,理解物理世界,那 AI for Science 是必不可少的道路。
2024年 GTC 大會(huì)上,黃仁勛提到 AI 領(lǐng)域的三個(gè)關(guān)鍵方向:大語(yǔ)言模型、具身智能,以及AI for Science。
相比前兩者的熱度,AI for Science 或許聽上去冷門得多。但實(shí)際上,它正悄然成為全球科學(xué)界的戰(zhàn)略高地。
一個(gè)直觀的例子是,過(guò)去一個(gè)訓(xùn)練成熟的博士研究生在整個(gè)課業(yè)生涯,利用冷凍電鏡等昂貴的科學(xué)儀器,可能也只能解出幾個(gè)蛋白質(zhì)的結(jié)果。而 Google DeepMind 團(tuán)隊(duì)提出的 AlphaFold 算法,可以在GPU上快速預(yù)測(cè)一個(gè)新蛋白的結(jié)構(gòu)。
2024年諾貝爾化學(xué)獎(jiǎng)?lì)C給 AlphaFold 和 AI 蛋白質(zhì)設(shè)計(jì)團(tuán)隊(duì),也標(biāo)志著 AI 不再是實(shí)驗(yàn)室里的邊角角色,而是站到了科學(xué)發(fā)現(xiàn)的中央。“解放的是科學(xué)家的重復(fù)勞動(dòng),他們可以把時(shí)間投入到更核心的科研問(wèn)題上去?!笨聡?guó)霖表示。
在這場(chǎng)范式轉(zhuǎn)移中,深勢(shì)科技走在前列,是中國(guó) AI for Science 領(lǐng)域的代表性公司之一。
深勢(shì)宇知大模型矩陣
這家成立于2018年的公司,構(gòu)建了一套完整的 AI for Science 科學(xué)大模型體系“深勢(shì)宇知”,并以“微尺度工業(yè)設(shè)計(jì)與仿真”為切口,開發(fā)了自動(dòng)化設(shè)計(jì)系統(tǒng),打通了分子模擬、蛋白結(jié)構(gòu)預(yù)測(cè)、藥物篩選、材料計(jì)算等鏈條,還在此基礎(chǔ)上開發(fā)了科研平臺(tái)“玻爾?科研空間站”,構(gòu)建了一整套微尺度工業(yè)基礎(chǔ)設(shè)施。
作為深勢(shì)科技的技術(shù)合伙人,柯國(guó)霖曾在微軟亞洲研究院工作多年,論文被引用超過(guò)22,000次,他開發(fā)了知名的機(jī)器學(xué)習(xí)工具LightGBM,并連續(xù)多年入選全球前2% 頂尖科學(xué)家榜單。今年3月底,他和合作者發(fā)布了首個(gè)通過(guò)自回歸預(yù)測(cè)下一 token 的模式,將3D 結(jié)構(gòu)的生成與理解統(tǒng)一起來(lái)的框架 Uni-3DAR。
在與網(wǎng)易科技的對(duì)談中,柯國(guó)霖對(duì)AI能做到什么、還做不到什么,有著克制而冷靜的判斷。他說(shuō):“如果去暢想很久的未來(lái),不考慮任何限制的話,那AI必然是可以實(shí)現(xiàn)一切。但更關(guān)鍵的是它在中短期會(huì)發(fā)展成什么樣子,我們?cè)谟猩昴芤姷降奈磥?lái)會(huì)是怎樣?!?/p>
整場(chǎng)談話涉及了以ChatGPT、Deepseek為代表的大語(yǔ)言模型與AI for Science的差異,AI for Science 領(lǐng)域正在做什么事情、深勢(shì)科技的方向選擇,AI for Science給科學(xué)界帶來(lái)的改變,以及未來(lái)科技的發(fā)展方向……
柯國(guó)霖表示:“對(duì)普通人來(lái)說(shuō),AI for Science 或許看起來(lái)還很遠(yuǎn),但其實(shí)很近。你日常生活用到各類產(chǎn)品,小到手機(jī)屏幕,大到汽車電池,背后其實(shí)都有AI for Science的功勞?!?/b>
這場(chǎng)對(duì)話讓網(wǎng)易科技態(tài)度AGI意識(shí)到,AI for Science 可能并不等于“在科學(xué)研究過(guò)程中使用一些 AI 技術(shù)”。在柯國(guó)霖理性又克制的回答中,我們看到了這個(gè)領(lǐng)域的真實(shí)狀態(tài)——它不依賴想象力驅(qū)動(dòng),而是在真實(shí)世界的摩擦中前行。
以下為深勢(shì)科技的合伙人、AI算法負(fù)責(zé)人柯國(guó)霖與《網(wǎng)易科技態(tài)度AGI》的交流,內(nèi)容經(jīng)不改變?cè)獾木庉嫛?/font>
今天的大語(yǔ)言模型,還是以數(shù)字世界為主
網(wǎng)易科技:AI for Science領(lǐng)域的大模型和我們熟悉的大模型有什么區(qū)別?
柯國(guó)霖:這個(gè)區(qū)別還是很明顯的,大語(yǔ)言模型是對(duì)人類智能的擬合,而AI for Science大模型是對(duì)物理客觀世界的建模。
人是自然界最聰明的物種,而語(yǔ)言是人類智能的體現(xiàn),大語(yǔ)言模型試圖通過(guò)語(yǔ)言來(lái)擬合人類智能。然而,雖然人類文明已經(jīng)高度發(fā)展,但對(duì)于我們生存的物理客觀世界,還存在著大量的未知。即便想把已知的規(guī)律應(yīng)用起來(lái),也需要復(fù)雜且耗時(shí)的計(jì)算模擬,難以用在實(shí)際場(chǎng)景。
AI for Science 大模型的核心就是要解決這個(gè)問(wèn)題,實(shí)現(xiàn)關(guān)于物理世界更精確也更高效的建模,以用于加速科學(xué)研究。
例如說(shuō),我們之前做的蛋白質(zhì)、分子動(dòng)力學(xué)、晶體材料等各類模型,本質(zhì)上都是在用機(jī)器學(xué)習(xí)模型來(lái)刻畫微觀原子尺度的物理規(guī)律。借助這些模型,我們可以加速新藥物或新材料的篩選與設(shè)計(jì),從而輔助科學(xué)研究。
我們常說(shuō)人與自然。這兩類模型也分別是對(duì)人和自然世界的模擬。它們是兩條不同的發(fā)展路徑,但也有很多人在嘗試將它們結(jié)合起來(lái)。
網(wǎng)易科技:觀察到我們發(fā)布Uni-3DAR之前已經(jīng)發(fā)布了近上百個(gè)模型,Uni-3DAR和深勢(shì)科技此前的模型有什么區(qū)別?為什么會(huì)做這么多模型?
柯國(guó)霖:我們過(guò)去確實(shí)做了很多不同的模型,主要原因是,科學(xué)研究本身已高度分工,它們使用的方法和手段也各不相同,即便在同個(gè)學(xué)科下的細(xì)分領(lǐng)域也可能差異很大。
我們剛開始做AI for Science的時(shí)候,首先還是聚焦于一些關(guān)鍵問(wèn)題和核心場(chǎng)景,根據(jù)它們的實(shí)際需求進(jìn)行建模。這時(shí)候場(chǎng)景可能不算多,主要還是蛋白還有小分子。但慢慢隨著我們深入,發(fā)現(xiàn)每個(gè)場(chǎng)景的差異挺大,需要自己的模型,但按這種大量小模型的思路去做是無(wú)窮無(wú)盡的。
因此,我們其實(shí)很早就把大模型的思路用起來(lái)了,我們?cè)?2年提出的Uni-Mol,也是第一個(gè)小分子領(lǐng)域的通用大模型,后面還有 DPA,Uni-RNA等等。它們都在一個(gè)相對(duì)比較大的范圍內(nèi),實(shí)現(xiàn)了數(shù)據(jù)和任務(wù)的統(tǒng)一。最近的Uni-3DAR,是我們野心更大的一個(gè)模型:我們能不能更進(jìn)一步,把所有三維結(jié)構(gòu),包括微觀和宏觀的,都統(tǒng)一到一個(gè)模型下?
網(wǎng)易科技:Uni-3DAR 有什么獨(dú)特性呢?它帶來(lái)的統(tǒng)一意味著什么?
柯國(guó)霖:Uni-3DAR 實(shí)現(xiàn)了幾個(gè)層面的統(tǒng)一。
首先是上面說(shuō)的跨尺度的三維結(jié)構(gòu)的統(tǒng)一,它不僅可以用在微觀的三維結(jié)構(gòu),如蛋白小分子晶體,還有宏觀的三維形狀等等。通過(guò)它我們可以建模所有的三維結(jié)構(gòu),而不需要每個(gè)數(shù)據(jù)類型專門開發(fā)一個(gè)新的模型。
然后是任務(wù)的統(tǒng)一。任務(wù)通常可以分為兩大類:生成任務(wù)和理解任務(wù)。
生成任務(wù)是根據(jù)已有數(shù)據(jù)的分布生成新數(shù)據(jù),比如圖像生成、文本生成等。在科研場(chǎng)景下,我們也需要生成新分子、新材料,例如給定一個(gè)蛋白質(zhì),生成一個(gè)可以與之結(jié)合的分子。
理解任務(wù)則是對(duì)已有數(shù)據(jù)進(jìn)行分析,比如分類或回歸。常見的例子包括圖像檢測(cè)或分割,或者預(yù)測(cè)某個(gè)分子的毒性、溶解度、吸收性等。
物理學(xué)家費(fèi)曼有個(gè)經(jīng)典名言:What I cannot create, I do not understand。這個(gè)名言很好闡釋了生成和理解統(tǒng)一的必要性。我們?cè)贏I領(lǐng)域確實(shí)也發(fā)現(xiàn)了這樣的現(xiàn)象:如果不把生成與理解統(tǒng)一建模,模型的scaling law會(huì)被限制。
我要講的這個(gè)例子,從業(yè)人員應(yīng)都很熟悉,就是關(guān)于BERT和GPT的歷史。
它們是語(yǔ)言模型的兩個(gè)流派:BERT以理解能力為主;GPT以生成能力為主。其實(shí)GPT-1比BERT還要更早出來(lái)一會(huì),但在那個(gè)時(shí)候,因?yàn)榇蠹叶几P(guān)注理解任務(wù),也更容易用客觀指標(biāo)來(lái)評(píng)價(jià)理解能力,所以BERT受到的關(guān)注要大很多,很多做大模型的都以BERT為主。
但是,當(dāng)我們嘗試擴(kuò)大模型參數(shù)(例如達(dá)到十億參數(shù))時(shí),BERT 的理解能力開始遇到瓶頸,沒(méi)有展示出很好的scaling law。而 GPT 雖然早期理解能力不如 BERT,但隨著模型規(guī)模的擴(kuò)大,它的理解能力也逐漸超過(guò)了 BERT,并具備極強(qiáng)的生成能力。后面的故事大家也知道了,ChatGPT這類生成式的方法成為了主流。
這也給了我們啟發(fā),我們的Uni-3DAR,也是以生成能力為主,將理解任務(wù)和生成任務(wù)統(tǒng)一到一個(gè)生成式建模的框架中。
網(wǎng)易科技:大語(yǔ)言模型發(fā)展中的技術(shù)路徑可以遷移到 AI for Science 領(lǐng)域的大模型中嗎?
柯國(guó)霖:嚴(yán)格來(lái)說(shuō),大語(yǔ)言模型的技術(shù)路徑并不能完全照搬過(guò)來(lái),因?yàn)樗鼈兲幚淼膶?duì)象差異較大,但其中很多思路是可以共通的,比如我們剛剛提到的理解與生成的統(tǒng)一。我接下來(lái)要說(shuō)的Uni-3DAR實(shí)現(xiàn)的第三個(gè)統(tǒng)一,多模態(tài)的統(tǒng)一,也是從大語(yǔ)言模型那邊得到的啟發(fā)。
我想說(shuō)的例子是最近的 GPT-4o ,大家也應(yīng)該都體驗(yàn)過(guò)了,它在圖像生成上的表現(xiàn)比過(guò)去強(qiáng)了很多。一個(gè)非常關(guān)鍵的進(jìn)步點(diǎn)在于:GPT-4o 將圖像與文本等模態(tài)真正統(tǒng)一到了同一個(gè)模型框架中。
在此之前,大語(yǔ)言模型只能處理文字信息,對(duì)于圖像或其他多模態(tài)數(shù)據(jù),需要額外的獨(dú)立模型來(lái)處理。
因此,當(dāng)你想要生成圖片的時(shí)候,大模型實(shí)際上把你的提示詞輸入給另外的模型,然后生成圖像;如果你想繼續(xù)修改這張圖,它會(huì)再過(guò)另外的模型,把圖像轉(zhuǎn)成文字,結(jié)合你的修改意圖,再調(diào)用其他模型重新生成一張圖像。
可以看到,這個(gè)過(guò)程中,所有的操作都需要通過(guò)文本來(lái)轉(zhuǎn)譯,很多圖像細(xì)節(jié)信息在轉(zhuǎn)換中丟失,最終生成的圖像就會(huì)出現(xiàn)明顯的不一致——比如你只是想修改一個(gè)細(xì)節(jié),結(jié)果模型卻重畫了一整張圖。
而 GPT-4o 的做法通過(guò)自回歸的形式,把圖像數(shù)據(jù)和文本數(shù)據(jù)直接輸入到同一個(gè)模型中,從而讓模型可以真正“看到”上下文中的原圖細(xì)節(jié),實(shí)現(xiàn)更連貫的生成。這種設(shè)計(jì)本質(zhì)上是對(duì)輸入格式的一種統(tǒng)一,充分發(fā)揮了自回歸模型的能力。
這是自回歸技術(shù)的強(qiáng)大之處:“統(tǒng)一”。前面我們講的是理解與生成的統(tǒng)一,而這里的核心是多模態(tài)的統(tǒng)一。GPT 系列已經(jīng)基本完成了對(duì)文本、圖像、音頻、及視頻的整合。
我們?cè)谧龅?Uni-3DAR,其實(shí)也是延續(xù)了這種思路:基于自回歸框架,去實(shí)現(xiàn)關(guān)于三維結(jié)構(gòu)的理解、生成,以及多模態(tài)的統(tǒng)一。這樣一來(lái),后續(xù)我們可以非常自然地支持用戶用文本描述輸入需求,甚至輸入其他模態(tài)的信息(比如圖像、分子結(jié)構(gòu)圖等),模型則可以基于這些輸入生成三維結(jié)構(gòu)、微觀物質(zhì),像是蛋白、小分子、晶體等等。
更進(jìn)一步,用戶還可以通過(guò)自然語(yǔ)言與這些結(jié)構(gòu)進(jìn)行交互與編輯。這種模型最終的目標(biāo),是成為一個(gè)能夠理解自然世界的大模型,并且可以和我們的科研模型體系真正融合在一起。
網(wǎng)易科技:你在X上寫道,世界是3D 的,物理定律都植根于3D 空間。如果我們想要一個(gè)世界模型,3D 結(jié)構(gòu)建模是必不可少的。這句話怎么理解?你們所做的工作,是否也是走向通用人工智能的重要路徑之一?
柯國(guó)霖:是的,我們?cè)谧鯝I for Science大模型,本質(zhì)上是對(duì)于物理世界的建模,這是實(shí)現(xiàn)通用人工智能的必要一步。
具體來(lái)說(shuō),要實(shí)現(xiàn)AGI,我認(rèn)為具備三大要素:身體、大腦和世界,并通過(guò)它們構(gòu)成一個(gè)完整的感知––決策––行動(dòng)––反饋閉環(huán)。大腦接收來(lái)自身體的多模態(tài)信息,進(jìn)行規(guī)劃和思考;身體承擔(dān)感知與執(zhí)行的雙重功能;世界則不斷以物理的因果規(guī)律回饋結(jié)果。正是這種閉環(huán),使得智能體在“感知–行動(dòng)–反饋–再感知”的循環(huán)中,持續(xù)修正、積累經(jīng)驗(yàn)。
人類智能的進(jìn)化與形成,主要也是因?yàn)檫@個(gè)反饋鏈路。最原始的單細(xì)胞生物就能感知周圍環(huán)境,趨利避害,以適應(yīng)生存需要。
現(xiàn)在最接近大腦的,或許是大語(yǔ)言模型,但它們還被限制在數(shù)字世界里。它們擅長(zhǎng)“文本對(duì)齊”——比如文本生成、對(duì)話、代碼編寫,能識(shí)別一些圖像和視頻信息,甚至可以調(diào)用一些計(jì)算工具。它們確實(shí)在這些任務(wù)上做得挺好,尤其類似寫代碼的能力。但你也容易發(fā)現(xiàn),它擅長(zhǎng)的這些事情都在數(shù)字世界里容易獲取反饋的。例如說(shuō)寫代碼,可以容易驗(yàn)證它的正確性和運(yùn)行效率。
如果我們想給大語(yǔ)言模型裝個(gè)身體,讓它真正在現(xiàn)實(shí)的物理世界里進(jìn)行探索和反饋的迭代,以實(shí)現(xiàn)更進(jìn)一步的智能。說(shuō)實(shí)話,即便我們假設(shè)“身體”的硬件水平?jīng)]問(wèn)題,想要實(shí)現(xiàn)這個(gè)目標(biāo)也還比較遠(yuǎn)。
核心的原因在于,物理世界反饋不僅慢,成本也高,無(wú)法像在數(shù)字世界里一樣快速閉環(huán)迭代。你可以想想,人類的進(jìn)化可是花了幾億年。
所以,我們就需要AI for Science了,通過(guò)它對(duì)于物理世界建模的能力,實(shí)現(xiàn)對(duì)于物理世界的模擬,提供一個(gè)可以快速反饋迭代的虛擬物理世界。這其實(shí)也就是大家經(jīng)常說(shuō)的“世界模型”。
如果我們能構(gòu)建出一個(gè)足夠真實(shí)、足夠高保真的世界模型,在其中運(yùn)行模擬的“智能體”,并讓它們學(xué)會(huì)感知環(huán)境、行動(dòng)反饋、理解物理規(guī)律,那它們就可以在模擬世界中快速完成學(xué)習(xí)與迭代。在這個(gè)基礎(chǔ)之上,再把所學(xué)遷移到真實(shí)世界,就像是“左腳踩右腳”一樣,一步步推動(dòng)模型能力從虛擬走向現(xiàn)實(shí)。
網(wǎng)易科技:也就是說(shuō),AI for Science可以更好地理解現(xiàn)實(shí)世界。雖然深勢(shì)現(xiàn)在聚焦的可能是生命科學(xué)和物質(zhì)科學(xué)這兩個(gè)相對(duì)微觀的領(lǐng)域,但如果未來(lái)繼續(xù)發(fā)展,也有可能擴(kuò)展到更宏觀的世界?
柯國(guó)霖:是的,本質(zhì)上來(lái)說(shuō),AI for Science就是一整套物理規(guī)律的集合。我們目前專注于微觀層面,主要是因?yàn)樗诂F(xiàn)階段具備更清晰的商業(yè)化路徑,比如新藥研發(fā)、新材料設(shè)計(jì)等。
但在更宏觀的方向,很多研究和應(yīng)用其實(shí)也在同步進(jìn)行,比如流體力學(xué)建模。像是設(shè)計(jì)汽車時(shí),就需要做風(fēng)阻模擬;再比如火箭發(fā)動(dòng)機(jī)的開發(fā),也依賴大量的仿真計(jì)算。這些都是三維仿真的典型應(yīng)用場(chǎng)景,也是很經(jīng)典的AI for Science的應(yīng)用場(chǎng)景。
除了科學(xué)工程領(lǐng)域,在更偏向娛樂(lè)或消費(fèi)技術(shù)的場(chǎng)景中,三維仿真同樣不可或缺。比如在動(dòng)畫制作、游戲開發(fā)中,需要大量的物理引擎來(lái)支撐真實(shí)感的表現(xiàn)。過(guò)去,這些物理規(guī)則大多是由工程師手動(dòng)編寫設(shè)定的,例如物體的運(yùn)動(dòng)方式、表面反應(yīng)參數(shù)等,依賴大量人工參與和調(diào)試。
而如果我們的世界模型能做到足夠精確和通用,那么這些設(shè)定就不再需要人工一條條寫規(guī)則,而是可以由模型自動(dòng)完成。這不僅提升效率,還能極大地拓展建模和交互的能力邊界。
深勢(shì)想做的是一個(gè)真正意義的一站式科研操作系統(tǒng)
網(wǎng)易科技:科學(xué)研究本質(zhì)上是探索科學(xué)規(guī)律,而作為企業(yè),我們還要考慮如何將這些研究成果的商業(yè)化應(yīng)用。所以我還想了解一下,深勢(shì)科技目前的客戶主要是哪幾類?
柯國(guó)霖:我們目前的客戶可以分成兩大類,B端和C端。B端用戶會(huì)有比較具體的場(chǎng)景和需求,我們會(huì)根據(jù)我們的產(chǎn)品和能力提供服務(wù)。C端用戶主要是直接從事科研工作的科學(xué)家群體。這里面包括泛科研人員,比如高校的學(xué)生、老師、教授,以及企業(yè)里的研究員。
我們現(xiàn)在主推的是“玻爾?科研空間站”服務(wù)平臺(tái),主要是面向C端用戶。
這個(gè)平臺(tái)的目標(biāo)是讓科研人員可以一站式完成一整套科研流程——比如閱讀論文、運(yùn)行計(jì)算模型、調(diào)用實(shí)驗(yàn)?zāi)K,甚至包括儀器設(shè)備及濕實(shí)驗(yàn)的平臺(tái),進(jìn)一步實(shí)現(xiàn)從理論到實(shí)踐的閉環(huán)。
這背后有兩個(gè)核心支撐。第一個(gè)是文獻(xiàn)數(shù)據(jù)庫(kù),我們目前已經(jīng)積累了非常龐大的論文資源,尤其是集中在自然科學(xué)方向。第二個(gè)是計(jì)算工具平臺(tái),可以通過(guò)智能體的方式,調(diào)用我們積累的大量Science領(lǐng)域的科學(xué)計(jì)算和AI模型的工具。
網(wǎng)易科技:提到「玻爾」,我有一個(gè)疑問(wèn),現(xiàn)在像ChatGPT、DeepSeek這樣的大語(yǔ)言模型現(xiàn)在不是也能直接搜論文嗎?
柯國(guó)霖:確實(shí),大模型在檢索和理解文本方面已經(jīng)做得很好,在多模態(tài)數(shù)據(jù)的理解和生成能力也在快速進(jìn)步,可以處理一些自然圖片、或簡(jiǎn)單的表格數(shù)據(jù)等等。但這里面存在一個(gè)明顯的“Gap”,特別是在科研場(chǎng)景下。
我們?cè)诳蒲兄谐R姷亩嗄B(tài)數(shù)據(jù)形式,跟自然圖像差異很大。比如:一個(gè)分子的結(jié)構(gòu)圖,一個(gè)化學(xué)反應(yīng)的反應(yīng)式,一張X射線衍射譜,或者某種材料的拉曼光譜圖等等。他們大多也以圖像來(lái)表示,但和我們?nèi)粘Ia(chǎn)拍攝的“自然圖像”差別很大。這些我們稱之為“科學(xué)多模態(tài)”數(shù)據(jù)。
因?yàn)楝F(xiàn)有工具也很難處理好這些科學(xué)多模態(tài)數(shù)據(jù),目前的大語(yǔ)言模型基本上也沒(méi)有把他們作為訓(xùn)練數(shù)據(jù),所以面對(duì)這些專業(yè)信息時(shí),往往無(wú)法正確解析或者根本無(wú)法識(shí)別。
這也是為什么現(xiàn)在的大模型在科學(xué)專業(yè)領(lǐng)域,特別是化學(xué)、生物等方向,只能提供泛泛的建議或靈感啟發(fā),比如一些研究思路或?qū)嶒?yàn)設(shè)想,但沒(méi)法輸出精確的信息,例如文獻(xiàn)里的化學(xué)反應(yīng)的具體產(chǎn)物和產(chǎn)率,或某個(gè)靶點(diǎn)的活性值等等。
而我們現(xiàn)在做的事情,尤其是在玻爾平臺(tái)上,核心就是解決這一類“科學(xué)多模態(tài)”的理解問(wèn)題。我們有專門的模型訓(xùn)練和優(yōu)化這個(gè)能力,真正讓AI能看懂這些科研多模態(tài)數(shù)據(jù),為科研人員提供專業(yè)、深入的支持。
網(wǎng)易科技:我了解深勢(shì)在B端也有大量合作客戶,我們和他們的合作模式是怎樣的?是通過(guò)平臺(tái)授權(quán),還是其他形式?
柯國(guó)霖:合作模式其實(shí)也比較靈活,用戶類型不同,合作形式也會(huì)不同。
一類是SaaS模式,企業(yè)可以直接在線使用我們的平臺(tái)功能,比如跑模型、查文獻(xiàn)、做計(jì)算等。
但還有一類企業(yè)對(duì)數(shù)據(jù)隱私非常敏感,不希望科研數(shù)據(jù)離開自己的內(nèi)網(wǎng)。這種情況下,我們會(huì)提供私有化部署,比如將平臺(tái)整體打包進(jìn)一臺(tái)一體機(jī),部署在他們的本地環(huán)境中,我們也無(wú)法訪問(wèn)他們的數(shù)據(jù)。
這種模式能滿足企業(yè)對(duì)數(shù)據(jù)安全的高要求,同時(shí)也確保他們可以用上我們完整的科研計(jì)算能力。
網(wǎng)易科技:兩種模式哪個(gè)會(huì)更多一些?
柯國(guó)霖:國(guó)內(nèi)客戶更多是私有化部署的形式。
網(wǎng)易科技:從技術(shù)層面來(lái)看,深勢(shì)科技下一步的重點(diǎn)方向會(huì)是什么?
柯國(guó)霖:我們更希望往統(tǒng)一的、通用的大模型方向走。比如說(shuō)我們前面說(shuō)的Uni-3DAR,目標(biāo)是統(tǒng)一物理世界里的三維結(jié)構(gòu)。然后對(duì)于科學(xué)文獻(xiàn)里面的多模態(tài)數(shù)據(jù),我們也在建設(shè)統(tǒng)一的多模態(tài)模型方案。
我們這兩個(gè)方向,也會(huì)和現(xiàn)在的大語(yǔ)言模型結(jié)合起來(lái),讓它以多模態(tài)統(tǒng)一的方式,更好理解客觀的物理世界,以及大量的科學(xué)文獻(xiàn)。
網(wǎng)易科技:如果只面對(duì)科研人員的話,這部分會(huì)是一個(gè)多大的市場(chǎng)規(guī)模?
柯國(guó)霖:這個(gè)具體要問(wèn)我們的商業(yè)化同事了。我可以提供一些數(shù)字,首先是科學(xué)家的群體,我們每年有個(gè)2%的科學(xué)家名單,它從發(fā)表過(guò)論文的學(xué)者里面,找出前2%,然后今年這個(gè)名單大概是20萬(wàn)人,也就是說(shuō),發(fā)表過(guò)論文的科學(xué)家有千萬(wàn)的規(guī)模。
如果我們?cè)侔褜W(xué)生和企業(yè)的研發(fā)人員算進(jìn)來(lái),那量級(jí)就更大了。隨著生活水平和教育水平的提高,做科研的人也會(huì)越來(lái)越多。也就是說(shuō),這會(huì)是一個(gè)存量很大,且還在持續(xù)增長(zhǎng)的市場(chǎng)。
此外,其實(shí)這個(gè)領(lǐng)域目前全球范圍內(nèi)參與者還不多。國(guó)外像DeepMind、薛定諤(Schr?dinger)等公司都相對(duì)垂直,主要集中在生物醫(yī)藥領(lǐng)域。而國(guó)內(nèi)在做AI for Science這條完整路徑的企業(yè)更是屈指可數(shù),大多也專注在垂直方向。像我們這樣以一站式科研平臺(tái)為主的公司屈指可數(shù)。
網(wǎng)易科技:而且這部分市場(chǎng)我理解應(yīng)該是一個(gè)全球性的機(jī)會(huì),因?yàn)槲锢硪?guī)律這類基礎(chǔ)科學(xué)的東西本身就是通用的。那么深勢(shì)和這些國(guó)外企業(yè)相比,差異化的優(yōu)勢(shì)或者說(shuō)獨(dú)特的價(jià)值體現(xiàn)在哪些方面?
柯國(guó)霖:是的,這確實(shí)是一個(gè)全球性的市場(chǎng),而且現(xiàn)在真正專門做這件事的公司其實(shí)非常少。我們和它們最大的不同,是我們的定位不在于去做某一個(gè)具體科研方向的突破,而是更像在搭建一個(gè)完整的平臺(tái),讓科研工作者能在一個(gè)統(tǒng)一的環(huán)境里,把科研流程跑通。
這個(gè)定位本身在業(yè)內(nèi)就非常稀缺?,F(xiàn)在市面上,可能有的公司專門做文獻(xiàn)閱讀,有的專門提供實(shí)驗(yàn)平臺(tái),有的只做計(jì)算模擬。但像我們這樣把這些環(huán)節(jié)整合到一個(gè)平臺(tái)里,讓用戶可以一站式完成科研全過(guò)程的,目前幾乎沒(méi)有。
我們的差異在于,我們不和每個(gè)垂直環(huán)節(jié)直接競(jìng)爭(zhēng),而是把這些工具和能力有機(jī)組合在一起,打通為一個(gè)完整的科研工作流。用戶只需要進(jìn)來(lái)一次,在我們平臺(tái)上就可以讀文獻(xiàn)、跑模擬、調(diào)模型,甚至做實(shí)驗(yàn)。
這樣做的好處就是,一方面提升效率,另一方面減少了用戶在多個(gè)平臺(tái)之間切換的成本。
從技術(shù)能力上講,我們的路徑也不是簡(jiǎn)單調(diào)用已有工具、拼湊服務(wù),而是很多能力都是自己一點(diǎn)點(diǎn)做出來(lái)的。
比如我們?cè)诳蒲蓄I(lǐng)域很關(guān)鍵的“科學(xué)多模態(tài)理解”上,其實(shí)是很早就開始投入的,這不只是看圖識(shí)字那么簡(jiǎn)單,它包括像化學(xué)分子的結(jié)構(gòu)圖、反應(yīng)路徑、各種復(fù)雜的譜圖等等,這些都是大模型默認(rèn)不會(huì)的數(shù)據(jù)格式。但我們從2023年就開始專門做這一塊,積累了大量標(biāo)注數(shù)據(jù),也建立起了比較深的技術(shù)護(hù)城河。
再加上我們?cè)缙谧龀龅囊恍┳匝心P?,在業(yè)內(nèi)已經(jīng)有一定的認(rèn)知度,很多用戶上來(lái)就可以直接用,非常方便。所以我們的優(yōu)勢(shì)不只是“功能多”,更在于這些能力是深度集成在一起的,而且是真正面向科研痛點(diǎn)來(lái)設(shè)計(jì)的。
你可以理解為,其他公司可能在做單點(diǎn)突破,而我們想做的是一個(gè)真正意義上的一站式科研操作系統(tǒng)。
網(wǎng)易科技:我們今年的一個(gè)重點(diǎn)是什么?
柯國(guó)霖:今年的話,我們還是希望能多拓展一些C端用戶。因?yàn)閷?duì)我們來(lái)說(shuō),這部分用戶除了是重要的使用群體之外,其實(shí)也構(gòu)成了一個(gè)非常寶貴的產(chǎn)品反饋機(jī)制。
你做產(chǎn)品,最怕的是沒(méi)人用、沒(méi)有反饋。但我們現(xiàn)在的情況是,每天首頁(yè)的提問(wèn)框都有幾萬(wàn)到十幾萬(wàn)個(gè)問(wèn)題涌進(jìn)來(lái),源源不斷。這個(gè)數(shù)據(jù)量不僅說(shuō)明了活躍度,也讓我們能快速捕捉用戶真實(shí)的科研需求,及時(shí)調(diào)整方向,迭代產(chǎn)品。
目前,我們的波爾平臺(tái)注冊(cè)用戶已經(jīng)突破了70萬(wàn)。對(duì)于一個(gè)偏科研的工具平臺(tái)來(lái)說(shuō),這個(gè)體量其實(shí)非常可觀了。
每天一睜眼就有幾萬(wàn)人在上面提科研相關(guān)的問(wèn)題、交流研究思路,這種活躍度,在整個(gè)科研產(chǎn)品領(lǐng)域其實(shí)是很少見的。我們也希望通過(guò)這種高頻的用戶互動(dòng),持續(xù)打磨出更貼合一線科研場(chǎng)景的功能,把這個(gè)平臺(tái)真正做成科研人員離不開的工作入口。
AI for Science落地后帶給普通人的是更直接的影響
網(wǎng)易科技:談到AI for Science,可能更多人理解是在科學(xué)研究過(guò)程中使用一些 AI 技術(shù),在你看來(lái)AI 對(duì)科研的改變,是如何體現(xiàn)出來(lái)的?
柯國(guó)霖:按我們現(xiàn)在在做的,可以分成兩個(gè)層面來(lái)看。
一方面,是提升科學(xué)家本身的研究效率。這也是我們玻爾平臺(tái)最核心要解決的問(wèn)題,比如說(shuō)讀文獻(xiàn)、跑計(jì)算、做實(shí)驗(yàn),全流程都可以在平臺(tái)上完成。剛剛前面也講了很多,我就不贅述了。
另一方面,其實(shí)更深層的是 AI 對(duì)科學(xué)規(guī)律本身的一種建模能力。科研分很多種,但我們現(xiàn)在關(guān)注的更多是“應(yīng)用型科研”,也就是那些真正能夠落地的,比如說(shuō)做出一個(gè)藥,最終可以真的被用在臨床上的那種。不是純理論推演,不是停留在紙面上的。
但現(xiàn)實(shí)是,即便科學(xué)理論已經(jīng)發(fā)展了這么多年,實(shí)際應(yīng)用科研其實(shí)還是非常依賴試錯(cuò)的。例如說(shuō)藥物研發(fā),雖然看著也有一些理論指導(dǎo),但真要做出來(lái)也需要大量的實(shí)驗(yàn)驗(yàn)證。此外,試出來(lái)有效的東西,我們也很難完全理解它為什么有效。副作用也好,機(jī)制也好,理解和解釋都是滯后的。
所以在這種模式下,我們現(xiàn)在的應(yīng)用科研流程其實(shí)特別像一個(gè)漏斗。從大量的可能性開始,一層層篩,越往后成本越高,準(zhǔn)確度也越高,但能試的數(shù)量就越少。比如說(shuō)你想測(cè)試一個(gè)新藥,傳統(tǒng)流程可能要一一合成、拿動(dòng)物做實(shí)驗(yàn),甚至進(jìn)入人體試驗(yàn),每一步都要花很大的錢和時(shí)間。所以為了節(jié)約成本,大家慢慢在前面加一些新的流程,比如說(shuō)用細(xì)胞實(shí)驗(yàn)、分子屬性檢測(cè),再往前的話,就類似用計(jì)算模擬的方法。
AI 在這里的作用,就是在這個(gè)漏斗的前半段慢慢切進(jìn)去,逐漸加速或替代原來(lái)的環(huán)節(jié)。因?yàn)樵娇拷┒非岸?,?shù)據(jù)越多,模型效果越好,AI起到的效果會(huì)越明顯。隨著數(shù)據(jù)積累,AI 的作用會(huì)逐步往后拓展,向更接近真實(shí)實(shí)驗(yàn)的環(huán)節(jié)靠近。
你像 AlphaFold 就是個(gè)很典型的例子,它成功的主要原因也是數(shù)據(jù)---用了大量科學(xué)家?guī)资攴e累的幾十萬(wàn)條蛋白實(shí)驗(yàn)數(shù)據(jù),才能把結(jié)構(gòu)預(yù)測(cè)做到幾乎接近實(shí)驗(yàn)精度。
但不是所有方向都像蛋白這樣,已經(jīng)積累了大量的數(shù)據(jù)。所以 AI 對(duì)應(yīng)用科研的加速不會(huì)是一蹴而就的,需要結(jié)合實(shí)際的情況,不斷地往前推進(jìn)。
網(wǎng)易科技:可以再舉一些更具體的例子嗎?
柯國(guó)霖:其實(shí)最典型的例子還是 AlphaFold。這個(gè)例子很多人應(yīng)該都聽過(guò),它背后的突破非常有代表性。
比如說(shuō)在 AlphaFold 出現(xiàn)之前,很多博士生其實(shí)都在做蛋白結(jié)構(gòu)解析的工作。這個(gè)過(guò)程非常復(fù)雜,首先要把蛋白質(zhì)先合出來(lái),然后還要做分離純化、結(jié)晶,整個(gè)過(guò)程非常耗時(shí)耗力,也有失敗的可能性。它需要的設(shè)備也比較昂貴,一臺(tái)冷凍電鏡設(shè)備動(dòng)輒上千萬(wàn)甚至上億。
在過(guò)去,一個(gè)訓(xùn)練成熟的博士研究生,要順利完成一次蛋白結(jié)構(gòu)的解析,快的也要一兩年,慢的甚至四五年。這還只是“解一個(gè)蛋白”的工作量。你想,一個(gè)博士讀下來(lái),可能就只能解出幾個(gè)蛋白結(jié)構(gòu)。
但 AlphaFold 出現(xiàn)之后,這種情況發(fā)生了質(zhì)變。AI 的泛化能力非常強(qiáng),它不是只幫你解決一個(gè)具體結(jié)構(gòu),而是可以推廣到所有蛋白結(jié)構(gòu)的建模。雖然對(duì)一些復(fù)雜結(jié)構(gòu)可能還是需要人來(lái)微調(diào),但絕大多數(shù)情況下,它已經(jīng)不需要人再逐個(gè)去從頭解析了。這是一個(gè)真正意義上的效率躍遷。
另一個(gè)例子來(lái)自我們自己平臺(tái)的實(shí)踐。比如說(shuō)我們平臺(tái)上支持的一種典型科研流程——藥物研發(fā)中的靶點(diǎn)調(diào)研。以前的做法是,研究員要先把靶點(diǎn)相關(guān)的所有藥物專利都整理出來(lái),然后一個(gè)個(gè)閱讀、篩選,從中提取出被專利過(guò)的分子結(jié)構(gòu)和它們對(duì)應(yīng)的活性屬性。這是非常耗時(shí)的過(guò)程,我們自己內(nèi)部的藥物研發(fā)團(tuán)隊(duì)也做過(guò),通常需要兩三個(gè)人全職做上一兩個(gè)月。
而現(xiàn)在,用我們波爾平臺(tái)的多模態(tài)文獻(xiàn)理解能力,這個(gè)過(guò)程幾乎可以完全自動(dòng)化。研究員只需要輸入靶點(diǎn)名稱,平臺(tái)就能自動(dòng)幫你收集所有相關(guān)文獻(xiàn),自動(dòng)提取里面藥物的分子信息和活性屬性,自動(dòng)整理成結(jié)構(gòu)化的數(shù)據(jù)表格,生成一個(gè)完整的數(shù)據(jù)庫(kù)。
而且這個(gè)過(guò)程不需要人工干預(yù)。等于說(shuō),我們通過(guò) AI,把原來(lái)需要兩三個(gè)人一兩個(gè)月做的事情,壓縮成了幾分鐘。這就是我們真正看到的一個(gè)落地的變化,解放的是科學(xué)家的重復(fù)勞動(dòng),他們可以把時(shí)間投入到更核心的科研問(wèn)題上去。
網(wǎng)易科技:當(dāng)AI進(jìn)入科學(xué)研究中,您覺(jué)得像科學(xué)家為代表的“人”和“技術(shù)”之間應(yīng)該是怎樣的一種關(guān)系?
柯國(guó)霖:我覺(jué)得可以這樣理解——我們現(xiàn)在用 AI,本質(zhì)上是希望它能幫我們解決問(wèn)題。但這個(gè)“解決問(wèn)題”的前提,是你已經(jīng)把問(wèn)題定義得比較清楚了。只要目標(biāo)明確,AI 的表現(xiàn)往往不錯(cuò),甚至可以不斷優(yōu)化,越做越好。
其實(shí)在科研里最難的,不是解決問(wèn)題,而是發(fā)現(xiàn)問(wèn)題。你得先知道“什么是一個(gè)好問(wèn)題”,哪些問(wèn)題值得做,哪些方向可能有價(jià)值。比如在藥物研發(fā)中,你要能判斷哪個(gè)靶點(diǎn)值得投入,這一步判斷本身,是一個(gè)高門檻的科研洞察。
而這一塊,AI 目前是很難勝任的。它可以幫你處理已有的問(wèn)題,但如果你指望它自己去“提出一個(gè)新問(wèn)題”,你會(huì)發(fā)現(xiàn)它往往是胡說(shuō)八道,缺乏邏輯或科學(xué)性。
所以我覺(jué)得,科學(xué)家的核心價(jià)值依然是在前端——提出假設(shè)、發(fā)現(xiàn)問(wèn)題的階段。而這并不是憑空臆想的過(guò)程。很多時(shí)候,我們是在真實(shí)世界的實(shí)踐中,通過(guò)實(shí)驗(yàn)、觀察,才意識(shí)到某些地方“有問(wèn)題”,或者結(jié)果和預(yù)期有差異,從而意識(shí)到這里可能存在一個(gè)“未知”。這些預(yù)期外的異常,才是科研創(chuàng)新的突破口。
但目前的大模型還是停留在數(shù)據(jù)層面,它理解的是已有數(shù)據(jù)的結(jié)構(gòu)和規(guī)律,卻沒(méi)法像人一樣,去和物理世界互動(dòng)、觀察異常、生成洞察。所以它很難真正發(fā)現(xiàn)新問(wèn)題。未來(lái)如果 AI 擁有了“身體”,能感知世界、行動(dòng)反饋,也許會(huì)改變這種局面,但至少現(xiàn)在,還差得遠(yuǎn)。
網(wǎng)易科技:在 AI for Science 的推動(dòng)下,未來(lái)科學(xué)會(huì)朝著什么方向發(fā)展?
柯國(guó)霖:做科學(xué),或者說(shuō)做科學(xué)的應(yīng)用,歸根結(jié)底就是為了找到一些真正有用的東西。那 AI 的加入,會(huì)讓這件事變得更高效、更系統(tǒng)。
如果去暢想很久的未來(lái),不考慮任何限制的話,那AI必然是可以實(shí)現(xiàn)一切,所以很長(zhǎng)遠(yuǎn)的假設(shè)沒(méi)太大意義。更關(guān)鍵的是它在中短期會(huì)發(fā)展成什么樣子,我們?cè)谟猩昴芤姷降奈磥?lái)會(huì)是怎樣。更具體來(lái)說(shuō),就是考慮現(xiàn)階段的數(shù)據(jù)、算力、硬件等客觀條件的限制,以及它們?cè)谥卸唐趦?nèi)的發(fā)展,我們能實(shí)現(xiàn)什么?
在這個(gè)限制下,我認(rèn)為可以實(shí)現(xiàn)的是AI for Science的自主智能體。 舉個(gè)例子,比如我們想要開發(fā)一種新材料,就在對(duì)話框里輸入一句話:“我想要一種又輕又隔熱的材料?!毕到y(tǒng)就開始自動(dòng)搜文獻(xiàn)、查數(shù)據(jù)庫(kù)、比對(duì)已有的研究成果。如果有類似的,它會(huì)直接給你合成;如果沒(méi)有,它就從零開始設(shè)計(jì),再進(jìn)入實(shí)驗(yàn)、驗(yàn)證,最后把結(jié)果反饋給你。
這個(gè)過(guò)程就像是你身邊有一個(gè)“全能科學(xué)家”——思路清晰、執(zhí)行力強(qiáng),而且很能卷,不睡覺(jué)不喊累。你只需要告訴它目標(biāo),它就能幫你實(shí)現(xiàn)。如果我們實(shí)現(xiàn)了這個(gè)目標(biāo),那我們就徹底改變了應(yīng)用科研的研發(fā)范式,它會(huì)大幅提高現(xiàn)在各類新物質(zhì)研發(fā)的效率,例如新藥研發(fā),新材料研發(fā)等等。
當(dāng)然,要實(shí)現(xiàn)這個(gè)也還沒(méi)那么簡(jiǎn)單,它需要智能體能夠在物理世界里做實(shí)驗(yàn),并獲取反饋。但這個(gè)目標(biāo)也沒(méi)那么遙遠(yuǎn),我們已經(jīng)在一些場(chǎng)景上驗(yàn)證了這個(gè)思路的可行性。這里最核心的瓶頸,還是在于跟物理世界進(jìn)行迭代反饋的效率和質(zhì)量,所以智能化的儀器表證,以及自動(dòng)化的實(shí)驗(yàn)設(shè)備,都是實(shí)現(xiàn)這個(gè)目標(biāo)的關(guān)鍵因素。
如果考慮更短期的未來(lái)的話,那就是我們玻爾所提供的平臺(tái)功能:更好的文獻(xiàn)理解以及科學(xué)工具的智能調(diào)用。這些功能已經(jīng)可以大幅提高科研人員的工作效率,把更多的時(shí)間用在更關(guān)鍵的環(huán)節(jié)上。
對(duì)普通人來(lái)說(shuō),AI for Science 或許看起來(lái)還很遠(yuǎn),但其實(shí)也很近。你日常生活用到各類產(chǎn)品,小到手機(jī)屏幕,大到汽車電池,背后其實(shí)都有AI for Science的功勞。它的快速進(jìn)步也會(huì)給我們的生活水平和技術(shù)發(fā)展持續(xù)帶來(lái)切切實(shí)實(shí)的影響。
值得注意的是,在柯國(guó)霖接受采訪后不久,國(guó)際科學(xué)智能聯(lián)盟在北京成立,該聯(lián)盟由北京大學(xué)、上海交通大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、北京科學(xué)智能研究院等50余家頂尖高校、科研院所及行業(yè)領(lǐng)軍企業(yè)共同發(fā)起,旨在通過(guò)人工智能技術(shù)驅(qū)動(dòng)科研范式變革,加速科學(xué)發(fā)現(xiàn)與產(chǎn)業(yè)轉(zhuǎn)化協(xié)同發(fā)展,正式開啟“大科研時(shí)代”新篇章。
而在昨天,5月21日,由北京科學(xué)智能研究院與深勢(shì)科技聯(lián)合打造的AI科研平臺(tái)“Science Navigator(科學(xué)導(dǎo)航)”,也在北京大學(xué)正式上線。
該平臺(tái)是全球首個(gè)覆蓋“讀文獻(xiàn)-做計(jì)算-做實(shí)驗(yàn)-多學(xué)科協(xié)同”全流程的AI科研系統(tǒng),后續(xù)也將服務(wù)更多院校的科研體系,為高??蒲腥藛T探索學(xué)術(shù)前沿提供技術(shù)支撐。