99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

對話深勢科技柯國霖:AI for Science是實現(xiàn)AGI的必經(jīng)之路

0
分享至

對話深勢科技柯國霖:AI for Science是實現(xiàn)AGI的必經(jīng)之路

出品 | 網(wǎng)易科技態(tài)度AGI欄目

作者 | 袁寧

編輯 | 丁廣勝

如果說大語言模型是語言的造夢人,那 AI for Science 更像是現(xiàn)實世界的建構(gòu)者。

前者讓 AI 能寫詩、畫圖、編程,但它畢竟只活在數(shù)字世界里;后者卻試圖讓 AI 學會物理定律、化學反應(yīng)、分子結(jié)構(gòu)——它想讓 AI 理解世界是如何運轉(zhuǎn)的,并親自參與其中。

“你讓大語言模型生成一個圖片,它可能會畫出一只三條腿的貓;讓它理解一個瓶子摔到地上的反應(yīng),它卻分不清是摔碎還是彈起來。這是因為它不懂物理規(guī)律,AI for Science 試圖補足的正是這部分。”

深勢科技合伙人、AI算法負責人柯國霖告訴《網(wǎng)易科技態(tài)度 AGI》。在他看來,想要真正實現(xiàn)AGI,必然要走出數(shù)字世界,理解物理世界,那 AI for Science 是必不可少的道路。

2024年 GTC 大會上,黃仁勛提到 AI 領(lǐng)域的三個關(guān)鍵方向:大語言模型、具身智能,以及AI for Science。

相比前兩者的熱度,AI for Science 或許聽上去冷門得多。但實際上,它正悄然成為全球科學界的戰(zhàn)略高地。

一個直觀的例子是,過去一個訓練成熟的博士研究生在整個課業(yè)生涯,利用冷凍電鏡等昂貴的科學儀器,可能也只能解出幾個蛋白質(zhì)的結(jié)果。而 Google DeepMind 團隊提出的 AlphaFold 算法,可以在GPU上快速預測一個新蛋白的結(jié)構(gòu)。

2024年諾貝爾化學獎頒給 AlphaFold 和 AI 蛋白質(zhì)設(shè)計團隊,也標志著 AI 不再是實驗室里的邊角角色,而是站到了科學發(fā)現(xiàn)的中央。“解放的是科學家的重復勞動,他們可以把時間投入到更核心的科研問題上去。”柯國霖表示。

在這場范式轉(zhuǎn)移中,深勢科技走在前列,是中國 AI for Science 領(lǐng)域的代表性公司之一。

對話深勢科技柯國霖:AI for Science是實現(xiàn)AGI的必經(jīng)之路
深勢宇知大模型矩陣

這家成立于2018年的公司,構(gòu)建了一套完整的 AI for Science 科學大模型體系“深勢宇知”,并以“微尺度工業(yè)設(shè)計與仿真”為切口,開發(fā)了自動化設(shè)計系統(tǒng),打通了分子模擬、蛋白結(jié)構(gòu)預測、藥物篩選、材料計算等鏈條,還在此基礎(chǔ)上開發(fā)了科研平臺“玻爾?科研空間站”,構(gòu)建了一整套微尺度工業(yè)基礎(chǔ)設(shè)施。

作為深勢科技的技術(shù)合伙人,柯國霖曾在微軟亞洲研究院工作多年,論文被引用超過22,000次,他開發(fā)了知名的機器學習工具LightGBM,并連續(xù)多年入選全球前2% 頂尖科學家榜單。今年3月底,他和合作者發(fā)布了首個通過自回歸預測下一 token 的模式,將3D 結(jié)構(gòu)的生成與理解統(tǒng)一起來的框架 Uni-3DAR。

在與網(wǎng)易科技的對談中,柯國霖對AI能做到什么、還做不到什么,有著克制而冷靜的判斷。他說:“如果去暢想很久的未來,不考慮任何限制的話,那AI必然是可以實現(xiàn)一切。但更關(guān)鍵的是它在中短期會發(fā)展成什么樣子,我們在有生之年能見到的未來會是怎樣。”

整場談話涉及了以ChatGPT、Deepseek為代表的大語言模型與AI for Science的差異,AI for Science 領(lǐng)域正在做什么事情、深勢科技的方向選擇,AI for Science給科學界帶來的改變,以及未來科技的發(fā)展方向……

柯國霖表示:“對普通人來說,AI for Science 或許看起來還很遠,但其實很近。你日常生活用到各類產(chǎn)品,小到手機屏幕,大到汽車電池,背后其實都有AI for Science的功勞。”

這場對話讓網(wǎng)易科技態(tài)度AGI意識到,AI for Science 可能并不等于“在科學研究過程中使用一些 AI 技術(shù)”。在柯國霖理性又克制的回答中,我們看到了這個領(lǐng)域的真實狀態(tài)——它不依賴想象力驅(qū)動,而是在真實世界的摩擦中前行。

以下為深勢科技的合伙人、AI算法負責人柯國霖與《網(wǎng)易科技態(tài)度AGI》的交流,內(nèi)容經(jīng)不改變原意的編輯。

今天的大語言模型,還是以數(shù)字世界為主

網(wǎng)易科技:AI for Science領(lǐng)域的大模型和我們熟悉的大模型有什么區(qū)別?

柯國霖:這個區(qū)別還是很明顯的,大語言模型是對人類智能的擬合,而AI for Science大模型是對物理客觀世界的建模。

人是自然界最聰明的物種,而語言是人類智能的體現(xiàn),大語言模型試圖通過語言來擬合人類智能。然而,雖然人類文明已經(jīng)高度發(fā)展,但對于我們生存的物理客觀世界,還存在著大量的未知。即便想把已知的規(guī)律應(yīng)用起來,也需要復雜且耗時的計算模擬,難以用在實際場景。

AI for Science 大模型的核心就是要解決這個問題,實現(xiàn)關(guān)于物理世界更精確也更高效的建模,以用于加速科學研究。

例如說,我們之前做的蛋白質(zhì)、分子動力學、晶體材料等各類模型,本質(zhì)上都是在用機器學習模型來刻畫微觀原子尺度的物理規(guī)律。借助這些模型,我們可以加速新藥物或新材料的篩選與設(shè)計,從而輔助科學研究。

我們常說人與自然。這兩類模型也分別是對人和自然世界的模擬。它們是兩條不同的發(fā)展路徑,但也有很多人在嘗試將它們結(jié)合起來。

網(wǎng)易科技:觀察到我們發(fā)布Uni-3DAR之前已經(jīng)發(fā)布了近上百個模型,Uni-3DAR和深勢科技此前的模型有什么區(qū)別?為什么會做這么多模型?

柯國霖:我們過去確實做了很多不同的模型,主要原因是,科學研究本身已高度分工,它們使用的方法和手段也各不相同,即便在同個學科下的細分領(lǐng)域也可能差異很大。

我們剛開始做AI for Science的時候,首先還是聚焦于一些關(guān)鍵問題和核心場景,根據(jù)它們的實際需求進行建模。這時候場景可能不算多,主要還是蛋白還有小分子。但慢慢隨著我們深入,發(fā)現(xiàn)每個場景的差異挺大,需要自己的模型,但按這種大量小模型的思路去做是無窮無盡的。

因此,我們其實很早就把大模型的思路用起來了,我們在22年提出的Uni-Mol,也是第一個小分子領(lǐng)域的通用大模型,后面還有 DPA,Uni-RNA等等。它們都在一個相對比較大的范圍內(nèi),實現(xiàn)了數(shù)據(jù)和任務(wù)的統(tǒng)一。最近的Uni-3DAR,是我們野心更大的一個模型:我們能不能更進一步,把所有三維結(jié)構(gòu),包括微觀和宏觀的,都統(tǒng)一到一個模型下?

網(wǎng)易科技:Uni-3DAR 有什么獨特性呢?它帶來的統(tǒng)一意味著什么?

柯國霖:Uni-3DAR 實現(xiàn)了幾個層面的統(tǒng)一。

首先是上面說的跨尺度的三維結(jié)構(gòu)的統(tǒng)一,它不僅可以用在微觀的三維結(jié)構(gòu),如蛋白小分子晶體,還有宏觀的三維形狀等等。通過它我們可以建模所有的三維結(jié)構(gòu),而不需要每個數(shù)據(jù)類型專門開發(fā)一個新的模型。

然后是任務(wù)的統(tǒng)一。任務(wù)通常可以分為兩大類:生成任務(wù)和理解任務(wù)。

生成任務(wù)是根據(jù)已有數(shù)據(jù)的分布生成新數(shù)據(jù),比如圖像生成、文本生成等。在科研場景下,我們也需要生成新分子、新材料,例如給定一個蛋白質(zhì),生成一個可以與之結(jié)合的分子。

理解任務(wù)則是對已有數(shù)據(jù)進行分析,比如分類或回歸。常見的例子包括圖像檢測或分割,或者預測某個分子的毒性、溶解度、吸收性等。

物理學家費曼有個經(jīng)典名言:What I cannot create, I do not understand。這個名言很好闡釋了生成和理解統(tǒng)一的必要性。我們在AI領(lǐng)域確實也發(fā)現(xiàn)了這樣的現(xiàn)象:如果不把生成與理解統(tǒng)一建模,模型的scaling law會被限制。

我要講的這個例子,從業(yè)人員應(yīng)都很熟悉,就是關(guān)于BERT和GPT的歷史。

它們是語言模型的兩個流派:BERT以理解能力為主;GPT以生成能力為主。其實GPT-1比BERT還要更早出來一會,但在那個時候,因為大家都更關(guān)注理解任務(wù),也更容易用客觀指標來評價理解能力,所以BERT受到的關(guān)注要大很多,很多做大模型的都以BERT為主。

但是,當我們嘗試擴大模型參數(shù)(例如達到十億參數(shù))時,BERT 的理解能力開始遇到瓶頸,沒有展示出很好的scaling law。而 GPT 雖然早期理解能力不如 BERT,但隨著模型規(guī)模的擴大,它的理解能力也逐漸超過了 BERT,并具備極強的生成能力。后面的故事大家也知道了,ChatGPT這類生成式的方法成為了主流。

這也給了我們啟發(fā),我們的Uni-3DAR,也是以生成能力為主,將理解任務(wù)和生成任務(wù)統(tǒng)一到一個生成式建模的框架中。

網(wǎng)易科技:大語言模型發(fā)展中的技術(shù)路徑可以遷移到 AI for Science 領(lǐng)域的大模型中嗎?

柯國霖:嚴格來說,大語言模型的技術(shù)路徑并不能完全照搬過來,因為它們處理的對象差異較大,但其中很多思路是可以共通的,比如我們剛剛提到的理解與生成的統(tǒng)一。我接下來要說的Uni-3DAR實現(xiàn)的第三個統(tǒng)一,多模態(tài)的統(tǒng)一,也是從大語言模型那邊得到的啟發(fā)。

我想說的例子是最近的 GPT-4o ,大家也應(yīng)該都體驗過了,它在圖像生成上的表現(xiàn)比過去強了很多。一個非常關(guān)鍵的進步點在于:GPT-4o 將圖像與文本等模態(tài)真正統(tǒng)一到了同一個模型框架中。

在此之前,大語言模型只能處理文字信息,對于圖像或其他多模態(tài)數(shù)據(jù),需要額外的獨立模型來處理。

因此,當你想要生成圖片的時候,大模型實際上把你的提示詞輸入給另外的模型,然后生成圖像;如果你想繼續(xù)修改這張圖,它會再過另外的模型,把圖像轉(zhuǎn)成文字,結(jié)合你的修改意圖,再調(diào)用其他模型重新生成一張圖像。

可以看到,這個過程中,所有的操作都需要通過文本來轉(zhuǎn)譯,很多圖像細節(jié)信息在轉(zhuǎn)換中丟失,最終生成的圖像就會出現(xiàn)明顯的不一致——比如你只是想修改一個細節(jié),結(jié)果模型卻重畫了一整張圖。

而 GPT-4o 的做法通過自回歸的形式,把圖像數(shù)據(jù)和文本數(shù)據(jù)直接輸入到同一個模型中,從而讓模型可以真正“看到”上下文中的原圖細節(jié),實現(xiàn)更連貫的生成。這種設(shè)計本質(zhì)上是對輸入格式的一種統(tǒng)一,充分發(fā)揮了自回歸模型的能力。

這是自回歸技術(shù)的強大之處:“統(tǒng)一”。前面我們講的是理解與生成的統(tǒng)一,而這里的核心是多模態(tài)的統(tǒng)一。GPT 系列已經(jīng)基本完成了對文本、圖像、音頻、及視頻的整合。

我們在做的 Uni-3DAR,其實也是延續(xù)了這種思路:基于自回歸框架,去實現(xiàn)關(guān)于三維結(jié)構(gòu)的理解、生成,以及多模態(tài)的統(tǒng)一。這樣一來,后續(xù)我們可以非常自然地支持用戶用文本描述輸入需求,甚至輸入其他模態(tài)的信息(比如圖像、分子結(jié)構(gòu)圖等),模型則可以基于這些輸入生成三維結(jié)構(gòu)、微觀物質(zhì),像是蛋白、小分子、晶體等等。

更進一步,用戶還可以通過自然語言與這些結(jié)構(gòu)進行交互與編輯。這種模型最終的目標,是成為一個能夠理解自然世界的大模型,并且可以和我們的科研模型體系真正融合在一起。

網(wǎng)易科技:你在X上寫道,世界是3D 的,物理定律都植根于3D 空間。如果我們想要一個世界模型,3D 結(jié)構(gòu)建模是必不可少的。這句話怎么理解?你們所做的工作,是否也是走向通用人工智能的重要路徑之一?

柯國霖:是的,我們在做AI for Science大模型,本質(zhì)上是對于物理世界的建模,這是實現(xiàn)通用人工智能的必要一步。

具體來說,要實現(xiàn)AGI,我認為具備三大要素:身體、大腦和世界,并通過它們構(gòu)成一個完整的感知––決策––行動––反饋閉環(huán)。大腦接收來自身體的多模態(tài)信息,進行規(guī)劃和思考;身體承擔感知與執(zhí)行的雙重功能;世界則不斷以物理的因果規(guī)律回饋結(jié)果。正是這種閉環(huán),使得智能體在“感知–行動–反饋–再感知”的循環(huán)中,持續(xù)修正、積累經(jīng)驗。

人類智能的進化與形成,主要也是因為這個反饋鏈路。最原始的單細胞生物就能感知周圍環(huán)境,趨利避害,以適應(yīng)生存需要。

現(xiàn)在最接近大腦的,或許是大語言模型,但它們還被限制在數(shù)字世界里。它們擅長“文本對齊”——比如文本生成、對話、代碼編寫,能識別一些圖像和視頻信息,甚至可以調(diào)用一些計算工具。它們確實在這些任務(wù)上做得挺好,尤其類似寫代碼的能力。但你也容易發(fā)現(xiàn),它擅長的這些事情都在數(shù)字世界里容易獲取反饋的。例如說寫代碼,可以容易驗證它的正確性和運行效率。

如果我們想給大語言模型裝個身體,讓它真正在現(xiàn)實的物理世界里進行探索和反饋的迭代,以實現(xiàn)更進一步的智能。說實話,即便我們假設(shè)“身體”的硬件水平?jīng)]問題,想要實現(xiàn)這個目標也還比較遠。

核心的原因在于,物理世界反饋不僅慢,成本也高,無法像在數(shù)字世界里一樣快速閉環(huán)迭代。你可以想想,人類的進化可是花了幾億年。

所以,我們就需要AI for Science了,通過它對于物理世界建模的能力,實現(xiàn)對于物理世界的模擬,提供一個可以快速反饋迭代的虛擬物理世界。這其實也就是大家經(jīng)常說的“世界模型”。

如果我們能構(gòu)建出一個足夠真實、足夠高保真的世界模型,在其中運行模擬的“智能體”,并讓它們學會感知環(huán)境、行動反饋、理解物理規(guī)律,那它們就可以在模擬世界中快速完成學習與迭代。在這個基礎(chǔ)之上,再把所學遷移到真實世界,就像是“左腳踩右腳”一樣,一步步推動模型能力從虛擬走向現(xiàn)實。

網(wǎng)易科技:也就是說,AI for Science可以更好地理解現(xiàn)實世界。雖然深勢現(xiàn)在聚焦的可能是生命科學和物質(zhì)科學這兩個相對微觀的領(lǐng)域,但如果未來繼續(xù)發(fā)展,也有可能擴展到更宏觀的世界?

柯國霖:是的,本質(zhì)上來說,AI for Science就是一整套物理規(guī)律的集合。我們目前專注于微觀層面,主要是因為它在現(xiàn)階段具備更清晰的商業(yè)化路徑,比如新藥研發(fā)、新材料設(shè)計等。

但在更宏觀的方向,很多研究和應(yīng)用其實也在同步進行,比如流體力學建模。像是設(shè)計汽車時,就需要做風阻模擬;再比如火箭發(fā)動機的開發(fā),也依賴大量的仿真計算。這些都是三維仿真的典型應(yīng)用場景,也是很經(jīng)典的AI for Science的應(yīng)用場景。

除了科學工程領(lǐng)域,在更偏向娛樂或消費技術(shù)的場景中,三維仿真同樣不可或缺。比如在動畫制作、游戲開發(fā)中,需要大量的物理引擎來支撐真實感的表現(xiàn)。過去,這些物理規(guī)則大多是由工程師手動編寫設(shè)定的,例如物體的運動方式、表面反應(yīng)參數(shù)等,依賴大量人工參與和調(diào)試。

而如果我們的世界模型能做到足夠精確和通用,那么這些設(shè)定就不再需要人工一條條寫規(guī)則,而是可以由模型自動完成。這不僅提升效率,還能極大地拓展建模和交互的能力邊界。

深勢想做的是一個真正意義的一站式科研操作系統(tǒng)

網(wǎng)易科技:科學研究本質(zhì)上是探索科學規(guī)律,而作為企業(yè),我們還要考慮如何將這些研究成果的商業(yè)化應(yīng)用。所以我還想了解一下,深勢科技目前的客戶主要是哪幾類?

柯國霖:我們目前的客戶可以分成兩大類,B端和C端。B端用戶會有比較具體的場景和需求,我們會根據(jù)我們的產(chǎn)品和能力提供服務(wù)。C端用戶主要是直接從事科研工作的科學家群體。這里面包括泛科研人員,比如高校的學生、老師、教授,以及企業(yè)里的研究員。

我們現(xiàn)在主推的是“玻爾?科研空間站”服務(wù)平臺,主要是面向C端用戶。

這個平臺的目標是讓科研人員可以一站式完成一整套科研流程——比如閱讀論文、運行計算模型、調(diào)用實驗?zāi)K,甚至包括儀器設(shè)備及濕實驗的平臺,進一步實現(xiàn)從理論到實踐的閉環(huán)。

這背后有兩個核心支撐。第一個是文獻數(shù)據(jù)庫,我們目前已經(jīng)積累了非常龐大的論文資源,尤其是集中在自然科學方向。第二個是計算工具平臺,可以通過智能體的方式,調(diào)用我們積累的大量Science領(lǐng)域的科學計算和AI模型的工具。

網(wǎng)易科技:提到「玻爾」,我有一個疑問,現(xiàn)在像ChatGPT、DeepSeek這樣的大語言模型現(xiàn)在不是也能直接搜論文嗎?

柯國霖:確實,大模型在檢索和理解文本方面已經(jīng)做得很好,在多模態(tài)數(shù)據(jù)的理解和生成能力也在快速進步,可以處理一些自然圖片、或簡單的表格數(shù)據(jù)等等。但這里面存在一個明顯的“Gap”,特別是在科研場景下。

我們在科研中常見的多模態(tài)數(shù)據(jù)形式,跟自然圖像差異很大。比如:一個分子的結(jié)構(gòu)圖,一個化學反應(yīng)的反應(yīng)式,一張X射線衍射譜,或者某種材料的拉曼光譜圖等等。他們大多也以圖像來表示,但和我們?nèi)粘Ia(chǎn)拍攝的“自然圖像”差別很大。這些我們稱之為“科學多模態(tài)”數(shù)據(jù)。

因為現(xiàn)有工具也很難處理好這些科學多模態(tài)數(shù)據(jù),目前的大語言模型基本上也沒有把他們作為訓練數(shù)據(jù),所以面對這些專業(yè)信息時,往往無法正確解析或者根本無法識別。

這也是為什么現(xiàn)在的大模型在科學專業(yè)領(lǐng)域,特別是化學、生物等方向,只能提供泛泛的建議或靈感啟發(fā),比如一些研究思路或?qū)嶒炘O(shè)想,但沒法輸出精確的信息,例如文獻里的化學反應(yīng)的具體產(chǎn)物和產(chǎn)率,或某個靶點的活性值等等。

而我們現(xiàn)在做的事情,尤其是在玻爾平臺上,核心就是解決這一類“科學多模態(tài)”的理解問題。我們有專門的模型訓練和優(yōu)化這個能力,真正讓AI能看懂這些科研多模態(tài)數(shù)據(jù),為科研人員提供專業(yè)、深入的支持。

網(wǎng)易科技:我了解深勢在B端也有大量合作客戶,我們和他們的合作模式是怎樣的?是通過平臺授權(quán),還是其他形式?

柯國霖:合作模式其實也比較靈活,用戶類型不同,合作形式也會不同。

一類是SaaS模式,企業(yè)可以直接在線使用我們的平臺功能,比如跑模型、查文獻、做計算等。

但還有一類企業(yè)對數(shù)據(jù)隱私非常敏感,不希望科研數(shù)據(jù)離開自己的內(nèi)網(wǎng)。這種情況下,我們會提供私有化部署,比如將平臺整體打包進一臺一體機,部署在他們的本地環(huán)境中,我們也無法訪問他們的數(shù)據(jù)。

這種模式能滿足企業(yè)對數(shù)據(jù)安全的高要求,同時也確保他們可以用上我們完整的科研計算能力。

網(wǎng)易科技:兩種模式哪個會更多一些?

柯國霖:國內(nèi)客戶更多是私有化部署的形式。

網(wǎng)易科技:從技術(shù)層面來看,深勢科技下一步的重點方向會是什么?

柯國霖:我們更希望往統(tǒng)一的、通用的大模型方向走。比如說我們前面說的Uni-3DAR,目標是統(tǒng)一物理世界里的三維結(jié)構(gòu)。然后對于科學文獻里面的多模態(tài)數(shù)據(jù),我們也在建設(shè)統(tǒng)一的多模態(tài)模型方案。

我們這兩個方向,也會和現(xiàn)在的大語言模型結(jié)合起來,讓它以多模態(tài)統(tǒng)一的方式,更好理解客觀的物理世界,以及大量的科學文獻。

網(wǎng)易科技:如果只面對科研人員的話,這部分會是一個多大的市場規(guī)模?

柯國霖:這個具體要問我們的商業(yè)化同事了。我可以提供一些數(shù)字,首先是科學家的群體,我們每年有個2%的科學家名單,它從發(fā)表過論文的學者里面,找出前2%,然后今年這個名單大概是20萬人,也就是說,發(fā)表過論文的科學家有千萬的規(guī)模。

如果我們再把學生和企業(yè)的研發(fā)人員算進來,那量級就更大了。隨著生活水平和教育水平的提高,做科研的人也會越來越多。也就是說,這會是一個存量很大,且還在持續(xù)增長的市場。

此外,其實這個領(lǐng)域目前全球范圍內(nèi)參與者還不多。國外像DeepMind、薛定諤(Schr?dinger)等公司都相對垂直,主要集中在生物醫(yī)藥領(lǐng)域。而國內(nèi)在做AI for Science這條完整路徑的企業(yè)更是屈指可數(shù),大多也專注在垂直方向。像我們這樣以一站式科研平臺為主的公司屈指可數(shù)。

網(wǎng)易科技:而且這部分市場我理解應(yīng)該是一個全球性的機會,因為物理規(guī)律這類基礎(chǔ)科學的東西本身就是通用的。那么深勢和這些國外企業(yè)相比,差異化的優(yōu)勢或者說獨特的價值體現(xiàn)在哪些方面?

柯國霖:是的,這確實是一個全球性的市場,而且現(xiàn)在真正專門做這件事的公司其實非常少。我們和它們最大的不同,是我們的定位不在于去做某一個具體科研方向的突破,而是更像在搭建一個完整的平臺,讓科研工作者能在一個統(tǒng)一的環(huán)境里,把科研流程跑通。

這個定位本身在業(yè)內(nèi)就非常稀缺。現(xiàn)在市面上,可能有的公司專門做文獻閱讀,有的專門提供實驗平臺,有的只做計算模擬。但像我們這樣把這些環(huán)節(jié)整合到一個平臺里,讓用戶可以一站式完成科研全過程的,目前幾乎沒有。

我們的差異在于,我們不和每個垂直環(huán)節(jié)直接競爭,而是把這些工具和能力有機組合在一起,打通為一個完整的科研工作流。用戶只需要進來一次,在我們平臺上就可以讀文獻、跑模擬、調(diào)模型,甚至做實驗。

這樣做的好處就是,一方面提升效率,另一方面減少了用戶在多個平臺之間切換的成本。

從技術(shù)能力上講,我們的路徑也不是簡單調(diào)用已有工具、拼湊服務(wù),而是很多能力都是自己一點點做出來的。

比如我們在科研領(lǐng)域很關(guān)鍵的“科學多模態(tài)理解”上,其實是很早就開始投入的,這不只是看圖識字那么簡單,它包括像化學分子的結(jié)構(gòu)圖、反應(yīng)路徑、各種復雜的譜圖等等,這些都是大模型默認不會的數(shù)據(jù)格式。但我們從2023年就開始專門做這一塊,積累了大量標注數(shù)據(jù),也建立起了比較深的技術(shù)護城河。

再加上我們早期做出的一些自研模型,在業(yè)內(nèi)已經(jīng)有一定的認知度,很多用戶上來就可以直接用,非常方便。所以我們的優(yōu)勢不只是“功能多”,更在于這些能力是深度集成在一起的,而且是真正面向科研痛點來設(shè)計的。

你可以理解為,其他公司可能在做單點突破,而我們想做的是一個真正意義上的一站式科研操作系統(tǒng)。

網(wǎng)易科技:我們今年的一個重點是什么?

柯國霖:今年的話,我們還是希望能多拓展一些C端用戶。因為對我們來說,這部分用戶除了是重要的使用群體之外,其實也構(gòu)成了一個非常寶貴的產(chǎn)品反饋機制。

你做產(chǎn)品,最怕的是沒人用、沒有反饋。但我們現(xiàn)在的情況是,每天首頁的提問框都有幾萬到十幾萬個問題涌進來,源源不斷。這個數(shù)據(jù)量不僅說明了活躍度,也讓我們能快速捕捉用戶真實的科研需求,及時調(diào)整方向,迭代產(chǎn)品。

目前,我們的波爾平臺注冊用戶已經(jīng)突破了70萬。對于一個偏科研的工具平臺來說,這個體量其實非常可觀了。

每天一睜眼就有幾萬人在上面提科研相關(guān)的問題、交流研究思路,這種活躍度,在整個科研產(chǎn)品領(lǐng)域其實是很少見的。我們也希望通過這種高頻的用戶互動,持續(xù)打磨出更貼合一線科研場景的功能,把這個平臺真正做成科研人員離不開的工作入口。

AI for Science落地后帶給普通人的是更直接的影響

網(wǎng)易科技:談到AI for Science,可能更多人理解是在科學研究過程中使用一些 AI 技術(shù),在你看來AI 對科研的改變,是如何體現(xiàn)出來的?

柯國霖:按我們現(xiàn)在在做的,可以分成兩個層面來看。

一方面,是提升科學家本身的研究效率。這也是我們玻爾平臺最核心要解決的問題,比如說讀文獻、跑計算、做實驗,全流程都可以在平臺上完成。剛剛前面也講了很多,我就不贅述了。

另一方面,其實更深層的是 AI 對科學規(guī)律本身的一種建模能力。科研分很多種,但我們現(xiàn)在關(guān)注的更多是“應(yīng)用型科研”,也就是那些真正能夠落地的,比如說做出一個藥,最終可以真的被用在臨床上的那種。不是純理論推演,不是停留在紙面上的。

但現(xiàn)實是,即便科學理論已經(jīng)發(fā)展了這么多年,實際應(yīng)用科研其實還是非常依賴試錯的。例如說藥物研發(fā),雖然看著也有一些理論指導,但真要做出來也需要大量的實驗驗證。此外,試出來有效的東西,我們也很難完全理解它為什么有效。副作用也好,機制也好,理解和解釋都是滯后的。

所以在這種模式下,我們現(xiàn)在的應(yīng)用科研流程其實特別像一個漏斗。從大量的可能性開始,一層層篩,越往后成本越高,準確度也越高,但能試的數(shù)量就越少。比如說你想測試一個新藥,傳統(tǒng)流程可能要一一合成、拿動物做實驗,甚至進入人體試驗,每一步都要花很大的錢和時間。所以為了節(jié)約成本,大家慢慢在前面加一些新的流程,比如說用細胞實驗、分子屬性檢測,再往前的話,就類似用計算模擬的方法。

AI 在這里的作用,就是在這個漏斗的前半段慢慢切進去,逐漸加速或替代原來的環(huán)節(jié)。因為越靠近漏斗前端,數(shù)據(jù)越多,模型效果越好,AI起到的效果會越明顯。隨著數(shù)據(jù)積累,AI 的作用會逐步往后拓展,向更接近真實實驗的環(huán)節(jié)靠近。

你像 AlphaFold 就是個很典型的例子,它成功的主要原因也是數(shù)據(jù)---用了大量科學家?guī)资攴e累的幾十萬條蛋白實驗數(shù)據(jù),才能把結(jié)構(gòu)預測做到幾乎接近實驗精度。

但不是所有方向都像蛋白這樣,已經(jīng)積累了大量的數(shù)據(jù)。所以 AI 對應(yīng)用科研的加速不會是一蹴而就的,需要結(jié)合實際的情況,不斷地往前推進。

網(wǎng)易科技:可以再舉一些更具體的例子嗎?

柯國霖:其實最典型的例子還是 AlphaFold。這個例子很多人應(yīng)該都聽過,它背后的突破非常有代表性。

比如說在 AlphaFold 出現(xiàn)之前,很多博士生其實都在做蛋白結(jié)構(gòu)解析的工作。這個過程非常復雜,首先要把蛋白質(zhì)先合出來,然后還要做分離純化、結(jié)晶,整個過程非常耗時耗力,也有失敗的可能性。它需要的設(shè)備也比較昂貴,一臺冷凍電鏡設(shè)備動輒上千萬甚至上億。

在過去,一個訓練成熟的博士研究生,要順利完成一次蛋白結(jié)構(gòu)的解析,快的也要一兩年,慢的甚至四五年。這還只是“解一個蛋白”的工作量。你想,一個博士讀下來,可能就只能解出幾個蛋白結(jié)構(gòu)。

但 AlphaFold 出現(xiàn)之后,這種情況發(fā)生了質(zhì)變。AI 的泛化能力非常強,它不是只幫你解決一個具體結(jié)構(gòu),而是可以推廣到所有蛋白結(jié)構(gòu)的建模。雖然對一些復雜結(jié)構(gòu)可能還是需要人來微調(diào),但絕大多數(shù)情況下,它已經(jīng)不需要人再逐個去從頭解析了。這是一個真正意義上的效率躍遷。

另一個例子來自我們自己平臺的實踐。比如說我們平臺上支持的一種典型科研流程——藥物研發(fā)中的靶點調(diào)研。以前的做法是,研究員要先把靶點相關(guān)的所有藥物專利都整理出來,然后一個個閱讀、篩選,從中提取出被專利過的分子結(jié)構(gòu)和它們對應(yīng)的活性屬性。這是非常耗時的過程,我們自己內(nèi)部的藥物研發(fā)團隊也做過,通常需要兩三個人全職做上一兩個月。

而現(xiàn)在,用我們波爾平臺的多模態(tài)文獻理解能力,這個過程幾乎可以完全自動化。研究員只需要輸入靶點名稱,平臺就能自動幫你收集所有相關(guān)文獻,自動提取里面藥物的分子信息和活性屬性,自動整理成結(jié)構(gòu)化的數(shù)據(jù)表格,生成一個完整的數(shù)據(jù)庫。

而且這個過程不需要人工干預。等于說,我們通過 AI,把原來需要兩三個人一兩個月做的事情,壓縮成了幾分鐘。這就是我們真正看到的一個落地的變化,解放的是科學家的重復勞動,他們可以把時間投入到更核心的科研問題上去。

網(wǎng)易科技:當AI進入科學研究中,您覺得像科學家為代表的“人”和“技術(shù)”之間應(yīng)該是怎樣的一種關(guān)系?

柯國霖:我覺得可以這樣理解——我們現(xiàn)在用 AI,本質(zhì)上是希望它能幫我們解決問題。但這個“解決問題”的前提,是你已經(jīng)把問題定義得比較清楚了。只要目標明確,AI 的表現(xiàn)往往不錯,甚至可以不斷優(yōu)化,越做越好。

其實在科研里最難的,不是解決問題,而是發(fā)現(xiàn)問題。你得先知道“什么是一個好問題”,哪些問題值得做,哪些方向可能有價值。比如在藥物研發(fā)中,你要能判斷哪個靶點值得投入,這一步判斷本身,是一個高門檻的科研洞察。

而這一塊,AI 目前是很難勝任的。它可以幫你處理已有的問題,但如果你指望它自己去“提出一個新問題”,你會發(fā)現(xiàn)它往往是胡說八道,缺乏邏輯或科學性。

所以我覺得,科學家的核心價值依然是在前端——提出假設(shè)、發(fā)現(xiàn)問題的階段。而這并不是憑空臆想的過程。很多時候,我們是在真實世界的實踐中,通過實驗、觀察,才意識到某些地方“有問題”,或者結(jié)果和預期有差異,從而意識到這里可能存在一個“未知”。這些預期外的異常,才是科研創(chuàng)新的突破口。

但目前的大模型還是停留在數(shù)據(jù)層面,它理解的是已有數(shù)據(jù)的結(jié)構(gòu)和規(guī)律,卻沒法像人一樣,去和物理世界互動、觀察異常、生成洞察。所以它很難真正發(fā)現(xiàn)新問題。未來如果 AI 擁有了“身體”,能感知世界、行動反饋,也許會改變這種局面,但至少現(xiàn)在,還差得遠。

網(wǎng)易科技:在 AI for Science 的推動下,未來科學會朝著什么方向發(fā)展?

柯國霖:做科學,或者說做科學的應(yīng)用,歸根結(jié)底就是為了找到一些真正有用的東西。那 AI 的加入,會讓這件事變得更高效、更系統(tǒng)。

如果去暢想很久的未來,不考慮任何限制的話,那AI必然是可以實現(xiàn)一切,所以很長遠的假設(shè)沒太大意義。更關(guān)鍵的是它在中短期會發(fā)展成什么樣子,我們在有生之年能見到的未來會是怎樣。更具體來說,就是考慮現(xiàn)階段的數(shù)據(jù)、算力、硬件等客觀條件的限制,以及它們在中短期內(nèi)的發(fā)展,我們能實現(xiàn)什么?

在這個限制下,我認為可以實現(xiàn)的是AI for Science的自主智能體。 舉個例子,比如我們想要開發(fā)一種新材料,就在對話框里輸入一句話:“我想要一種又輕又隔熱的材料。”系統(tǒng)就開始自動搜文獻、查數(shù)據(jù)庫、比對已有的研究成果。如果有類似的,它會直接給你合成;如果沒有,它就從零開始設(shè)計,再進入實驗、驗證,最后把結(jié)果反饋給你。

這個過程就像是你身邊有一個“全能科學家”——思路清晰、執(zhí)行力強,而且很能卷,不睡覺不喊累。你只需要告訴它目標,它就能幫你實現(xiàn)。如果我們實現(xiàn)了這個目標,那我們就徹底改變了應(yīng)用科研的研發(fā)范式,它會大幅提高現(xiàn)在各類新物質(zhì)研發(fā)的效率,例如新藥研發(fā),新材料研發(fā)等等。

當然,要實現(xiàn)這個也還沒那么簡單,它需要智能體能夠在物理世界里做實驗,并獲取反饋。但這個目標也沒那么遙遠,我們已經(jīng)在一些場景上驗證了這個思路的可行性。這里最核心的瓶頸,還是在于跟物理世界進行迭代反饋的效率和質(zhì)量,所以智能化的儀器表證,以及自動化的實驗設(shè)備,都是實現(xiàn)這個目標的關(guān)鍵因素。

如果考慮更短期的未來的話,那就是我們玻爾所提供的平臺功能:更好的文獻理解以及科學工具的智能調(diào)用。這些功能已經(jīng)可以大幅提高科研人員的工作效率,把更多的時間用在更關(guān)鍵的環(huán)節(jié)上。

對普通人來說,AI for Science 或許看起來還很遠,但其實也很近。你日常生活用到各類產(chǎn)品,小到手機屏幕,大到汽車電池,背后其實都有AI for Science的功勞。它的快速進步也會給我們的生活水平和技術(shù)發(fā)展持續(xù)帶來切切實實的影響。

值得注意的是,在柯國霖接受采訪后不久,國際科學智能聯(lián)盟在北京成立,該聯(lián)盟由北京大學、上海交通大學、中國科學技術(shù)大學、北京科學智能研究院等50余家頂尖高校、科研院所及行業(yè)領(lǐng)軍企業(yè)共同發(fā)起,旨在通過人工智能技術(shù)驅(qū)動科研范式變革,加速科學發(fā)現(xiàn)與產(chǎn)業(yè)轉(zhuǎn)化協(xié)同發(fā)展,正式開啟“大科研時代”新篇章。

而在昨天,5月21日,由北京科學智能研究院與深勢科技聯(lián)合打造的AI科研平臺“Science Navigator(科學導航)”,也在北京大學正式上線。

該平臺是全球首個覆蓋“讀文獻-做計算-做實驗-多學科協(xié)同”全流程的AI科研系統(tǒng),后續(xù)也將服務(wù)更多院校的科研體系,為高校科研人員探索學術(shù)前沿提供技術(shù)支撐。

延伸閱讀
相關(guān)推薦
熱點推薦
人民日報痛批“既要又要還要”,基層太難,銀行該反省了

人民日報痛批“既要又要還要”,基層太難,銀行該反省了

振華觀史
2025-06-18 08:20:44
珠江裂痕刺痛14萬億廣東!深圳突襲修橋,香港慌不忙?

珠江裂痕刺痛14萬億廣東!深圳突襲修橋,香港慌不忙?

娛樂洞察點點
2025-06-18 12:42:48
這下,很多人又要返貧了

這下,很多人又要返貧了

路財主
2025-06-17 22:45:39
一碗面罰款3000元鬧劇將終結(jié)?官媒:正常吃喝不違規(guī),不能亂加碼

一碗面罰款3000元鬧劇將終結(jié)?官媒:正常吃喝不違規(guī),不能亂加碼

王五說說看
2025-06-18 11:41:31
保潔變“打劫”?貴陽小伙請家政阿姨打掃新家,下班回家直接傻眼:是真的“一干二凈”!

保潔變“打劫”?貴陽小伙請家政阿姨打掃新家,下班回家直接傻眼:是真的“一干二凈”!

極目新聞
2025-06-18 00:02:20
美媒:以伊沖突持續(xù),多名美國官員暗示“接下來24至48小時將是關(guān)鍵時刻”

美媒:以伊沖突持續(xù),多名美國官員暗示“接下來24至48小時將是關(guān)鍵時刻”

環(huán)球網(wǎng)資訊
2025-06-18 12:49:37
40歲少婦有3個男人,因情人太纏人,竟聯(lián)合30歲小情人要了對方命

40歲少婦有3個男人,因情人太纏人,竟聯(lián)合30歲小情人要了對方命

胖胖侃咖
2025-06-18 08:00:08
哈梅內(nèi)伊強硬發(fā)聲:永不妥協(xié)!特朗普警告:我知道他身在何處,我們的耐心正在耗盡!美國要空襲?美股全線殺跌

哈梅內(nèi)伊強硬發(fā)聲:永不妥協(xié)!特朗普警告:我知道他身在何處,我們的耐心正在耗盡!美國要空襲?美股全線殺跌

每日經(jīng)濟新聞
2025-06-18 10:28:43
默茨驚人發(fā)言:“向以軍致敬”

默茨驚人發(fā)言:“向以軍致敬”

環(huán)球時報新聞
2025-06-18 13:41:36
以軍打穿伊朗防空,殲35意外登頂外網(wǎng)熱搜:中國武器在中東又火了

以軍打穿伊朗防空,殲35意外登頂外網(wǎng)熱搜:中國武器在中東又火了

阿紿聊社會
2025-06-17 11:49:05
“賣的錢不夠請工人”,廣東茂名農(nóng)戶因荔枝價低放棄采摘,農(nóng)業(yè)農(nóng)村局:極個別現(xiàn)象

“賣的錢不夠請工人”,廣東茂名農(nóng)戶因荔枝價低放棄采摘,農(nóng)業(yè)農(nóng)村局:極個別現(xiàn)象

觀威海
2025-06-18 11:07:51
世俱杯再爆冷門!歐冠亞軍無緣開門紅,39歲拉莫斯攻破國米大門

世俱杯再爆冷門!歐冠亞軍無緣開門紅,39歲拉莫斯攻破國米大門

環(huán)太平洋老正太
2025-06-18 11:14:21
李國慶將于8月舉辦婚禮,女方為北大校友、前記者

李國慶將于8月舉辦婚禮,女方為北大校友、前記者

三言科技
2025-06-18 11:45:04
兩個月掙了14萬!盧克文曬6位數(shù)月薪,叫大家去他公司應(yīng)聘作家…

兩個月掙了14萬!盧克文曬6位數(shù)月薪,叫大家去他公司應(yīng)聘作家…

火山詩話
2025-06-18 07:46:31
“國防大學教授:伊朗半小時消滅以色列”?這是教科書級斷章取義

“國防大學教授:伊朗半小時消滅以色列”?這是教科書級斷章取義

可達鴨面面觀
2025-06-17 18:31:01
澳洲少年圍毆中國退役女兵遭反殺,抓頭發(fā)扇巴掌,圍觀路人引熱議

澳洲少年圍毆中國退役女兵遭反殺,抓頭發(fā)扇巴掌,圍觀路人引熱議

南宗歷史
2025-06-18 12:36:11
為什么中國不救伊朗?因為伊朗不值得同情!

為什么中國不救伊朗?因為伊朗不值得同情!

浪子的煙火人間
2025-06-18 08:44:07
許文珍,破壞醫(yī)療公平秩序,非法收受巨額財物

許文珍,破壞醫(yī)療公平秩序,非法收受巨額財物

新京報
2025-06-18 14:09:14
外媒:伊朗在以色列情報機構(gòu)眼中早已無秘密可言,他們清楚危機時刻伊朗政權(quán)高層會藏身何處,不到5天就已幾乎瓦解伊朗整個軍方領(lǐng)導層

外媒:伊朗在以色列情報機構(gòu)眼中早已無秘密可言,他們清楚危機時刻伊朗政權(quán)高層會藏身何處,不到5天就已幾乎瓦解伊朗整個軍方領(lǐng)導層

極目新聞
2025-06-18 10:48:22
老板舉報李雪琴,價值110萬的奔馳開13個月便賣給自己的父親

老板舉報李雪琴,價值110萬的奔馳開13個月便賣給自己的父親

魔都姐姐雜談
2025-06-18 11:44:18
2025-06-18 15:15:00

科技要聞

別叫我互聯(lián)網(wǎng)公司,京東的野心藏不住了

頭條要聞

獄警因給罪犯"捎買帶"獲利6萬被處分 10年后又被立案

頭條要聞

獄警因給罪犯"捎買帶"獲利6萬被處分 10年后又被立案

體育要聞

從春晚秧歌到拳擊擂臺,中國機器人打服老外

娛樂要聞

S媽曬慈善照 疑似躲避大S遺產(chǎn)風波

財經(jīng)要聞

"高端國貨"林清軒IPO:虛假宣傳成"慣犯"

汽車要聞

六色可選!秦L EV發(fā)布限定改色車膜 1999元包安裝

態(tài)度原創(chuàng)

親子
家居
房產(chǎn)
藝術(shù)
健康

親子要聞

因紅眼病被幼兒園“退娃”,兒童眼科專家給家長解惑

家居要聞

溫暖明亮 三代同堂之家

房產(chǎn)要聞

硬核補貨!海口主城買入低密洋房的機會,終于等到了!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關(guān)懷版
×
主站蜘蛛池模板: 象州县| 缙云县| 视频| 开平市| 疏附县| 锡林郭勒盟| 故城县| 建水县| 卓资县| 南昌市| 阜阳市| 商水县| 南乐县| 乐山市| 年辖:市辖区| 和田县| 竹北市| 南京市| 潜山县| 溧阳市| 乌拉特后旗| 霍州市| 通化县| 唐海县| 阳泉市| 太保市| 普安县| 苍溪县| 桂东县| 莱州市| 黄浦区| 吕梁市| 吉隆县| 沈丘县| 伊金霍洛旗| 安新县| 台北市| 波密县| 长岛县| 同心县| 南召县|